优草派  >   Python

python如何爬取网页中的文字?python爬虫只爬取文字的方法

翟嘉慧            来源:优草派

Python爬虫的学习也是在学习编程语言的基础中要掌握的知识,我们知道爬虫可以干很多的事情,比如:数据的收集、流量获取、程序自动化等,其中最大的特点就是数据的收集,有很多的小伙伴问,怎么在爬取网页的时候获取到的都是文字,下面就带大家一起了解一下。

python如何爬取网页中的文字?python爬虫只爬取文字的方法

一、编写爬虫的思路

当我们在使用爬虫收集信息的时候,首先要确定的就是我们要操作的步骤,具体的操作如下:

1、先确定我们要下载的目标,也就是要爬取的网页,并且找到这个网页打开。

2、进入到网页中,打开网页后使用F12打开开发者模式,进入之前,可以点击Network,在这里就可以看到很多信息,一般网页中的文字信息都会保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。如果需要的数据找不到的时候,可以需要输入的信息,使用快捷键ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

3、注意编码的格式,在输入的字符集中要将字符的编码设置为utf_8,因为网页中的编码采用的是GBK,如果我们不设置的话,就会出现乱码的情况。

4、最后将获得到的数据保存即可。

二、获取文字信息

下面通过一个Python爬虫获取网页中文字的实例进行讲解,相关的代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 打开一个网页的界面
url = 'https://…...html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 设置编程的格式
response.encoding='utf-8'
# 获取网页界面中的文字信息。
html = response.text
print(html)

以上就是关于python如何爬取网页中的文字?python爬虫只爬取文字的方法的相关内容的讲解了,希望能改大家的学习带来帮助。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。