优草派 > Python

python如何爬取网页中的文字？python爬虫只爬取文字的方法

翟嘉慧 2023-01-10 11:40:08 来源：优草派

Python爬虫的学习也是在学习编程语言的基础中要掌握的知识，我们知道爬虫可以干很多的事情，比如：数据的收集、流量获取、程序自动化等，其中最大的特点就是数据的收集，有很多的小伙伴问，怎么在爬取网页的时候获取到的都是文字，下面就带大家一起了解一下。

一、编写爬虫的思路

当我们在使用爬虫收集信息的时候，首先要确定的就是我们要操作的步骤，具体的操作如下：

1、先确定我们要下载的目标，也就是要爬取的网页，并且找到这个网页打开。

2、进入到网页中，打开网页后使用F12打开开发者模式，进入之前，可以点击Network，在这里就可以看到很多信息，一般网页中的文字信息都会保存在一个html文件中。点击文件后可以看到response，文字信息都包含在response中。如果需要的数据找不到的时候，可以需要输入的信息，使用快捷键ctrl+f，进行搜索。查看信息前后包含哪些特定字段。

3、注意编码的格式，在输入的字符集中要将字符的编码设置为utf_8，因为网页中的编码采用的是GBK，如果我们不设置的话，就会出现乱码的情况。

4、最后将获得到的数据保存即可。

二、获取文字信息

下面通过一个Python爬虫获取网页中文字的实例进行讲解，相关的代码如下：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 打开一个网页的界面
url = 'https://…...html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 设置编程的格式
response.encoding='utf-8'
# 获取网页界面中的文字信息。
html = response.text
print(html)

以上就是关于python如何爬取网页中的文字？python爬虫只爬取文字的方法的相关内容的讲解了，希望能改大家的学习带来帮助。

Python python爬虫文字 python方法

【原创声明】凡注明“来源：优草派”的文章，系本站原创，任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则，本站将依法追究其法律责任。

相关问答: sql判断字段是否存在; MySQL查看表命令; csv文件python; python键值对; anaconda3安装后找不到; cpu系统是什么

相关阅读: 1 gre怎么安装？; 2 python封装成exe文件？; 3 python判断一个文件是否存在？; 4 python后台执行命令？; 5 python友好时间？; 6 python下载到d盘能用吗？

热门标签

python模块 python错误 python数组 python前端 python比大小 python加密 python序列 python返回值 python内存 python数字运算

TOP 10

周排行
月排行

python如何爬取网页中的文字？python爬虫只爬取文字的方法

微信扫码，学习更方便