微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python如何爬取网页中的文字?python爬虫只爬取文字的方法

Python爬虫的学习也是在学习编程语言的基础中要掌握的知识,我们知道爬虫可以干很多的事情,比如:数据的收集、流量获取、程序自动化等,其中最大的特点就是数据的收集,有很多的小伙伴问,怎么在爬取网页的时候获取到的都是文字,下面就带大家一起了解一下。

一、编写爬虫的思路

当我们在使用爬虫收集信息的时候,首先要确定的就是我们要操作的步骤,具体的操作如下:

1、先确定我们要下载的目标,也就是要爬取的网页,并且找到这个网页打开。

2、进入到网页中,打开网页后使用F12打开开发者模式,进入之前,可以点击Network,在这里就可以看到很多信息,一般网页中的文字信息都会保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。如果需要的数据找不到的时候,可以需要输入的信息,使用快捷键ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

3、注意编码的格式,在输入的字符集中要将字符的编码设置为utf_8,因为网页中的编码采用的是GBK,如果我们不设置的话,就会出现乱码的情况。

4、最后将获得到的数据保存即可。

二、获取文字信息

下面通过一个Python爬虫获取网页中文字的实例进行讲解,相关的代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 打开一个网页的界面
url = 'https://…...html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 设置编程的格式
response.encoding='utf-8'
# 获取网页界面中的文字信息。
html = response.text
print(html)

以上就是关于python如何爬取网页中的文字Python爬虫只爬取文字方法的相关内容的讲解了,希望能改大家的学习带来帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐