微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python怎么用requests库写爬虫程序?如何使用requests抓取网页数据

在python更新到30版本之后推出了一个叫做requests的第三方库取代了原本用来向服务器发送请求的模块,而它也是现在开发爬虫程序和脚本所必须使用的库。下面这篇文章会详细介绍怎么在python中使用requests写爬虫程序抓取网页数据,感兴趣的话就往下看看吧。

1.因为它是一个第三方库HTTP请求库,所以需要先将其下载安装好才可以使用。win+r快捷键打开运行窗口后输出cmd并回车就能以管理员身份进入命令行窗口,在命令行中执行如下命令即可:

pip install requests

2.安装完成之后就可以新建python脚本然后将其导入使用了,而requests库内已经封装好了两个方法能够用来向服务器发送请求抓取数据返回,分别是get()方法以及post()方法。它们二者之间的主要区别在于,请求时携带的数据是否会直接显示在url链接之中。

而post()方法请求时所携带的数据就是会隐藏在表单之中不显示出来,所以一般要带参数发送HTTP请求都是用该方法代码示例如下所示:

import requests
r = requests.post(url, data = (‘key’:‘value’))

3.上一步中变量r就是保存了爬虫程序抓取指定网页后返回的数据,而这些数据使用之前还需要判断一下状态码是否正常,只有为200时才表示数据正常取到并且返回。然后还需要将其转为python3认的utf-8编码才可以识别解析出数据,最后通过该对象的text属性即可将数据获取到,详细代码示例如下所示:

if r. status_code == 200:
  r.encoding='utf-8'
  info = r.text

以上就是关于“Python怎么用requests库写爬虫程序?如何使用requests抓取网页数据”的全部内容了,希望对你有所帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐