目录
selenium爬取维基百科信息
Selenium调用Firefox浏览器进行数据采集。
操作环境:JetBrains PyCharm 2018.2.2 x64编译器,Python 3.6
软件和包的安装
- 安装Firefox浏览器(使用默认路径安装);
- 安装下载geckodriver(Firefox的官方Webdriver),下载地址为:https://github.com/mozilla/geckodriver/releases ,将geckodriver.exe文件放在python的根目录下面,否则会出错;
- 在pycharm编译器中安装selenium包;
- 测试是否安装成功;
from selenium import webdriver
browser = webdriver.Firefox()
如果火狐浏览器自动打开,则说明配置成功。
爬取某一固定网页的维基百科数据
首先,使用web开发者工具查看网页的结构.
然后,使用webdriver打开浏览器,使用get()函数打开网址,精心路径定位,爬取数据。
from selenium import webdriver
import time
import pandas as pd
browser = webdriver.Firefox()
url="https://www.wikiwand.com/zh-hans/"
word = "国王与我"
browser.get(url+word)
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 定位到 li 标签
title = browser.find_elements_by_xpath("//*[@id='overview']/p")
introduction = browser.find_elements_by_xpath("/html/body/div[2]/div[1]/article/div/section[1]/p")
print(title, '\n', introduction, '\n', plot, '\n')
参考教程:
[1]: https://yq.aliyun.com/articles/26033
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。