前置环境:python3.7,Pycharm2019.3.3
1.selenium安装
pip install selenium
查看是否安装成功:pip show selenium
2.driver安装
可使用不同浏览器(chrome, firefox, IE等)的driver。
使用chromedriver,下载chromedriver.exe,放到python的Script路径下。
chromedriver下载:
Chrome浏览器依次点右上角的三个点–帮助-关于GoogleChrome 查看版本号,然后打开网址(https://npm.taobao.org/mirrors/chromedriver)选择与浏览器版本号最接近的驱动下载。
3.示例
import os
from selenium import webdriver
from urllib.parse import quote
from bs4 import BeautifulSoup
from time import sleep
def getUrl(url):
#连接Chrome浏览器
browser = webdriver.Chrome()
ids = str(url)
#搜狗微信搜索公众号的网页网址
gzhUrl = 'https://gzh.sogou.com/weixin?type=1&query=' + quote(ids) + '&ie=utf8&s_from=input&_sug_=n&_sug_type_='
browser.get(gzhUrl)
sleep(1)
browser.find_element(by=By.XPATH, value="/html/body/div[2]/div/div[3]/ul/li/dl[3]/dd/a").click()
browser.switch_to.window(browser.window_handles[-1])
sleep(5)
html = browser.page_source
#soup = BeautifulSoup(html, 'lxml')
return html
if __name__ == "__main__":
htmltext = getUrl('战略前沿技术')
print(htmltext)
注:xpath获取
Chrome浏览器-右上三个点-更多工具-开发者工具;
鼠标放到右侧的标签上找到“最近文章”下的文章链接,右击-copy-copy xPath获取。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。