微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

关于BOSS里 游戏服务器 职位的八爪鱼的使用和selenium爬虫

首先在 先下载一个 八爪鱼 软件

然后在BOSS上搜索 游戏服务器 

复制该链接到八爪鱼中去检索 基础信息

直接生成采集设置 获得基础信息

 

 

 点击 采集 即可获得所有基础信息

 

在这个d列这里获得的都是 每个职位的页面 ,我们选择需要获取的每个职位的职位描述,这通过八爪鱼是不能获取的。

因此,我们需要用到Python的selenium模块。

 

 

 

 

鼠标右键查看源代码 找到我们需要的信息 发现它在xpath("//div[@class='text']")下面

 

 

 

 

 现在,我们可以开始最喜欢的编写代码啦!

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import time
import requests
import csv

import urllib3

http = urllib3.PoolManager(cert_reqs='CERT_NONE') # 这段代码没有意义

import openpyxl
filename = r'boss基础页面.xlsx' # 导入我们从八爪鱼获取的基础信息
inwb = openpyxl.load_workbook(filename) # 读文件

sheetnames = inwb.get_sheet_names() # 获取文件中所有的sheet,通过名字的方式
ws = inwb.get_sheet_by_name(sheetnames[0]) # 获取一个sheet内容

rows = ws.max_row # 获得最大行
cols = ws.max_column # 获得最大列

 

# webdriver模拟器
driver = webdriver.Chrome(r'D:\Anaconda3\chromedriver.exe')
# driver.get('https://www.zhipin.com/?sid=sem_pz_sgpc_title')

ws.cell(1,14).value = '职位描述'
position = list()

for i in range(2,rows):

========================中间这一段是在循环里的=====================

# 循环获取excel里第4列的url
url = ws.cell(i,4).value
# 通过webdriver去自动登陆这个网站
driver.get(url)

# 这段非常有意义 因为BOSS有缓冲机制,我们需要等待一下才能获得真正的源代码
time.sleep(5)

# import lxml
# from lxml import html
# import re
# driver.maximize_window()

from lxml import html
# 获取页面代码
html_source = driver.page_source
# 重点
html = html.fromstring(html_source)
# 获取标签下所有文本
items = html.xpath("//div[@class='text']")

from lxml import html
myWant = html.tostring(items[0], encoding='utf-8').decode('utf-8')
ws.cell(i,14).value = myWant
print(i)
print(myWant)

position.append(myWant)

# 这段是为了不要跑太快,以至于被BOSS检测到
time.sleep(5)

==============================================================

driver.quit()
saveExcel = 'E:\\boss.xlsx'
inwb.save(saveExcel)

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐