关于BOSS里游戏服务器职位的八爪鱼的使用和selenium爬虫

首先在先下载一个八爪鱼软件

然后在BOSS上搜索游戏服务器

复制该链接到八爪鱼中去检索基础信息

直接生成采集设置获得基础信息

点击采集即可获得所有基础信息

在这个d列这里获得的都是每个职位的页面，我们选择需要获取的每个职位的职位描述，这通过八爪鱼是不能获取的。

因此，我们需要用到Python的selenium模块。

鼠标右键查看源代码找到我们需要的信息发现它在xpath("//div[@class='text']")下面

现在，我们可以开始最喜欢的编写代码啦！

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import time
import requests
import csv

import urllib3

http = urllib3.PoolManager(cert_reqs='CERT_NONE') # 这段代码没有意义

import openpyxl
filename = r'boss基础页面.xlsx' # 导入我们从八爪鱼获取的基础信息
inwb = openpyxl.load_workbook(filename) # 读文件

sheetnames = inwb.get_sheet_names() # 获取读文件中所有的sheet，通过名字的方式
ws = inwb.get_sheet_by_name(sheetnames[0]) # 获取第一个sheet内容

rows = ws.max_row # 获得最大行
cols = ws.max_column # 获得最大列

# webdriver模拟器
driver = webdriver.Chrome(r'D:\Anaconda3\chromedriver.exe')
# driver.get('https://www.zhipin.com/?sid=sem_pz_sgpc_title')

ws.cell(1,14).value = '职位描述'
position = list()

for i in range(2,rows):

========================中间这一段是在循环里的=====================

# 循环获取excel里第4列的url
url = ws.cell(i,4).value
# 通过webdriver去自动登陆这个网站
driver.get(url)

# 这段非常有意义因为BOSS有缓冲机制，我们需要等待一下才能获得真正的源代码
time.sleep(5)

# import lxml
# from lxml import html
# import re
# driver.maximize_window()

from lxml import html
# 获取页面源代码
html_source = driver.page_source
# 重点
html = html.fromstring(html_source)
# 获取标签下所有文本
items = html.xpath("//div[@class='text']")

from lxml import html
myWant = html.tostring(items[0], encoding='utf-8').decode('utf-8')
ws.cell(i,14).value = myWant
print(i)
print(myWant)

position.append(myWant)

# 这段是为了不要跑太快，以至于被BOSS检测到
time.sleep(5)

==============================================================

driver.quit()
saveExcel = 'E:\\boss.xlsx'
inwb.save(saveExcel)

关于BOSS里 游戏服务器 职位的八爪鱼的使用和selenium爬虫

相关推荐

关于BOSS里游戏服务器职位的八爪鱼的使用和selenium爬虫