微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用request与正则表达式爬取bangumi动画排行榜

import json
import requests
from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/65.0.3325.162 Safari/537.36‘ } response = requests.get(url,headers=headers) if response.status_code == 200: return response.content.decode(‘utf-8‘) return None except RequestException: return None def parse_one_page(html): pattern = re.compile( ‘<h3>.*?class="l">(.*?)</a>.*?<small>Rank.*?</small>(\d+)</span>‘,re.S) items = re.findall(pattern,html) print(items) def main(offset): url = ‘http://bangumi.tv/anime/browser?sort=rank&page=‘ + str(offset) html = get_one_page(url) parse_one_page(html) if __name__ == ‘__main__‘: for i in range(1,20): main(offset=i) time.sleep(1)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐