AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

爬虫2 ajax请求抓取

时间：2022-09-30分类：Ajax作者：编程之家原文地址

　　概述： ajax, 异步的，动态加载数据到网页。

　　　　用户浏览器请求-------后台响应页面框架------ajax请求后台数据加载到页面框架-------用户下拉等操作-------ajax异步请求后台数据，加载到现有框架，无需重新加载整个页面。

　　爬取需求：爬取使用ajax动态加载数据的页面时，因数据不在页面框架中存放，所以无法直接获取。

　　　　　　1. 需要使用浏览器等工具，先找到ajax返回的响应：url + 数据

　　　　　　2. 根据url，查看参数变化规律，编写动态url

　　　　　　3. 使用urllib库的模块进行访问和获取数据

"""用ajax动态加载页面数据的网页，示例页面：豆瓣电影--排行榜--喜剧"""

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
import time

"""
火狐浏览器 75.0（64位）
    1. 在动态加载中，可以通过浏览器F12查看network网络数据交互，（火狐：选择‘XHR’,根据浏览器不同，点击不同选项进行查看）
    2. 可以得到url：'https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20'
    3. 其中:type参数没有变化=24--推测：喜剧类型、interval_id没有变化--间隔、limit的值一直变化--加载影片个数
"""


def get_html(url):
    headers = {
        'User-Agent': UserAgent().chrome
    }
    # print(url)
    request = Request(url, headers=headers)
    response = urlopen(request)
    info = response.read()
    return info


def save_html(data, filename):
    with open(filename, 'wb') as f:
        print('正在保存{}...'.format(filename))
        f.write(data)


def main():
    
    while True:
        type = 24
        limit = int(input("请输入要下载前几页的影视信息: "))
        args = {
            "type": type,
            "limit": limit*20
        }
        url = "https://movie.douban.com/j/chart/top_list?{}&interval_id=100%3A90&action=&start=0".format(urlencode(args))
        try:
            data = get_html(url)
        except:
            continue
            print('没有这么多页信息')
        else:
            filename = '豆瓣电影-喜剧-' + str(limit*20) + '条.html'
            save_html(data, filename)


if __name__ == '__main__':
    main()

　　　　　　

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

ajax 上传文件项目下载

IE6是一个非常老旧的网页浏览器，虽然现在很少人再使用它，但是在某些特殊情况下，我们可能还需要使用IE6来访问网页。而在IE6中，我们通常会使用JavaScript来提交表单，来看一下具体操作。

作者：编程之家时间：2023-08-20

PHP中的count()函数是用来计算数组或容器中元素的个数。这个函数十分方便，在编写代码时使用频率也非常高。无论你是要统计数组的长度、统计字符串中字符出现的次数还是统计对象中属性的个数，count()都可以帮助你轻松

作者：编程之家时间：2023-08-20

ajax 不返回值写法

使用 AJAX（Asynchronous JavaScript and XML）技术可以在不刷新整个页面的情况下，向服务器发送请求并接收响应。通常来说，我们使用 AJAX 请求是为了获取后台数据，并将其展示在前端页面上。然而，有时候我们只需要

作者：编程之家时间：2023-08-20

ajax 下载文件 blob

Ajax（Asynchronous JavaScript and XML）是一种用于改进网页用户体验的技术，通过与服务器进行异步通信，实现在网页上局部刷新数据而不必整个页面刷新的功能。在实际开发中，我们经常需要从服务器端下载文件，而传统

作者：编程之家时间：2023-08-20

ajax 下载excel文件流

本文将介绍如何通过AJAX下载Excel文件流。通过AJAX，我们可以在不刷新整个页面的情况下，向服务器发送请求并获取响应数据。在某些场景下，我们需要通过AJAX下载Excel文件流，以便于在前端使用或保存到本地。本文将详

作者：编程之家时间：2023-08-20

ajax .get .post

Ajax是一种用于客户端和服务器之间的异步通信技术。通过Ajax，我们可以在不刷新整个页面的情况下向服务器发送请求并获得响应数据。而在Ajax的基础上，.get和.post是两种常用的请求方法，它们分别用于发送GET和POST请

作者：编程之家时间：2023-08-20

ajax 上传 excel

AJAX（Asynchronous JavaScript and XML）是一种在网页上实现异步数据传输的技术。通过AJAX，网页可以在不刷新整个页面的情况下与服务器进行数据交互，提升用户体验和页面性能。在实际应用中，AJAX广泛用于表单提交、

作者：编程之家时间：2023-08-20

ajax 下拉 360取不到值

在使用Ajax下拉加载数据的过程中，有时候会出现无法取到360度的问题。这个问题可能是由于代码逻辑的问题导致的，也有可能是网络延迟引起的。为了解决这个问题，我们需要对代码进行仔细排查，并且在合适的地方添加适当

作者：编程之家时间：2023-08-20

ajax 与 .post 区别

本文将介绍Ajax和.post之间的区别。Ajax是一种用于在网页上进行异步通信的技术，能够在不刷新整个页面的情况下更新部分页面内容。.post是jQuery中的一个方法，用于向服务器发送POST请求。虽然它们都可以用于发送异步

作者：编程之家时间：2023-08-20

ajax 上传文件目录权限

AJAX（Asynchronous JavaScript and XML）是一种在Web页面上进行异步数据请求和交互的技术。它的出现使得页面在后台与服务器进行数据交互的同时，不需要重新加载整个页面。在网页开发中，常常需要实现文件上传功能，

作者：编程之家时间：2023-08-20