xxl-crawler 分布式爬虫框架XXL-CRAWLER特性文档地址技术交流 介绍
分布式爬虫框架XXL-CRAWLER
XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有”多线程、异步、IP动态代理、分布式、JS渲染”等特性;
特性
-
1、简洁:API直观简洁,可快速上手;
-
2、轻量级:底层实现仅强依赖jsoup,简洁高效;
-
3、模块化:模块化的结构设计,可轻松扩展
-
4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个PageVO
-
5、多线程:线程池方式运行,提高采集效率;
-
6、分布式支持:通过扩展 “RunData” 模块,并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
-
7、JS渲染:通过扩展 “PageLoader” 模块,支持采集JS动态渲染数据。原生提供Jsoup(快速、推荐)和HtmlUnit(较慢、JS渲染)两种实现,支持自由扩展其他实现。
-
9、代理IP:对抗反采集策略规则WAF;
-
11、异步:支持同步、异步两种方式运行;
-
13、去重:防止重复爬取;
-
15、自定义请求信息,如:请求参数、Cookie、Header、UserAgent轮询、Referrer等;
-
16、动态参数:支持运行时动态调整请求参数;
-
17、超时控制:支持设置爬虫请求的超时时间;
文档地址
技术交流
xxl-crawler 分布式爬虫框架XXL-CRAWLER特性文档地址技术交流 官网
http://www.xuxueli.com/xxl-crawler/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。