WebPasser 介绍
WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。
1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。
2.提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。
3.提供抓取各阶段的触发器、拦截器,方便扩展。
控制台部分截图:
使用:
1.查看目标网站的页面特征,在xml中配置所需抓取内容。
2.在控制台添加一个抓取任务,将xml配置提交。
3.对单个网页测试或整个任务执行测试。
4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
5.设置定时任务。
WebPasser 官网
http://git.oschina.net/passer/webpasser
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。