微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

WebFetch 极简网络爬虫组件

程序名称:WebFetch

授权协议: Apache

操作系统: 跨平台

开发语言: Java

WebFetch 介绍

WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。

WebFetch 要达到的目标:

  • 没有第三方依赖jar包

  • 减少内存使用

  • 提高cpu利用率

  • 加快网络爬取速度

  • 简洁明了的api接口

  • 能在Android设备上稳定运行

  • 小巧灵活可以方便集成的网页抓取组件

使用文档

WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置页面处理方法认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改认操作)。

启动代码

WebFetch webFetch = new WebFetch(); 
webFetch.addBeginTask("https://github.com").start();

停止代码

webFetch.close();

WebFetch再执行start()方法后不会阻塞程序执行,可以加入多个网页地址,目前支持http与https,至少需要一个起始地址。

一个版本还需要不断改进与完善,希望大家提出宝贵的改进意见,感谢大家的支持

联系方式:[email protected]

WebFetch 官网

https://git.oschina.net/hexleowang/WebFetch

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐