微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Crawler4j Java多线程Web爬虫

程序名称:Crawler4j

授权协议: Apache

操作系统: 跨平台

开发语言: Java

Crawler4j 介绍

Crawler4j是一个开源的java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

示例代码

import java.util.ArrayList;
import java.util.regex.Pattern;

import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.url.WebURL;

public class MyCrawler extends WebCrawler {

Pattern filters = Pattern.compile(“.*(\\.(css|js|bmp|gif|jpe?g”
+ “|png|tiff?|mid|mp2|mp3|mp4”
+ “|wav|avi|mov|mpeg|ram|m4v|pdf”
+ “|rm|smil|wmv|swf|wma|zip|rar|gz))$”);

public MyCrawler() {
}

public boolean shouldVisit(WebURL url) {
String href = url.getURL().toLowerCase();
if (filters.matcher(href).matches()) {
return false;
}
if (href.startsWith(“http://www.ics.uci.edu/")) {
return true;
}
return false;
}

public void visit(Page page) {
int docid = page.getWebURL().getDocid();
String url = page.getWebURL().getURL();
String text = page.getText();
ArrayList links = page.getURLs();
}
}

Crawler4j 官网

http://code.google.com/p/crawler4j/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐