微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

java-以编程方式搜索博客,论坛,新闻站点

我想创建一个工具,该工具生成某个单词或短语在博客,论坛,社交媒体和新闻网站中出现的频率的统计信息. e.像这样的东西:

2011年11月20日;足球; 800302

2011年11月21日;足球; 1000000

等等

每天,此工具都会进行搜索,然后在特定的一天保存提及搜索项的次数.

如何在JavaRuby中实现此功能(以编程方式进行Google / Yandex搜索)?

有Google Blog Search API(http://code.google.com/apis/blogsearch/),但现在已弃用.

解决方法:

如果您有特定的网站,则可以每天抓取一次,但是,如果您正在寻找帖子中提到的更多网站,男孩,那就困难了.我会尝试使用Google Trends-http://www.google.com/trends?q=football或Google Blog Search http://www.google.com/search?q=football&tbm=blg.

它将为您节省很多麻烦.否则,您可能需要编写自己的搜寻器并为非常大量的数据编制索引.在这种情况下,您可能需要查看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐