在Groovy中,如何抓取网页并删除HTML标签等,只留下文档的文本?我希望将结果转储到一个集合中,这样我就可以构建一个单词频率计数器.
最后,让我再次提一下,我想在Groovy中这样做.
解决方法:
假设您希望使用Groovy(基于groovy标记进行猜测),您的方法可能是面向shell的脚本或使用Java库.在shell脚本的情况下我会同意moogs,使用Lynx或Elinks可能是最简单的方法.否则请查看HTMLParser并查看Processing Every Word in a File(向下滚动以查找相关代码段)
您可能一直在寻找与Groovy一起使用的Java库来进行HTML解析,因为它似乎没有任何Groovy库.如果你没有使用Groovy,那么请发布所需的语言,因为那里有很多HTML to text tools,具体取决于你正在使用的语言.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。