我正在使用Apache Nutch 1.10来抓取网页并提取页面中的内容.一些链接包含在ajax调用时加载的动态内容. Nutch无法抓取并提取ajax的动态内容.我怎么解决这个问题?有什么解决方案吗?如果是,请帮助我解答.
提前致谢.
解决方法:
大多数Web爬网程序库都不提供开箱即用的javascript呈现.您通常必须插入另一个提供js渲染的库或产品,如Selenium或PhantomJS.
这是一个tutorial using nutch and Selenium.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。