微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用JavaScript或Web表单爬行网站

我有一个webcrawler应用程序。 它成功地爬取了最常见和最简单的网站。 现在我遇到了一些types的网站,其中HTML文件是通过FORMS或JavaScriptsdynamic生成的。 我相信他们可以被抓取,我只是不知道如何。 现在,这些网站不显示实际的HTML页面。 我的意思是,如果我浏览IE或Firefox的页面HTML代码不匹配IE或Firefox的实际内容。 这些网站包含文本框,checkBox等…所以我相信他们就是他们所说的“Web窗体”。 其实我对Web开发并不熟悉,所以如果我错了,请纠正我。

我的问题是,有没有人和我一样处于类似的状况,并成功地解决了这些“挑战”? 有没有人知道关于networking爬虫的某些书或文章? 那些属于这些高级types的网站?

谢谢。

在Qt4版本中没有显示SVG图标

rubygem家在Windows上

如何在Windows中使用Python检测闪存驱动器插件

VS 2013 OpenCV错误:无法find或打开PDB文件

停止完成后退出程序

无法生成一个临时类(结果= 1)任何想法?

是否有可能在“RightToLeft”属性设置为“是”的comboBox中有左alignment的文本?

是否有和Windows自带自动化(OLE2)的HTTP客户端?

使用Java控制Windows应用程序

完全混淆了GTK,GTK +,GTK + 3,PyGobject等

我找到了一个处理深层网络的文章,而且它非常有趣,我认为这回答了我上面的问题。

http://trycatchfail.com/blog/post/2008/11/10/Creating-a-deep-web-crawler-with-NET-Background.aspx

得爱这个

这里有两个单独的问题。

形式

作为一个经验法则,爬虫接触表单。

为特定的网站编写一些东西可能是适当的,这些网站提交预定(或半随机)的数据(特别是在为自己的Web应用程序编写自动化测试时),但是一般的抓取工具应该保持良好的状态。

描述如何提交表单数据的规范可以在http://www.w3.org/TR/html4/interact/forms.html#h-17.13找到 ,可能有一个C#库可以帮助。

JavaScript的

JavaScript是一个相当复杂的野兽。

有三种常见的方法可以处理它:

编写你的履带,使其重复您关心的特定网站的JS功能

自动化网络浏览器

在env.js中使用类似Rhino的东西

AbotX处理JavaScript的开箱即用。 它不是免费的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐