微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何将网页保存为地址为.aspx的文件

我想将一个网页保存到一个文件。 地址就像

http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=487319

我尝试了wget和curl,他们说'找不到匹配'。

要做的是,我想写一个像下面这样的python脚本来保存许多类似的页面

foreach prop_id in range(400000,410000): cmd = 'wget http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id={} > {}.txt'.format(prop_id,prop_id) os.system(cmd)

背景:我需要分析评估价值,为我的财产税抗议build立一个案例。 手动点击事物来收集样品太费时了!

最简单的方法是使用请求库。 首先,我们应该得到会话ID(在我们访问主页后,它将会在一个cookie中)。 然后,我们可以使用这些cookie下载页面(会话ID)。

import requests session = requests.Session() #Get session cookies (session ID) index_url = 'http://propaccess.traviscad.org/clientdb/?cid=1' index_request = session.get(index_url) session_cookies = index_request.cookies #Download pages for prop_id in range(400000,410001): url = 'http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=%s' % prop_id r = session.get(url,cookies = session_cookies) print r.text #r.text contains page content

页面内容将在r.text 。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐