简介
将一个网站的镜像到本地,主要用于学习和提升,涉及到python,数据库,多线程,锁,字符编码,http规范等知识点。目前仅在linux平台测试运行过。
功能:
-
本程序目前支持断点下载,就是如果程序在运行中意外终止,重新运行就可以继续恢复到之前状态,不用重新再去运行程序。
-
支持多配置文件,通过在程序运行时指定不同的配置文件,就可以通过运行多个不同的任务并行下载.
-
通过自定义线程池,可达到在所有链接访问一遍之后,自动停止运行并推出。
-
编码自适应,通过解析response响应头的数据和网页中的Meta信息来筛选出最符合当前网页的编码
-
不仅能够解析出html中的url,同时也支持解析css中的URL
-
可指定运行目录,如果指定运行目录,在数据和日志就会输出到指定目录下
环境配置
-
系统:Linux 或 Mac OS
-
数据库: MysqL
-
python3, pip3, 开发环境是3.6.4
使用方式
-
首先需要初始化环境,通过运行 bin/init.sh脚本来初始化环境, 目的是创建MysqL数据库和表,初始化python3虚拟环境
-
配置文件, 主要关注site::key, site::domain, site::start_urls, site::thread_cnt, log::path, MysqL:
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。