Beanbun 简介特点安装快速开始插件 介绍
简介
Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于
Workerman,下载器基于 Guzzle。
特点
- 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
- 默认使用 guzzle 进行爬取
- 支持分布式
- 支持内存、Redis 等多种队列方式
- 支持自定义URI过滤
- 支持广度优先和深度优先两种爬取方式
- 遵循 PSR-4 标准
- 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
- 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式…
安装
Beanbun 可以通过 composer 进行安装。
$ composer require kiddyu/beanbun
快速开始
<?PHP use Beanbun\Beanbun; $beanbun = new Beanbun; $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start();
在命令行中执行
$ PHP start.PHP
接下来就可以看到抓取的日志了。
插件
- beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser
Beanbun 简介特点安装快速开始插件 官网
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。