新一代爬虫平台！不写代码即可完成爬虫...

大家好，我是 Java陈序员。

今天，给大家介绍一个优秀的爬虫平台，无需编写代码，只要通过简单的流程配置，即可实现爬虫。

关注微信公众号：【Java陈序员】，获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。

项目介绍

spider-flow —— 新一代爬虫平台，以流程图的方式定义爬虫，是一个高度灵活可配置的爬虫平台。

功能特性：

支持Xpath/JsonPath/css选择器/正则提取/混搭提取
支持JSON/XML/二进制格式
支持多数据源、sql select/selectInt/selectOne/insert/update/delete
支持爬取JS动态渲染(或ajax)的页面
支持代理
支持自动保存至数据库/文件
常用字符串、日期、文件、加解密等函数
支持插件扩展(自定义执行器，自定义方法）
任务监控,任务日志
支持HTTP接口
支持Cookie自动管理
支持自定义函数

平台还支持 Redis、MongoDB 等多种插件，可参考对应的插件文档进行集成。

❗❗❗注意：请友善使用 spider-flow，遵守蜘蛛协议，不要将 spider-flow 用于任何非法用途。

功能截图

爬虫列表

爬虫流程图配置

爬虫Debug调试

爬虫定时任务设置

任务通知

爬虫日志

全局变量

自定义函数

数据源管理

快速开始

1、拉取代码

git clone https://github.com/ssssssss-team/spider-flow.git

2、创建数据库

CREATE DATABASE `spiderflow` DEFAULT CHaraCTER SET utf8mb4 COLLATE utf8mb4_bin;

3、将项目以 Maven 工程的形式导入到 IDEA

4、修改目录下 spider-flow/spider-flow-web/src/main/resources 的配置文件 application.properties 中的数据库连接信息

## 数据库用户名
spring.datasource.username=root
## 数据库密码
spring.datasource.password=root
## 数据库连接地址
spring.datasource.url=jdbc:MysqL://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

5、执行主启动类 org.spiderflow.SpiderApplication 启动项目

6、浏览器访问

http://localhost:8088/

spider-flow 作为一个以流程驱动爬虫的平台，其中的代码实现值得我们深入学习。

❗❗❗注意：请友善使用 spider-flow，遵守蜘蛛协议，不要将 spider-flow 用于任何非法用途。

最后，贴上项目地址：

https://github.com/ssssssss-team/spider-flow

最后

推荐的开源项目已经收录到 GitHub 项目，欢迎 Star：

https://github.com/chenyl8848/great-open-source-project

或者访问网站，进行在线浏览：

https://chencoding.top:8090/#/

大家的点赞、收藏和评论都是对作者的支持，如文章对你有帮助还请点赞转发支持下，谢谢！

新一代爬虫平台！不写代码即可完成爬虫...

项目介绍

功能截图

快速开始

最后

相关推荐