开源 AI 爬虫项目推荐#
01. Crawl4AI#
Crawl4AI 简化了 Web 数据异步提取的过程,使 Web 数据提取简单高效,非常适合 AI 和 LLM 应用程序。
优势特征:#
- 100% 开源免费:完全开放源代码。
- 闪电般的性能:在快速可靠的抓取方面优于许多付费服务。
- 基于 AI LLM 构建:以 JSON、HTML 或 Markdown 格式输出数据。
- 多浏览器支持:可与 Chromium、Firefox 和 WebKit 无缝配合。
- 可同时抓取多个 URL:一次处理多个网站,以实现高效的数据提取。
- 全媒体支持:轻松提取图像、音频、视频以及所有 HTML 媒体标签。
- 提取链接:获取所有内部和外部链接以获得更深入的数据挖掘。
- XML 元数据检索:捕获页面标题、描述和其他元数据。
- 可定制:添加用于身份验证、标题或自定义页面修改的功能。
- 支持匿名:自定义用户代理设置。
- 支持截图:具备强大的错误处理功能,拍摄页面快照。
- 自定义 JavaScript:在抓取定制结果之前执行脚本。
- 结构化数据输出:根据规则生成良好的 JSON 数据。
- 智能提取:使用 LLM、集群、正则表达式或 CSS 选择器进行准确的数据抓取。
- 代理验证:通过安全代理支持访问受保护的内容。
- 会话管理:轻松处理多页导航。
- 图像优化:支持延迟加载和响应式图像。
- 动态内容处理:管理交互式页面的延迟加载。
- 对 LLM 友好的头文件:为特定于 LLM 的交互传递自定义头文件。
- 精确提取:使用关键字或指令优化结果。
- 灵活的设置:调整超时和延迟,以实现更流畅的抓取。
- iframe 支持:提取 iframe 中的内容,以获得更深入的数据提取。
02. ScrapeGraphAI#
ScrapeGraphAI 是一个用于 Web 数据爬取的 Python 库,它使用 LLM 和逻辑图为网站或本地文档(XML、HTML、JSON、Markdown 等)创建抓取流程。
03. LLM Scraper#
LLM Scraper 是一个基于 LLM 的爬虫 TypeScript 库,并且支持代码生成功能。
优势特征:#
- 支持本地或 MaaS 提供商:兼容 Ollama、GGUF、OpenAI、Vercel AI SDK。
- 完全类型安全:使用 Zod 定义的模式,基于 TypeScript 实现。
- 基于 Playwright 框架:流式对象支持。
- 代码生成:支持代码生成功能。
- 四种数据格式化模式:
- HTML:用于加载原始 HTML。
- Markdown:用于加载 Markdown。
- Text:用于加载提取的文本(使用 Readability.js)。
- Image:用于加载屏幕截图(仅限多模式)。
04. Crawlee Python#
Crawlee 是一个 Web 爬虫以及浏览器自动化 Python 库。通过 AI、LLM、RAG 或 GPT 提取网页数据,包括从网站下载 HTML、PDF、JPG、PNG 和其他文件。适用于 BeautifulSoup、Playwright 和原始 HTTP,支持有头和无头模式,以及代理轮换规则。
05. CyberScraper 2077#
CyberScraper 2077 是一款基于 OpenAI、Gemini 或本地大模型的 Web 爬取工具,专为精确高效的数据提取而设计,适合数据分析师、技术爱好者和任何需要简化在线信息访问的人。
优势特点:#
- 基于人工智能的提取:利用人工智能模型智能理解和解析 Web 内容。
- 流畅的流线型界面:友好的用户 GUI。
- 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式导出数据。
- Tor 网络支持:安全地抓取.onion 网站,提供自动路由和安全功能。
- 隐身模式:实现隐身模式参数,帮助避免被检测为机器人。
- LLM 支持:提供支持各种 LLM 的功能。
- 异步操作:异步操作以实现快速操作。
- 智能解析:抓取内容如同直接从主记忆中提取。
- 缓存:使用 LRU 缓存和自定义字典实现基于内容和查询的缓存,减少冗余 API 调用。
- 支持上传到 Google 表格:轻松将提取的 CSV 数据上传到 Google 表格。
- 验证码绕过:可通过使用 URL 末尾的 captcha 来绕过验证码(目前只能在本地工作,不能在 Docker 上工作)。
- 当前浏览器:使用本地浏览器环境,帮助绕过 99% 的机器人检测。
- 代理模式(即将推出):内置代理支持,帮助绕过网络限制。
- 浏览页面:浏览网页并从不同页面抓取数据。