banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

5个基于LLM的开源爬虫项目

开源 AI 爬虫项目推荐#

01. Crawl4AI#

Crawl4AI 简化了 Web 数据异步提取的过程,使 Web 数据提取简单高效,非常适合 AI 和 LLM 应用程序。

image

优势特征:#

  • 100% 开源免费:完全开放源代码。
  • 闪电般的性能:在快速可靠的抓取方面优于许多付费服务。
  • 基于 AI LLM 构建:以 JSON、HTML 或 Markdown 格式输出数据。
  • 多浏览器支持:可与 Chromium、Firefox 和 WebKit 无缝配合。
  • 可同时抓取多个 URL:一次处理多个网站,以实现高效的数据提取。
  • 全媒体支持:轻松提取图像、音频、视频以及所有 HTML 媒体标签。
  • 提取链接:获取所有内部和外部链接以获得更深入的数据挖掘。
  • XML 元数据检索:捕获页面标题、描述和其他元数据。
  • 可定制:添加用于身份验证、标题或自定义页面修改的功能。
  • 支持匿名:自定义用户代理设置。
  • 支持截图:具备强大的错误处理功能,拍摄页面快照。
  • 自定义 JavaScript:在抓取定制结果之前执行脚本。
  • 结构化数据输出:根据规则生成良好的 JSON 数据。
  • 智能提取:使用 LLM、集群、正则表达式或 CSS 选择器进行准确的数据抓取。
  • 代理验证:通过安全代理支持访问受保护的内容。
  • 会话管理:轻松处理多页导航。
  • 图像优化:支持延迟加载和响应式图像。
  • 动态内容处理:管理交互式页面的延迟加载。
  • 对 LLM 友好的头文件:为特定于 LLM 的交互传递自定义头文件。
  • 精确提取:使用关键字或指令优化结果。
  • 灵活的设置:调整超时和延迟,以实现更流畅的抓取。
  • iframe 支持:提取 iframe 中的内容,以获得更深入的数据提取。

02. ScrapeGraphAI#

ScrapeGraphAI 是一个用于 Web 数据爬取的 Python 库,它使用 LLM 和逻辑图为网站或本地文档(XML、HTML、JSON、Markdown 等)创建抓取流程。

image

03. LLM Scraper#

LLM Scraper 是一个基于 LLM 的爬虫 TypeScript 库,并且支持代码生成功能。

image

优势特征:#

  • 支持本地或 MaaS 提供商:兼容 Ollama、GGUF、OpenAI、Vercel AI SDK。
  • 完全类型安全:使用 Zod 定义的模式,基于 TypeScript 实现。
  • 基于 Playwright 框架:流式对象支持。
  • 代码生成:支持代码生成功能。
  • 四种数据格式化模式
    • HTML:用于加载原始 HTML。
    • Markdown:用于加载 Markdown。
    • Text:用于加载提取的文本(使用 Readability.js)。
    • Image:用于加载屏幕截图(仅限多模式)。

04. Crawlee Python#

image

Crawlee 是一个 Web 爬虫以及浏览器自动化 Python 库。通过 AI、LLM、RAG 或 GPT 提取网页数据,包括从网站下载 HTML、PDF、JPG、PNG 和其他文件。适用于 BeautifulSoup、Playwright 和原始 HTTP,支持有头和无头模式,以及代理轮换规则。


05. CyberScraper 2077#

CyberScraper 2077 是一款基于 OpenAI、Gemini 或本地大模型的 Web 爬取工具,专为精确高效的数据提取而设计,适合数据分析师、技术爱好者和任何需要简化在线信息访问的人。

image

优势特点:#

  • 基于人工智能的提取:利用人工智能模型智能理解和解析 Web 内容。
  • 流畅的流线型界面:友好的用户 GUI。
  • 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式导出数据。
  • Tor 网络支持:安全地抓取.onion 网站,提供自动路由和安全功能。
  • 隐身模式:实现隐身模式参数,帮助避免被检测为机器人。
  • LLM 支持:提供支持各种 LLM 的功能。
  • 异步操作:异步操作以实现快速操作。
  • 智能解析:抓取内容如同直接从主记忆中提取。
  • 缓存:使用 LRU 缓存和自定义字典实现基于内容和查询的缓存,减少冗余 API 调用。
  • 支持上传到 Google 表格:轻松将提取的 CSV 数据上传到 Google 表格。
  • 验证码绕过:可通过使用 URL 末尾的 captcha 来绕过验证码(目前只能在本地工作,不能在 Docker 上工作)。
  • 当前浏览器:使用本地浏览器环境,帮助绕过 99% 的机器人检测。
  • 代理模式(即将推出):内置代理支持,帮助绕过网络限制。
  • 浏览页面:浏览网页并从不同页面抓取数据。
加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。