banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

5個基於LLM的開源爬蟲項目

開源 AI 爬蟲專案推薦#

01. Crawl4AI#

Crawl4AI 簡化了 Web 數據異步提取的過程,使 Web 數據提取簡單高效,非常適合 AI 和 LLM 應用程式。

image

優勢特徵:#

  • 100% 開源免費:完全開放源代碼。
  • 閃電般的性能:在快速可靠的抓取方面優於許多付費服務。
  • 基於 AI LLM 構建:以 JSON、HTML 或 Markdown 格式輸出數據。
  • 多瀏覽器支持:可與 Chromium、Firefox 和 WebKit 無縫配合。
  • 可同時抓取多個 URL:一次處理多個網站,以實現高效的數據提取。
  • 全媒體支持:輕鬆提取圖像、音頻、視頻以及所有 HTML 媒體標籤。
  • 提取鏈接:獲取所有內部和外部鏈接以獲得更深入的數據挖掘。
  • XML 元數據檢索:捕獲頁面標題、描述和其他元數據。
  • 可定制:添加用於身份驗證、標題或自定義頁面修改的功能。
  • 支持匿名:自定義用戶代理設置。
  • 支持截圖:具備強大的錯誤處理功能,拍攝頁面快照。
  • 自定義 JavaScript:在抓取定制結果之前執行腳本。
  • 結構化數據輸出:根據規則生成良好的 JSON 數據。
  • 智能提取:使用 LLM、集群、正則表達式或 CSS 選擇器進行準確的數據抓取。
  • 代理驗證:通過安全代理支持訪問受保護的內容。
  • 會話管理:輕鬆處理多頁導航。
  • 圖像優化:支持延遲加載和響應式圖像。
  • 動態內容處理:管理互動式頁面的延遲加載。
  • 對 LLM 友好的頭文件:為特定於 LLM 的互動傳遞自定義頭文件。
  • 精確提取:使用關鍵字或指令優化結果。
  • 靈活的設置:調整超時和延遲,以實現更流暢的抓取。
  • iframe 支持:提取 iframe 中的內容,以獲得更深入的數據提取。

02. ScrapeGraphAI#

ScrapeGraphAI 是一個用於 Web 數據爬取的 Python 庫,它使用 LLM 和邏輯圖為網站或本地文檔(XML、HTML、JSON、Markdown 等)創建抓取流程。

image

03. LLM Scraper#

LLM Scraper 是一個基於 LLM 的爬蟲 TypeScript 庫,並且支持代碼生成功能。

image

優勢特徵:#

  • 支持本地或 MaaS 提供商:兼容 Ollama、GGUF、OpenAI、Vercel AI SDK。
  • 完全類型安全:使用 Zod 定義的模式,基於 TypeScript 實現。
  • 基於 Playwright 框架:流式對象支持。
  • 代碼生成:支持代碼生成功能。
  • 四種數據格式化模式
    • HTML:用於加載原始 HTML。
    • Markdown:用於加載 Markdown。
    • Text:用於加載提取的文本(使用 Readability.js)。
    • Image:用於加載螢幕截圖(僅限多模式)。

04. Crawlee Python#

image

Crawlee 是一個 Web 爬蟲以及瀏覽器自動化 Python 庫。通過 AI、LLM、RAG 或 GPT 提取網頁數據,包括從網站下載 HTML、PDF、JPG、PNG 和其他文件。適用於 BeautifulSoup、Playwright 和原始 HTTP,支持有頭和無頭模式,以及代理輪換規則。


05. CyberScraper 2077#

CyberScraper 2077 是一款基於 OpenAI、Gemini 或本地大模型的 Web 爬取工具,專為精確高效的數據提取而設計,適合數據分析師、技術愛好者和任何需要簡化在線信息訪問的人。

image

優勢特點:#

  • 基於人工智能的提取:利用人工智能模型智能理解和解析 Web 內容。
  • 流暢的流線型介面:友好的用戶 GUI。
  • 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式導出數據。
  • Tor 網絡支持:安全地抓取.onion 網站,提供自動路由和安全功能。
  • 隱身模式:實現隱身模式參數,幫助避免被檢測為機器人。
  • LLM 支持:提供支持各種 LLM 的功能。
  • 異步操作:異步操作以實現快速操作。
  • 智能解析:抓取內容如同直接從主記憶中提取。
  • 緩存:使用 LRU 緩存和自定義字典實現基於內容和查詢的緩存,減少冗餘 API 調用。
  • 支持上傳到 Google 表格:輕鬆將提取的 CSV 數據上傳到 Google 表格。
  • 驗證碼繞過:可通過使用 URL 末尾的 captcha 來繞過驗證碼(目前只能在本地工作,不能在 Docker 上工作)。
  • 當前瀏覽器:使用本地瀏覽器環境,幫助繞過 99% 的機器人檢測。
  • 代理模式(即將推出):內置代理支持,幫助繞過網絡限制。
  • 瀏覽頁面:瀏覽網頁並從不同頁面抓取數據。
載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。