5つのLLMに基づくオープンソースクローラープロジェクト

オープンソース AI クローラープロジェクトのおすすめ#

01. Crawl4AI #

Crawl4AI は Web データの非同期抽出プロセスを簡素化し、Web データの抽出を簡単かつ効率的に行うことができ、AI や LLM アプリケーションに非常に適しています。

特徴：#

100% オープンソース無料：完全にオープンソースのコード。
驚異的なパフォーマンス：迅速で信頼性の高いクロールにおいて、多くの有料サービスを上回ります。
AI LLM に基づいて構築：JSON、HTML、または Markdown 形式でデータを出力。
複数のブラウザサポート：Chromium、Firefox、WebKit とシームレスに連携。
複数の URL を同時にクロール：効率的なデータ抽出のために複数のサイトを一度に処理。
全メディアサポート：画像、音声、動画、すべての HTML メディアタグを簡単に抽出。
リンク抽出：内部および外部リンクを取得し、より深いデータマイニングを実現。
XML メタデータ取得：ページタイトル、説明、およびその他のメタデータをキャッチ。
カスタマイズ可能：認証、ヘッダー、またはカスタムページの変更のための機能を追加。
匿名サポート：カスタムユーザーエージェント設定。
スクリーンショットサポート：強力なエラーハンドリング機能を備え、ページのスナップショットを撮影。
カスタム JavaScript：クロールのカスタム結果を取得する前にスクリプトを実行。
構造化データ出力：ルールに基づいて良好な JSON データを生成。
インテリジェント抽出：LLM、クラスタリング、正規表現、または CSS セレクタを使用して正確なデータをクロール。
プロキシ検証：安全なプロキシを通じて保護されたコンテンツにアクセスをサポート。
セッション管理：複数ページのナビゲーションを簡単に処理。
画像最適化：遅延読み込みとレスポンシブ画像をサポート。
動的コンテンツ処理：インタラクティブなページの遅延読み込みを管理。
LLM フレンドリーなヘッダー：LLM 特有のインタラクションのためにカスタムヘッダーを渡す。
正確な抽出：キーワードや指示を使用して結果を最適化。
柔軟な設定：タイムアウトや遅延を調整し、よりスムーズなクロールを実現。
iframe サポート：iframe 内のコンテンツを抽出し、より深いデータ抽出を実現。

02. ScrapeGraphAI #

ScrapeGraphAI は Web データのクローリング用の Python ライブラリで、LLM と論理グラフを使用してウェブサイトやローカルドキュメント（XML、HTML、JSON、Markdown など）のクローリングフローを作成します。

03. LLM Scraper #

LLM Scraper は LLM に基づいたクローラー TypeScript ライブラリで、コード生成機能をサポートしています。

特徴：#

ローカルまたは MaaS プロバイダーをサポート：Ollama、GGUF、OpenAI、Vercel AI SDK と互換性があります。
完全な型安全性：Zod で定義されたスキーマを使用し、TypeScript で実装。
Playwright フレームワークに基づく：ストリーミングオブジェクトサポート。
コード生成：コード生成機能をサポート。
4 つのデータフォーマットモード：
- HTML：生の HTML を読み込むために使用。
- Markdown：Markdown を読み込むために使用。
- Text：抽出されたテキストを読み込むために使用（Readability.js を使用）。
- Image：スクリーンショットを読み込むために使用（マルチモード専用）。

Crawlee は Web クローラーおよびブラウザ自動化の Python ライブラリです。AI、LLM、RAG、または GPT を使用してウェブページデータを抽出し、HTML、PDF、JPG、PNG などのファイルをウェブサイトからダウンロードします。BeautifulSoup、Playwright、原始 HTTP に適しており、ヘッドありおよびヘッドなしモード、プロキシローテーションルールをサポートします。

05. CyberScraper 2077 #

CyberScraper 2077 は OpenAI、Gemini、またはローカルの大規模モデルに基づいた Web クローリングツールで、正確かつ効率的なデータ抽出のために設計されており、データアナリスト、技術愛好者、オンライン情報アクセスを簡素化したいすべての人に適しています。

特徴：#

AI に基づく抽出：AI モデルを活用して Web コンテンツをインテリジェントに理解し解析。
スムーズなインターフェース：ユーザーフレンドリーな GUI。
多フォーマットサポート：データを JSON、CSV、HTML、SQL、または Excel 形式でエクスポート。
Tor ネットワークサポート：.onion サイトを安全にクロールし、自動ルーティングとセキュリティ機能を提供。
インビジブルモード：ロボットとして検出されないようにするためのインビジブルモードパラメータを実現。
LLM サポート：さまざまな LLM をサポートする機能を提供。
非同期操作：迅速な操作を実現するための非同期操作。
インテリジェント解析：コンテンツを主記憶から直接抽出するかのようにクロール。
キャッシュ：LRU キャッシュとカスタム辞書を使用して、コンテンツとクエリに基づくキャッシュを実現し、冗長な API 呼び出しを削減。
Google スプレッドシートへのアップロードをサポート：抽出した CSV データを簡単に Google スプレッドシートにアップロード。
CAPTCHA 回避：URL の末尾に captcha を使用して CAPTCHA を回避（現在はローカルでのみ機能し、Docker では動作しません）。
現在のブラウザ：ローカルブラウザ環境を使用し、99% のロボット検出を回避。
プロキシモード（近日公開予定）：内蔵プロキシサポートにより、ネットワーク制限を回避。
ページをブラウズ：ウェブページをブラウズし、異なるページからデータを抽出。

Being towards death