banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

MinerU——PDFを機械可読形式に変換する神ツール

MinerU#

image

MinerU は、PDF ドキュメントを機械可読形式(Markdown や JSON など)に変換するための強力なオープンソースツールです。その主な機能は以下の通りです:

主要機能#

  • 冗長な要素の削除:ページヘッダー、フッター、脚注、ページ番号などの不要な要素を自動的に削除し、抽出された内容の意味が一貫していることを保証し、重要な本文の図表を保持します。

  • 多要素抽出:ドキュメント内の画像、画像の説明、表、およびそのタイトルと脚注を抽出することをサポートし、情報の完全性と正確性を確保します。

  • 数式認識:ドキュメント内の数学的な数式を自動的に認識し変換する能力を備え、超長い数式も処理でき、LaTeX 形式で出力します。

  • 表の認識:表を認識し、HTML 形式に変換することができ、ウェブページでの表示が容易になります。

  • ドキュメント構造の保持:テキストを抽出する際に、元のドキュメント構造(タイトル、段落、リスト)を維持し、出力結果が人間の読みやすい自然な順序になるようにします。

  • OCR サポート:スキャン版 PDF や文字化けした PDF の自動検出と認識をサポートし、OCR 技術を組み合わせることで、最大 84 言語のドキュメントを処理できます。

  • 多形式出力:Markdown、JSON など、さまざまな出力形式を選択でき、ユーザーがニーズに応じて使用しやすくなっています。

  • 多プラットフォームサポート:Windows、Linux、Mac プラットフォームに対応し、CPU、GPU、NPU を利用して加速し、変換効率を向上させます。

まとめ#

総じて、MinerU は機能が充実したツールであり、PDF ドキュメントを頻繁に処理する必要があるユーザーに適しており、ドキュメント構造を保持しながら情報を効果的に抽出し、作業効率を向上させます。

引用リンク

[1] MinerUhttps://github.com/opendatalab/MinerU

[2] OpenDataLab デモ: https://mineru.net/OpenSourceTools/Extractor?source=github

[3] ModelScope デモ: https://www.modelscope.cn/studios/OpenDataLab/MinerU

[4] HuggingFace デモ: https://huggingface.co/spaces/opendatalab/MinerU

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。