banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

MinerU——將PDF轉化為機器可讀格式的神器

MinerU#

image

MinerU 是一款強大的開源工具,專門用於將 PDF 文檔轉換成機器可讀格式,例如 Markdown 和 JSON。其主要功能包括:

主要功能#

  • 刪除冗餘元素:能夠自動去除頁眉、頁腳、腳註和頁碼等不必要的元素,從而確保提取的內容語義連貫,並保留重要的正文圖表。

  • 多元素提取:支持提取文檔中的圖像、圖像描述、表格及其標題和腳註,確保信息的完整性和準確性。

  • 公式識別:具備自動識別和轉換文檔中數學公式的能力,同時能夠處理超長公式,輸出為 LaTeX 格式。

  • 表格識別:能夠識別並將表格轉換為 HTML 格式,方便在網頁中呈現。

  • 保留文檔結構:在提取文本時,能夠維持原有的文檔結構,包括標題、段落和列表,使得輸出結果符合人類閱讀的自然順序。

  • OCR 支持:支持對掃描版 PDF 和亂碼 PDF 的自動檢測與識別,結合 OCR 技術,可以處理多達 84 種語言的文檔。

  • 多格式輸出:支持多種輸出格式選擇,包括 Markdown、JSON 等,方便用戶根據需求使用。

  • 多平台支持:兼容 Windows、Linux 和 Mac 平台,並可以利用 CPU、GPU、NPU 進行加速,提升轉換效率。

總結#

總的來說,MinerU 是一款功能全面的工具,適合需要頻繁處理 PDF 文檔的用戶,在保持文檔結構的同時,還能有效提取信息,提高工作效率。

引用鏈接

[1] MinerUhttps://github.com/opendatalab/MinerU

[2] OpenDataLab Demo: https://mineru.net/OpenSourceTools/Extractor?source=github

[3] ModelScope Demo: https://www.modelscope.cn/studios/OpenDataLab/MinerU

[4] HuggingFace Demo: https://huggingface.co/spaces/opendatalab/MinerU

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。