banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

MinerU——将PDF转化为机器可读格式的神器

MinerU#

image

MinerU 是一款强大的开源工具,专门用于将 PDF 文档转换成机器可读格式,例如 Markdown 和 JSON。其主要功能包括:

主要功能#

  • 删除冗余元素:能够自动去除页眉、页脚、脚注和页码等不必要的元素,从而确保提取的内容语义连贯,并保留重要的正文图表。

  • 多元素提取:支持提取文档中的图像、图像描述、表格及其标题和脚注,确保信息的完整性和准确性。

  • 公式识别:具备自动识别和转换文档中数学公式的能力,同时能够处理超长公式,输出为 LaTeX 格式。

  • 表格识别:能够识别并将表格转换为 HTML 格式,方便在网页中呈现。

  • 保留文档结构:在提取文本时,能够维持原有的文档结构,包括标题、段落和列表,使得输出结果符合人类阅读的自然顺序。

  • OCR 支持:支持对扫描版 PDF 和乱码 PDF 的自动检测与识别,结合 OCR 技术,可以处理多达 84 种语言的文档。

  • 多格式输出:支持多种输出格式选择,包括 Markdown、JSON 等,方便用户根据需求使用。

  • 多平台支持:兼容 Windows、Linux 和 Mac 平台,并可以利用 CPU、GPU、NPU 进行加速,提升转换效率。

总结#

总的来说,MinerU 是一款功能全面的工具,适合需要频繁处理 PDF 文档的用户,在保持文档结构的同时,还能有效提取信息,提高工作效率。

引用链接

[1] MinerUhttps://github.com/opendatalab/MinerU

[2] OpenDataLab Demo: https://mineru.net/OpenSourceTools/Extractor?source=github

[3] ModelScope Demo: https://www.modelscope.cn/studios/OpenDataLab/MinerU

[4] HuggingFace Demo: https://huggingface.co/spaces/opendatalab/MinerU

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。