TIME WAIT.
#RAG 2026年6月7日 11 MIN READ

MinerU 使用指南:把 PDF、Office 和图片解析成适合 RAG 的 Markdown/JSON

opendatalab/MinerU 将 PDF、Office 与图片解析为 Markdown/JSON,支持表格、公式、OCR 与本地部署,面向 RAG 数据准备。

MinerU 使用指南:把 PDF、Office 和图片解析成适合 RAG 的 Markdown/JSON

MinerU 把复杂文档整理成大模型应用更容易消费的 Markdown 和 JSON——适合 RAG、知识库与 Agent 工作流的数据准备。

一句话概览

opendatalab/MinerU 是一个面向大模型数据准备的文档解析工具,可以把 PDF、图片、DOCX、PPTX、XLSX 等输入转换为 Markdown、JSON 和中间结构化结果,方便进入 RAG、信息抽取、知识库构建或 Agent 工作流。

项目与文档:

适合先解决什么问题

MinerU 更适合这些场景:

如果只是读取排版简单的纯文本 PDF,常规 PDF 提取工具可能已经够用。MinerU 的价值主要体现在复杂版式、表格公式、多格式输入和批量生产文档数据上。

核心能力

根据项目 README,MinerU 支持 PDF、图片、DOCX、PPTX 和 XLSX 输入,并能输出 Markdown、按阅读顺序排列的 JSON,以及用于检查解析质量的可视化结果。

关键能力包括:

2026 年 4 月的 3.1.0 版本引入 PPTX 和 XLSX 原生解析,并将主 VLM 模型升级到 MinerU2.5-Pro-2604-1.2B;2026 年 6 月 4 日发布的 3.2.3 增加上下标检测与输出,并加入 post-OCR fallback 机制。

安装方式

本地试用时,官方推荐先安装 uv,再安装完整功能包:

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

也可以从源码安装:

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

mineru[all] 包含核心功能,官方说明兼容 Windows、Linux 和 macOS。文档解析对硬件和依赖比较敏感,尤其是 GPU、推理框架、Python 版本和系统环境。正式部署前建议先用小样本跑通。

第一次解析文档

最基础命令是指定输入路径和输出路径:

mineru -p <input_path> -o <output_path>

如果设备不满足 GPU 加速条件,可以指定 pipeline 后端,用 CPU 路线运行:

mineru -p <input_path> -o <output_path> -b pipeline

<input_path> 可以是单个文件,也可以是目录。建议先准备一个小目录,只放几份代表性文档:

mineru -p ./samples -o ./output -b pipeline

这样可以先观察输出质量、耗时、内存占用和文件结构,再决定是否扩大到完整文档库。

输出结果怎么用

MinerU 的输出可以进入几类下游流程。

RAG

把 Markdown 作为切分和向量化输入,让标题、段落、列表、表格和公式尽量保持原始语义。相比直接 OCR 成大段纯文本,结构化 Markdown 更容易做分块、引用和结果回溯。

信息抽取

JSON 和中间结果适合给后续脚本读取,例如抽取表格、公式、图片说明或特定章节。对于自动整理报告、论文或合同字段的场景,比只拿纯文本更稳定。

人工复核

MinerU 提供版面、span 等可视化结果,可以帮助检查解析是否漏内容、顺序是否合理、表格是否变形。做批量处理前,最好先抽样看这些可视化结果。

后端选择

MinerU 文档里主要提到几类后端路线:

如果只是验证效果,先用 pipeline 更稳。确认文档类型、质量要求和处理量后,再考虑 VLM 或混合路线。企业内部文档还要结合数据是否允许离开本地环境来选择后端。

部署方式

MinerU 支持 CLI、本地 API、Gradio WebUI、Docker 和 mineru-router

不同入口适合不同团队:

Docker 部署目前更适合 Linux 和带 WSL2 的 Windows。macOS 用户通常优先走 pip / uv 安装路线。

和普通 OCR 工具有何不同

普通 OCR 主要关注「把图像里的字识别出来」。对 RAG 来说,这还不够。RAG 更关心段落顺序、标题层级、表格结构、公式表达、图片上下文和可追溯性。

MinerU 更像文档理解前处理工具。它不只是 OCR,还会处理版面分析、阅读顺序、表格 HTML、公式 LaTeX、多格式输入和结构化输出。它更适合把复杂文档整理成下游模型能稳定消费的数据。

对于简单发票、单页图片或纯文本 PDF,轻量 OCR 或 PDF 文本提取工具可能更快。MinerU 更适合文档复杂度已经明显影响后续效果的场景。

和 PaddleOCR、Marker、Unstructured 怎么选

这些工具有重叠,但入口不同:

如果文档主要是论文、报告、教材、PPT、表格文件,并且后续要进入大模型应用,MinerU 值得单独试一轮。

批量处理建议

正式批量处理前,可以按这个顺序验证:

  1. 选 10 到 20 份代表性文档,覆盖扫描件、复杂表格、多栏论文、PPT 和 Excel。
  2. 先用 pipeline 后端解析,记录耗时、内存、输出大小和失败样例。
  3. 抽查 Markdown、JSON 和可视化结果,重点看阅读顺序、表格、公式和图片说明。
  4. 对质量不够的样本,再尝试 VLM 或 hybrid 后端。
  5. 确认输出结构后,再接入 RAG 切分、向量化和引用回溯。

不要一开始就把整库文档丢进去。文档解析失败往往很具体:某类扫描件、某种表格、某个字体、某个语言方向或某些跨页内容。先找出边界,再放大规模。

隐私与合规注意事项

如果处理企业内部文档、客户资料、合同、财务报表或未公开研究资料,先确认部署方式和数据流向。

重点检查:

MinerU 支持私有和离线部署,但这不等于所有配置都天然离线。真实部署前,最好画清楚从输入文件、临时目录、模型推理、输出目录到日志系统的完整数据路径。

什么时候不适合用

下面几种情况可以先不引入 MinerU:

文档解析工具最好服务于后续流程,而不是为了「解析而解析」。如果没有明确消费方,先把输出样例和下游需求对齐,再决定是否批量投入。

总结

MinerU 适合把复杂文档转换成大模型应用更容易使用的 Markdown 和 JSON。它覆盖 PDF、图片、Office 文档、表格、公式、OCR、多语言识别和本地部署,尤其适合 RAG、知识库和 Agent 工作流的数据准备。

稳妥路线是:先用在线体验或小样本本地解析评估质量,再用 pipeline 后端跑通流程,最后根据准确率和吞吐要求决定是否切换到 VLM、hybrid、API 或多服务部署。

/related_artifacts

LMCache 实用指南:vLLM 推理服务如何复用 KV Cache
#Inference 2026年6月17日

LMCache 实用指南:vLLM 推理服务如何复用 KV Cache

LMCache 将重复 prefill 的 KV Cache 抽成可复用缓存层,降低 vLLM 推理 TTFT,适合长 prompt 与高重复前缀场景。

阅读全文 arrow_right_alt
向量嵌入:新的通用接口
#Databases 2024年6月28日

向量嵌入:新的通用接口

检索系统正在从关系查询转向语义相似度,工程接口也随之改变。

阅读全文 arrow_right_alt