开源模型引领PDF转JSON，2026最佳文档提取方案全解析

背景

企业内部仍有海量 PDF、扫描件和幻灯片等非结构化文档。大型语言模型和智能代理只有在这些内容被结构化为 JSON 后才能发挥作用。2026 年，开源文档提取模型已经成熟，能够在本地硬件上完成高质量转换，解决了成本、隐私和离线部署三大痛点。

Schema‑driven extraction：输入文档和 JSON schema，模型直接填充字段。适用于发票、合同、表单等已知结构的数据。
Document parsing：重建文档的布局、阅读顺序、表格、公式等信息，输出结构化 JSON 或 Markdown，常用于构建检索增强生成（RAG）语料库。

模型	组织	规模	主要功能	关键指标	许可
lift	Datalab	9B	Schema‑driven JSON	字段准确率 90.2%，中位延迟 9.5 s	Apache‑2.0 + OpenRAIL‑M
NuExtract 3	NuMind	4B	Schema + OCR	多语言，RL 训练	开源（请查卡）
Docling	IBM / LF AI	—	多格式解析，输出 Markdown/JSON/DocTags	本地部署，MIT 许可	MIT
Granite‑Docling‑258M	IBM	258M	单页快速转换	0.35 s/页 (A100)	Apache‑2.0
MinerU2.5‑Pro	OpenDataLab	~1.2B	高分辨率布局解析，跨页表格/图表	复杂布局保持	MinerU Open Source License
olmOCR 2	Allen Institute (Ai2)	7B	OCR → 文本/Markdown	82.4 分 (olmOCR‑Bench)	Apache‑2.0
DeepSeek‑OCR	DeepSeek	3B MoE	长文档 token 压缩，支持 100+ 语言	多输出格式	MIT

在 2026 年，开源文档提取生态已形成从轻量 OCR 到高精度多模态 VLM 的完整链路。企业可依据字段需求、部署环境和许可证约束灵活组合模型，摆脱对商业 API 的依赖，实现大模型驱动的检索增强生成（RAG）和智能代理的真实价值。