MinerU 再次改变 OCR，5 倍提升

公众号「Ai 学习的老章」，2026-03-30 发表。

TL;DR

MinerU 团队（上海 AI 实验室 OpenDataLab）于 2026-03-24 发布 MinerU-Diffusion，把传统自回归 OCR 解码换成 扩散解码，论文标题：Rethinking Document OCR as Inverse Rendering via Diffusion Decoding。精度持平 SOTA 同时吞吐量提升至 3.26×。

关键事实

模型规模：2.5B 参数
论文核心洞察：自回归解码依赖”语言先验”而非”视觉证据”，Semantic Shuffle 测试中自回归准确率随打乱直线下跌，扩散纹丝不动
三大技术：
1. Block-wise 分块扩散解码器（Block 内并行、Block 间自回归）
2. 两阶段课程学习（750 万样本基础训练 → 不确定性硬骨头精训）
3. 动态置信度调度（τ 可调节速度 vs 精度）
Benchmark（OmniDocBench v1.5）：
- MinerU2.5（AR）：Overall 93.44, TPS 51.46
- MinerU-Diffusion（τ=0.97）：Overall 93.34, TPS 98.32（≈2×）
- τ=0.6：TPS 164.8（3.26×），精度仍超 90%
公式识别（UniMER-Test）：CPE 91.6 / HWE 91.6 / SCE 92.0 / SPE 96.8，全面碾压 GPT-4o

产品矩阵

MinerU 3.0：支持 PDF/图片/DOCX，输出 Markdown/JSON，109 种语言
MinerU2.5：VLM 版本，OmniDocBench 长期基准
MinerU-Diffusion-V1：4 种任务（Layout / Text / Formula / Table），三种引擎（HF Transformers / Nano-DVLM / SGLang）

涉及实体 / 概念

MinerU · 扩散解码

原文链接

内部：2026-04-15 MinerU 再次改变 OCR，5 倍提升

邵的知识库

探索

06-MinerU-Diffusion-OCR范式革新

MinerU 再次改变 OCR，5 倍提升

TL;DR

关键事实

产品矩阵

涉及实体 / 概念

原文链接

关系图谱

目录

反向链接