MinerU 再次改变 OCR,5 倍提升
公众号「Ai 学习的老章」,2026-03-30 发表。
TL;DR
MinerU 团队(上海 AI 实验室 OpenDataLab)于 2026-03-24 发布 MinerU-Diffusion,把传统自回归 OCR 解码换成 扩散解码,论文标题:Rethinking Document OCR as Inverse Rendering via Diffusion Decoding。精度持平 SOTA 同时吞吐量提升至 3.26×。
关键事实
- 模型规模:2.5B 参数
- 论文核心洞察:自回归解码依赖”语言先验”而非”视觉证据”,Semantic Shuffle 测试中自回归准确率随打乱直线下跌,扩散纹丝不动
- 三大技术:
- Block-wise 分块扩散解码器(Block 内并行、Block 间自回归)
- 两阶段课程学习(750 万样本基础训练 → 不确定性硬骨头精训)
- 动态置信度调度(τ 可调节速度 vs 精度)
- Benchmark(OmniDocBench v1.5):
- MinerU2.5(AR):Overall 93.44, TPS 51.46
- MinerU-Diffusion(τ=0.97):Overall 93.34, TPS 98.32(≈2×)
- τ=0.6:TPS 164.8(3.26×),精度仍超 90%
- 公式识别(UniMER-Test):CPE 91.6 / HWE 91.6 / SCE 92.0 / SPE 96.8,全面碾压 GPT-4o
产品矩阵
- MinerU 3.0:支持 PDF/图片/DOCX,输出 Markdown/JSON,109 种语言
- MinerU2.5:VLM 版本,OmniDocBench 长期基准
- MinerU-Diffusion-V1:4 种任务(Layout / Text / Formula / Table),三种引擎(HF Transformers / Nano-DVLM / SGLang)