开源轻量级基于LLM的文档解析模型:MonkeyOCR,性能高速度快

开源轻量级基于LLM的文档解析模型:MonkeyOCR,性能高速度快

MonkeyOCR 采用结构-识别-关系 (SRR) 三元组范式,它简化了模块化方法的多工具管道,同时避免了使用大型多模态模型进行整页文档处理的低效率。

GitHub:https://github.com/Yuliang-Liu/MonkeyOCR

  1. 与基于管道的方法 MinerU 相比,我们的方法在 9 种中英文文档中实现了 5.1% 的平均改进,其中公式提高了 15.0%,表格提高了 8.6%。
  2. 与端到端模型相比,我们的 3B 参数模型在英文文档上实现了最佳的平均性能,优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。
  3. 对于多页文档解析,我们的方法达到了每秒 0.84 页的处理速度,超过了 MinerU (0.65) 和 Qwen2.5 VL-7B (0.12)。

关注公众号:

发表回复