MonkeyOCR用于文档解析OCR的项目
MonkeyOCR 是一个用于文档解析OCR的项目,采用结构 - 识别 - 关系三元组范式。它支持英文和中文文档解析。能处理 PDF 和图像文件,输出多种格式结果。还可通过特定方式更新配置文件以使用不同模型。
DEMO
支持中英文

公式

表格

报纸

财务报告

技术特点
创新的 SRR 三元组范式:将文档解析抽象为 “在哪里”(结构)、“是什么”(识别)和 “如何组织”(关系)三个基本问题,对应布局分析、内容识别和逻辑排序,平衡了准确性和速度,实现高效、可扩展的处理而不牺牲精度。
三阶段处理流程:
结构检测:使用基于 YOLO 的文档布局检测器,准确分割文本块、表格、公式、图像等语义区域。
块级内容识别:对每个检测到的区域并行进行内容识别,利用统一的大型多模态模型(LMM),避免传统管道的错误传播。
关系预测:通过专用的块级阅读顺序模型,推断检测元素之间的逻辑阅读顺序,重建其逻辑和语义连接。
大规模多样化数据集:开发了 MonkeyDoc 数据集,包含 390 万个块级实例,覆盖 5 个核心文档解析任务和 10 多种文档类型,全面支持中英文。
性能表现:
与 MinerU 相比,在中英文文档上平均提升 5.1%,公式识别提升 15.0%,表格识别提升 8.6%。
3B 参数模型在英文文档解析任务上超越更大的模型,如 Qwen2.5-VL(72B)和 Gemini 2.5 Pro。
多页文档处理速度达 0.84 页 / 秒,优于 MinerU(0.65)和 Qwen2.5-VL-7B(0.12)。
项目链接
https://github.com/Yuliang-Liu/MonkeyOCR
-
MonkeyOCR:最快1秒狂扫1000页
MonkeyOCR 是一个基于深度学习的开源文档解析神器。它能够将PDF、图片等文件中的文字、表格、公式,甚至文档的结构解析成清晰的Markdown格式,就像“原文再造”一样,还保留了原有的内容层次和
[广告]赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注KnowSafe微信公众号随时掌握互联网精彩
- 千数平台提供统一、高效、安全的数据支撑服务
- BitPlay直接在浏览器中播放种子视频,无需等待完整下载
- Nginx UI基于Go和Vue开发的Nginx WebUI管理工具
- 忘记AppNode面板登录地址了怎么办?
- 当程序员迎来 35 岁时
- 与AI同行,2023年度“开发者之选”AI口碑榜评选征集启航!
- 学习通否认 QQ 号被盗与其有关:已报案;iPhone 14 量产工作就绪:四款齐发;简洁优雅的软件早已是明日黄花|极客头条
- 历史上的今天:Amiga 之父诞生;BASIC 语言的共同开发者出生;黑莓 BBM 停运
- 勒索软件团伙在攻击警察局后主动提供解密器
- Microsoft Office 首次发布;谷歌开源 Chrome OS;Twitter 创始人出生|历史上的今天
- 四年磨一剑,无名侠教你用Unicorn逆向闯荡江湖!
- 有免费的SSL证书吗?可以几张?



