MonkeyOCR用于文档解析OCR的项目
MonkeyOCR 是一个用于文档解析OCR的项目,采用结构 - 识别 - 关系三元组范式。它支持英文和中文文档解析。能处理 PDF 和图像文件,输出多种格式结果。还可通过特定方式更新配置文件以使用不同模型。
DEMO
支持中英文

公式

表格

报纸

财务报告

技术特点
创新的 SRR 三元组范式:将文档解析抽象为 “在哪里”(结构)、“是什么”(识别)和 “如何组织”(关系)三个基本问题,对应布局分析、内容识别和逻辑排序,平衡了准确性和速度,实现高效、可扩展的处理而不牺牲精度。
三阶段处理流程:
结构检测:使用基于 YOLO 的文档布局检测器,准确分割文本块、表格、公式、图像等语义区域。
块级内容识别:对每个检测到的区域并行进行内容识别,利用统一的大型多模态模型(LMM),避免传统管道的错误传播。
关系预测:通过专用的块级阅读顺序模型,推断检测元素之间的逻辑阅读顺序,重建其逻辑和语义连接。
大规模多样化数据集:开发了 MonkeyDoc 数据集,包含 390 万个块级实例,覆盖 5 个核心文档解析任务和 10 多种文档类型,全面支持中英文。
性能表现:
与 MinerU 相比,在中英文文档上平均提升 5.1%,公式识别提升 15.0%,表格识别提升 8.6%。
3B 参数模型在英文文档解析任务上超越更大的模型,如 Qwen2.5-VL(72B)和 Gemini 2.5 Pro。
多页文档处理速度达 0.84 页 / 秒,优于 MinerU(0.65)和 Qwen2.5-VL-7B(0.12)。
项目链接
https://github.com/Yuliang-Liu/MonkeyOCR
-
MonkeyOCR:最快1秒狂扫1000页
MonkeyOCR 是一个基于深度学习的开源文档解析神器。它能够将PDF、图片等文件中的文字、表格、公式,甚至文档的结构解析成清晰的Markdown格式,就像“原文再造”一样,还保留了原有的内容层次和
关注公众号:拾黑(shiheibook)了解更多
赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 曝小红书入局娱乐直播画风大变?用户吐槽"变low了"
- 安卓用户务必注意!新型木马病毒肆虐全球:小心账户一夜归零
- 5G标准必要专利小米中国第三 雷军:继续死磕核心技术
- 英镑兑换人民币汇率2024年8月4日
- 日元对人民币汇率2023年9月3日
- 2022年先进制造领域前沿科技发展态势及2023年趋势展望
- 澳元兑换人民币汇率2023年1月25日
- 聚合八方能量 点亮永续未来 2022“微软大中华区可持续发展卓越中心”在线峰会成功举办
- GSMA思享汇:大中华区总裁斯寒详解行业热点
- 迈过600亿美元门槛,半导体设备业进入高速增长阶段
- 苹果计划在慕尼黑建设芯片中心;甲骨文第三财季净利同比增长95%;Grab或通过SPAC方式赴美上市|Do早报
- 唯品会被查,特卖、超值之路将受到约束,下一个会是谁



微信扫码关注公众号