【清华代码熊】DeepSeek OCR V2 开源｜技术报告&代码解析！

古希腊掌管代码的神THU

142人浏览 · 2026-01-28 09:07:49

古希腊掌管代码的神THU · 2026-01-28 09:07:49 发布

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1，时隔三个月官方又放出 V2 版本，相比于 V1，核心改进在于：
🌟 使用自回归架构的 LM Vision Encoder 替代主流 CLIP-ViT，通过语义重排序（而非空间位置编码）使视觉特征更适配LLM的单向解码模式。
🌟 在OmniDocBench v1.5上，模型表现超过两阶段的 MinerU2.5，略差于两阶段的PaddleOCR-VL，对比单阶段Baselines达到SOTA。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

AI Agent 第二篇：【2026零基础AI教程2】90%开发者都错了！Agent和Workflow不是对立？破除全网经典误区（大厂面试标准答案）

摒弃老旧晦涩的官方定义，给大家一套小白能懂、面试通用、落地可用的全新定义。Workflow是多智能体系统的骨架，Agent是血肉；骨架负责有序结构，血肉负责智能落地，二者共生互补，缺一不可。Workflow与Agent是共生关系，不是二选一；外层人工DAG拓扑 + 内层Agent动态决策；3. Workflow是企业落地主力，稳定可控、合规可追溯，适配90%业务；4. 纯动态Agent仅适用于少量

CSDN-OPC开发者社区

蚂蚁集团秘密测试AI版支付宝：智能体“阿宝“如何颠覆10亿用户的超级App

据《科创板日报》6月14日独家报道，蚂蚁集团正在内部秘密测试AI版支付宝，该项目代号"宝计划"，已酝酿一年多时间，集结了大量AI产品与技术人员进行闭关研发。据悉，AI版支付宝的核心是一个名为"阿宝"的智能体（AI Agent），用户可以通过一键切换进入原生AI界面，以文字或语音指令完成叫网约车、点咖啡、点外卖、买基金、管理投资账户等日常操作，彻底打破传统App的菜单导航与搜索框交互范式。