新闻动态

首页 > 新闻动态 > 超算互联网0Day上线DeepSeekMath-V2，金牌级奥数水平

2025-11-28

超算互联网0Day上线DeepSeekMath-V2，金牌级奥数水平

刚刚，超算互联网 AI 社区上线 DeepSeek 新一代数学模型 DeepSeekMath-V2，企业和开发者均可下载模型文件进行快速开发。

超算互联网 AI 社区上线 DeepSeekMath-V2 模型

DeepSeekMath-V2 下载地址：https://www.scnet.cn/ui/aihub/models/sugon_scnet/DeepSeek-Math-V2

DeepSeek 表示，DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 构建，其性能优于 Gemini DeepThink，实现了 IMO 金牌级的水平。

具体而言，在 IMO 2025 和 CMO 2024 上取得金牌级成绩，并在 Putnam 2024 中以扩展测试计算实现了接近满分的 118/120。

在 ProofBench-Basic 基准上，DeepSeekMath-V2 性能远胜其它模型，达到近 99% 的惊人高分，超越谷歌金牌模型——Gemini Deep Think；在 ProofBench-Advanced 上略逊于 Gemini Deep Think (IMO Gold)。

创新架构，自我验证

DeepSeekMath-V2 的核心创新在于其自我验证的数学推理框架，该系统通过三个关键角色协同工作，类似于“学生-老师-督导”的高效协作机制。

模型首先训练一个专门的验证器作为“阅卷老师”，能够像人类专家一样将证明过程分为三个等级：完美逻辑严密（1分）、大体正确有小瑕疵（0.5分）、有根本性逻辑错误（0分）。

为解决验证器可能产生的幻觉问题，团队引入了元验证机制，相当于为老师配备“督导”，专门检查老师评语的合理性，实现双重确认。「元验证器」来检查验证器给出的分析，包括：验证器指出的问题是否真实存在于原证明中；这些问题是否足以合理支撑它给出的得分，且符合原有的评分细则。

用元验证器来评估验证器输出分析的平均质量分数，从 0.85 提升到了 0.96，同时保持了原有的打分准确率。

有了好的阅卷系统，接下来就是训练做题的「学生」（生成器）。其中一个关键创新在于“诚实奖励机制”——模型在输出解题过程后必须立即进行自评，诚实地指出错误会得到奖励，而盲目自信或试图蒙混过关则会受到惩罚。

最后，形成自动化闭环。

目前，超算互联网 AI 社区已汇聚 900 余款国内外优质开源模型，包括 DeepSeek-OCR、DeepSeek-V3.2-Exp、DeepSeek-R1 等 DeepSeek 系列。平台支持 DeepSeek-OCR 免费在线推理服务，实现云端开箱即用，还可免费一键在线体验，用户只需上传图片，即可实现从图片中提取文本、将文档转换为 Markdown 格式、解析图表等。

更多热门模型及应用可登录 AI 社区 www.scnet.cn/ui/aihub/ 体验。

DeepSeek 开源模型链接合集：

https://www.scnet.cn/ui/aihub/models?keyword=DeepSeek&order=updateTime

新闻动态

超算互联网0Day上线DeepSeekMath-V2，金牌级奥数水平

创新架构，自我验证

相关新闻

“创业北京”护航服务月 - 走进国家超算互联网活动在北京顺利举办

DeepSeek V3.2正式版上线超算互联网！强化Agent能力，融入思考推理

超算&AI应用周报Vol.82 |阿里图像生成模型Z-Image、小米具身大模型MiMo-Embodied上线

最佳实践Vol.57 | 基于Nektar++的亚音速圆柱绕流高精度模拟实战

年度最强，100%中奖！“AI玩家召集令”已下，速来！