新闻动态

首页 > 新闻动态 > 超算互联网0Day上线DeepSeekMath-V2,金牌级奥数水平
2025-11-28

超算互联网0Day上线DeepSeekMath-V2,金牌级奥数水平

刚刚,超算互联网 AI 社区上线 DeepSeek 新一代数学模型 DeepSeekMath-V2,企业和开发者均可下载模型文件进行快速开发。


图片

超算互联网 AI 社区上线 DeepSeekMath-V2 模型

DeepSeekMath-V2 下载地址:https://www.scnet.cn/ui/aihub/models/sugon_scnet/DeepSeek-Math-V2


DeepSeek 表示,DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 构建,其性能优于 Gemini DeepThink,实现了 IMO 金牌级的水平。


图片


具体而言,在 IMO 2025 和 CMO 2024 上取得金牌级成绩,并在 Putnam 2024 中以扩展测试计算实现了接近满分的 118/120。


图片


在 ProofBench-Basic 基准上,DeepSeekMath-V2 性能远胜其它模型,达到近 99% 的惊人高分,超越谷歌金牌模型——Gemini Deep Think;在 ProofBench-Advanced 上略逊于 Gemini Deep Think (IMO Gold)。


创新架构,自我验证

DeepSeekMath-V2 的核心创新在于其自我验证的数学推理框架,该系统通过三个关键角色协同工作,类似于“学生-老师-督导”的高效协作机制。


模型首先训练一个专门的验证器作为“阅卷老师”,能够像人类专家一样将证明过程分为三个等级:完美逻辑严密(1分)、大体正确有小瑕疵(0.5分)、有根本性逻辑错误(0分)。


为解决验证器可能产生的幻觉问题,团队引入了元验证机制,相当于为老师配备“督导”,专门检查老师评语的合理性,实现双重确认。「元验证器」来检查验证器给出的分析,包括:验证器指出的问题是否真实存在于原证明中;这些问题是否足以合理支撑它给出的得分,且符合原有的评分细则。


用元验证器来评估验证器输出分析的平均质量分数,从 0.85 提升到了 0.96,同时保持了原有的打分准确率。


有了好的阅卷系统,接下来就是训练做题的「学生」(生成器)。其中一个关键创新在于“诚实奖励机制”——模型在输出解题过程后必须立即进行自评,诚实地指出错误会得到奖励,而盲目自信或试图蒙混过关则会受到惩罚。


最后,形成自动化闭环。


图片


目前,超算互联网 AI 社区已汇聚 900 余款国内外优质开源模型,包括 DeepSeek-OCR、DeepSeek-V3.2-Exp、DeepSeek-R1 等 DeepSeek 系列。平台支持 DeepSeek-OCR 免费在线推理服务,实现云端开箱即用,还可免费一键在线体验,用户只需上传图片,即可实现从图片中提取文本、将文档转换为 Markdown 格式、解析图表等。


更多热门模型及应用可登录 AI 社区 www.scnet.cn/ui/aihub/ 体验。


DeepSeek 开源模型链接合集:

https://www.scnet.cn/ui/aihub/models?keyword=DeepSeek&order=updateTime