刚刚,超算互联网 AI 社区上线 DeepSeek 新一代数学模型 DeepSeekMath-V2,企业和开发者均可下载模型文件进行快速开发。
超算互联网 AI 社区上线 DeepSeekMath-V2 模型
DeepSeekMath-V2 下载地址:https://www.scnet.cn/ui/aihub/models/sugon_scnet/DeepSeek-Math-V2
DeepSeek 表示,DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 构建,其性能优于 Gemini DeepThink,实现了 IMO 金牌级的水平。
具体而言,在 IMO 2025 和 CMO 2024 上取得金牌级成绩,并在 Putnam 2024 中以扩展测试计算实现了接近满分的 118/120。
在 ProofBench-Basic 基准上,DeepSeekMath-V2 性能远胜其它模型,达到近 99% 的惊人高分,超越谷歌金牌模型——Gemini Deep Think;在 ProofBench-Advanced 上略逊于 Gemini Deep Think (IMO Gold)。
创新架构,自我验证
DeepSeekMath-V2 的核心创新在于其自我验证的数学推理框架,该系统通过三个关键角色协同工作,类似于“学生-老师-督导”的高效协作机制。
模型首先训练一个专门的验证器作为“阅卷老师”,能够像人类专家一样将证明过程分为三个等级:完美逻辑严密(1分)、大体正确有小瑕疵(0.5分)、有根本性逻辑错误(0分)。
为解决验证器可能产生的幻觉问题,团队引入了元验证机制,相当于为老师配备“督导”,专门检查老师评语的合理性,实现双重确认。「元验证器」来检查验证器给出的分析,包括:验证器指出的问题是否真实存在于原证明中;这些问题是否足以合理支撑它给出的得分,且符合原有的评分细则。
用元验证器来评估验证器输出分析的平均质量分数,从 0.85 提升到了 0.96,同时保持了原有的打分准确率。
有了好的阅卷系统,接下来就是训练做题的「学生」(生成器)。其中一个关键创新在于“诚实奖励机制”——模型在输出解题过程后必须立即进行自评,诚实地指出错误会得到奖励,而盲目自信或试图蒙混过关则会受到惩罚。
最后,形成自动化闭环。
目前,超算互联网 AI 社区已汇聚 900 余款国内外优质开源模型,包括 DeepSeek-OCR、DeepSeek-V3.2-Exp、DeepSeek-R1 等 DeepSeek 系列。平台支持 DeepSeek-OCR 免费在线推理服务,实现云端开箱即用,还可免费一键在线体验,用户只需上传图片,即可实现从图片中提取文本、将文档转换为 Markdown 格式、解析图表等。
更多热门模型及应用可登录 AI 社区 www.scnet.cn/ui/aihub/ 体验。
DeepSeek 开源模型链接合集:
相关新闻
-
2025-12-03
“创业北京”护航服务月 - 走进国家超算互联网活动在北京顺利举办
-
2025-12-02
DeepSeek V3.2正式版上线超算互联网!强化Agent能力,融入思考推理
-
2025-11-28
超算&AI应用周报Vol.82 |阿里图像生成模型Z-Image、小米具身大模型MiMo-Embodied上线
-
2025-11-26
最佳实践Vol.57 | 基于Nektar++的亚音速圆柱绕流高精度模拟实战
-
2025-11-24
年度最强,100%中奖!“AI玩家召集令”已下,速来!
