MiniMax今日开源的世界首个大规模混合架构的推理模型M1-456B,现已入驻国家超算互联网Chatbot对话服务。当前超算互联网ChatBot大家庭已囊括DeepSeek、Qwen、MiniMax的7款国产开源大模型。作为国家级综合算力服务平台,超算互联网以“国产算力+开源模型”一体化交付模式,持续推进“人工智能+”行动,全力支持国产大模型在更多场景加速落地。
据MiniMax官方介绍,M1在软件工程、长上下文等面向生产力的复杂场景中能力表现优异,且具备当前业内最高的性价比。
据公开资料显示,得益于闪电注意力机制为主的混合架构,M1在计算长的上下文输入以及深度推理的时候显著高效。
一方面,M1支持国内外大模型中最高的100万上下文的输入,在开源大模型中唯一达到闭源模型Google Gemini 2.5 Pro同等高度,是DeepSeek-R1 、Qwen3-235B的8倍,最长8万Token的推理输出,也仅次于o3满血版。另一方面,M1在训练和推理过程中拥有明显的算力效率优势,同样的8万Token深度推理,M1所需算力只有DeepSeek-R1的30%。
除此之外,在MiniMax公布的AIME基准测试实验中,M1的强化学习算法CISPO,通过裁剪重要性采样权重提升强化学习效率,收敛性能显著优于DAPO算法、GRPO算法。
M1在17个主流测评集的跑分细节:
相关新闻
-
2025-07-16
数算融合看“浙”里 - 国家超算互联网生态沙龙在乌镇顺利开展
-
2025-07-16
超算&AI应用周报Vol.63 | 智谱GLM-4.1V-Thinking、腾讯Hunyuan-A13B上线
-
2025-07-16
“超算互联网项目”顺利通过国家重点研发计划专家组中期检查
-
2025-07-16
论文解读Vol.7 | 微软发布波函数基础模型Orbformer,告别多参考体系的“算不准”和“算不起”
-
2025-07-16
最佳实践Vol.46 | AMSET计算材料形变势迁移率以及数据处理