新闻动态

首页 > 新闻动态 > DeepSeek-V3.2-Exp 上线，训练推理提效

2025-09-30

DeepSeek-V3.2-Exp 上线，训练推理提效

依托国产深算智能加速卡以及全国一体化算力网，DeepSeek-V3.2-Exp 现已上线超算互联网 AI 社区。企业和开发者均可在 AI 社区免费下载模型文件进行快速开发。9 月 29 日， DeepSeek 正式发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。

超算互联网 AI 社区上线 DeepSeek-V3.2-Exp 模型
模型地址:https://www.scnet.cn/ui/aihub/models/sugon_scnet/DeepSeek-V3.2-Exp
https://www.scnet.cn/ui/aihub/models/sugon_scnet/DeepSeek-V3.2-Exp-Base

DSA 稀疏注意力机制

DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

为了严谨地评估引入稀疏注意力带来的影响，DeepSeek 特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

TileLang & CUDA 算子开源

在新模型的研究过程中，需要设计和实现很多新的 GPU 算子。DeepSeek 使用高级语言 TileLang 进行快速原型开发，以支持更深入的探索。在最后阶段，以 TileLang 作为精度基线，逐步使用底层语言实现更高效的版本。

因此，本次开源的主要算子包含 TileLang 与 CUDA 两种版本。不过官方建议社区在进行研究性实验时，使用基于 TileLang 的版本以方便调试和快速迭代。

目前，超算互联网 AI 社区已汇聚 700 余款国内外优质开源模型，包括 DeepSeek-V3.1-Terminus、DeepSeek-R1-0528、DeepSeek-R1、DeepSeek-V3 等 DeepSeek系列，用户可登录 AI 社区 www.scnet.cn，实现 API 调用、Chatbot 在线推理对话、国产大模型分布式训练、微调等功能于一体的 MaaS 服务。

新闻动态

DeepSeek-V3.2-Exp 上线，训练推理提效

相关新闻

智谱GLM-4.6上线超算互联网，代码能力对齐Claude Sonnet 4，创国产模型新高

超算互联网筑基“气象大脑”，数据共享叩开商业气象新生态

超算&AI应用周报Vol.75 | 创作专属手办！腾讯3D生成模型上线，免费试玩

Qwen系列上线，多图编辑模型Qwen-Image-Edit新版、全模态大模型Qwen3-Omni、视觉语言模型Qwen3-VL

国家超算互联网与安徽省算力统筹调度平台互联互通