新闻动态

首页 > 新闻动态 > 本周上新 | 智谱开源周系列模型、美团图像生成模型LongCat-Image上线

2025-12-12

本周上新 | 智谱开源周系列模型、美团图像生成模型LongCat-Image上线

🤖AI模型上新

智谱开源周系列模型上线：GLM-4.6V、GLM-ASR、GLM‑TTS...

本周，智谱 GLM 先后开源了多模态模型家族：从「眼睛看得见」的视觉理解模型 GLM‑4.6V，到「手能动起来」的 AutoGLM，再到「语音听得懂」的 GLM‑ASR，与「话能说出口」的 GLM‑TTS。以及开源四项面向视频生成的核心技术成果：SCAIL、RealVideo、Kaleido 与 SSVAE。它们对准当前视频生成领域的三大难点：精细化可控生成、复杂时空结构建模，以及大规模训练成本控制。

超算互联网 AI 社区上线立即上线多款智谱系列模型！企业和开发者均可在 AI 社区快速下载模型文件进行推理部署、开发。

GLM-4.6V 系列多模态大模型，包括：面向云端与高性能集群场景的基础版 GLM-4.6V（106B-A12B）；面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash（9B）。
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架，它能够以多模态方式理解手机屏幕内容，并通过自动化操作帮助用户完成任务。
GLM-ASR 系列语音识别模型包括：全球领先的云端语音识别模型GLM-ASR-2512；参数量仅 1.5B 的开源 SOTA 端侧语音模型 GLM-ASR-Nano-2512。
GLM‑TTS 工业级语音合成系统：只需 3 秒语音样本，GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中，实现自然流畅、贴近真人的语音。
四项视频生成核心技术：

SCAIL：影视级角色动画生成框架，实现SOTA姿态控制；
RealVideo：实时流式视频生成系统，仅2-3秒首响延迟；
Kaleido：多主体视频生成框架，一致性开源SOTA；
SSVAE：频谱结构化变分自编码器 VAE，3倍收敛加速。

🔍一键直达：

https://www.scnet.cn/ui/aihub/models?keyword=ZhipuAI&order=updateTime

美团图像生成模型LongCat-Image上线，编辑能力登顶开源SOTA

本周，超算互联网 AI 社区上线美团 LongCat 团队图像生成模型 LongCat-Image，该模型以 6B 参数规模，成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果。

LongCat-Image 亮点包括：

图像编辑高度可控：LongCat-Image 在图像编辑领域的多个重要基准测试中（如GEdit-Bench、ImgEdit-Bench）均达到开源SOTA水平，实现性能突破的背后在于一套紧密协同的训练范式和数据策略。
中文文字生成精准覆盖：针对中文文本渲染这一行业痛点，LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度。

🔍一键直达：

https://www.scnet.cn/ui/aihub/models/openaimodels/LongCat-Image

南京大学团队SteadyDancer上线，首帧保留彻底解决身份漂移难题

本周，南京大学、腾讯 PCG、上海人工智能实验室联合推出并开源 SteadyDancer，这是首个基于 Image-to-Video 范式并稳健实现首帧保留的框架。

超算互联网 AI 社区已上线 SteadyDancer，该模型采用极宽松的 Apache2.0 开源协议，用户可在超算互联网免费下载商用。

SteadyDancer 通过引入条件协调机制、协同姿态调制模块及分阶段解耦目标训练流程，该模型成功攻克了外观保真度与运动控制难以兼得的难题，在显著降低训练资源消耗的同时，生成了协调且连贯的高质量视频。

🔍一键直达：

https://www.scnet.cn/ui/aihub/models/icszy_zs_ai/SteadyDancer-14B

🚀AI 应用上新

在线文生图！图像生成Z-Image-Turbo智能体上线

本周，阿里通义实验室图像生成 Z-Image-Turbo 智能体上线超算互联网 AI 社区。用户登录 AI 社区，无需部署，开箱即用！操作简单，无需复杂设置，输入文字描述即可快速获得高质量图像。

Z-Image 是一个强大且高效的图像生成模型，具有 6B 参数。Z-Image 的精简版本 Z-Image-Turbo ，仅用 8 NFEs（函数评估次数）即可与领先的竞争对手匹敌或超越。它在逼真的图像生成、双语文本渲染（英语和中文）以及强大的指令遵循方面表现出色。

Z-Image-Turbo 模型亮点如下：

逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时，提供了强大的逼真图像生成能力。
准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。

🔍一键直达：

https://www.scnet.cn/ui/aihub/agent/openaimodels/Z-Image-Turbo

最佳实践 | 玩转AI社区，从0到1构建智能体

超算互联网 AI 社区完成焕新升级，以更开放的生态、更强大的工具、更友好的体验，为开发者与科研工作者打造一个功能聚合、协作创新的核心阵地。

本期最佳实践，我们将演示如何在超算互联网平台上构建一个智能体，我们以开源项目 MinerU2.5 为例，MinerU 是一款将 PDF 转化为机器可读格式的工具，如 markdown、json 等，使用这个工具可以很方便地将 PDF 文件进行格式转化。

除了视频教程外，我们提供详细的实操文档，大家可参照这些步骤在超算互联网 AI 社区搭建专属智能体！

➡️使用教程文档：https://www.scnet.cn/help/docs/mainsite/ai/practice/development/MinerU/

更多热门模型&应用，尽在SCNet：

https://www.scnet.cn/ui/aihub/models

新闻动态

本周上新 | 智谱开源周系列模型、美团图像生成模型LongCat-Image上线

相关新闻

DeepSeek-V4 全矩阵上线！国家超算互联网筑牢“人工智能+”算力底座

探索"数算模用"一体化发展，超算互联网加速DeepSeek V4赋能千行百业

DeepSeek-V4上线超算互联网，普惠算力赋能国产大模型进入普惠时代

全量适配MiniMax M2.7和Qwen3.5！众智FlagOS模型镜像入驻超算互联网AI社区

天津算力券政策：企业免费算力红利这样领