新闻动态

首页 > 新闻动态 > 本周上新 | 智谱开源周系列模型、美团图像生成模型LongCat-Image上线
2025-12-12

本周上新 | 智谱开源周系列模型、美团图像生成模型LongCat-Image上线

🤖AI模型上新


智谱开源周系列模型上线:GLM-4.6V、GLM-ASR、GLM‑TTS...
本周,智谱 GLM 先后开源了多模态模型家族:从「眼睛看得见」的视觉理解模型 GLM‑4.6V,到「手能动起来」的 AutoGLM,再到「语音听得懂」的 GLM‑ASR,与「话能说出口」的 GLM‑TTS。以及开源四项面向视频生成的核心技术成果:SCAIL、RealVideo、Kaleido 与 SSVAE。它们对准当前视频生成领域的三大难点:精细化可控生成、复杂时空结构建模,以及大规模训练成本控制。

图片
超算互联网 AI 社区上线立即上线多款智谱系列模型!企业和开发者均可在 AI 社区快速下载模型文件进行推理部署、开发。

  • GLM-4.6V 系列多模态大模型,包括:面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B);面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。
  • Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。
  • GLM-ASR 系列语音识别模型包括:全球领先的云端语音识别模型GLM-ASR-2512;参数量仅 1.5B 的开源 SOTA 端侧语音模型 GLM-ASR-Nano-2512。
  • GLM‑TTS 工业级语音合成系统:只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。
  • 四项视频生成核心技术:
  • SCAIL:影视级角色动画生成框架,实现SOTA姿态控制;
  • RealVideo:实时流式视频生成系统,仅2-3秒首响延迟;
  • Kaleido:多主体视频生成框架,一致性开源SOTA;
  • SSVAE:频谱结构化变分自编码器 VAE,3倍收敛加速。

🔍一键直达:
https://www.scnet.cn/ui/aihub/models?keyword=ZhipuAI&order=updateTime

美团图像生成模型LongCat-Image上线,编辑能力登顶开源SOTA
本周,超算互联网 AI 社区上线美团 LongCat 团队图像生成模型 LongCat-Image,该模型以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果。

图片
LongCat-Image 亮点包括:

  • 图像编辑高度可控:LongCat-Image 在图像编辑领域的多个重要基准测试中(如GEdit-Bench、ImgEdit-Bench)均达到开源SOTA水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。
  • 中文文字生成精准覆盖:针对中文文本渲染这一行业痛点,LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度。

🔍一键直达:
https://www.scnet.cn/ui/aihub/models/openaimodels/LongCat-Image

南京大学团队SteadyDancer上线,首帧保留彻底解决身份漂移难题
本周,南京大学、腾讯 PCG、上海人工智能实验室联合推出并开源 SteadyDancer,这是首个基于 Image-to-Video 范式并稳健实现首帧保留的框架。

图片
超算互联网 AI 社区已上线 SteadyDancer,该模型采用极宽松的 Apache2.0 开源协议,用户可在超算互联网免费下载商用。

SteadyDancer 通过引入条件协调机制、协同姿态调制模块及分阶段解耦目标训练流程,该模型成功攻克了外观保真度与运动控制难以兼得的难题,在显著降低训练资源消耗的同时,生成了协调且连贯的高质量视频。

🔍一键直达:
https://www.scnet.cn/ui/aihub/models/icszy_zs_ai/SteadyDancer-14B

🚀AI 应用上新

在线文生图!图像生成Z-Image-Turbo智能体上线
本周,阿里通义实验室图像生成 Z-Image-Turbo 智能体上线超算互联网 AI 社区。用户登录 AI 社区,无需部署,开箱即用!操作简单,无需复杂设置,输入文字描述即可快速获得高质量图像。

图片
Z-Image 是一个强大且高效的图像生成模型,具有 6B 参数。Z-Image 的精简版本 Z-Image-Turbo ,仅用 8 NFEs(函数评估次数)即可与领先的竞争对手匹敌或超越。它在逼真的图像生成、双语文本渲染(英语和中文)以及强大的指令遵循方面表现出色。

Z-Image-Turbo 模型亮点如下:

  • 逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时,提供了强大的逼真图像生成能力。
  • 准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。

🔍一键直达:
https://www.scnet.cn/ui/aihub/agent/openaimodels/Z-Image-Turbo

最佳实践 | 玩转AI社区,从0到1构建智能体
超算互联网 AI 社区完成焕新升级,以更开放的生态、更强大的工具、更友好的体验,为开发者与科研工作者打造一个功能聚合、协作创新的核心阵地。

图片
本期最佳实践,我们将演示如何在超算互联网平台上构建一个智能体,我们以开源项目 MinerU2.5 为例,MinerU 是一款将 PDF 转化为机器可读格式的工具,如 markdown、json 等,使用这个工具可以很方便地将 PDF 文件进行格式转化。

除了视频教程外,我们提供详细的实操文档,大家可参照这些步骤在超算互联网 AI 社区搭建专属智能体!

➡️使用教程文档:https://www.scnet.cn/help/docs/mainsite/ai/practice/development/MinerU/

更多热门模型&应用,尽在SCNet:

https://www.scnet.cn/ui/aihub/models