🤖AI模型上新
GLM-4.6V 系列多模态大模型,包括:面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B);面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。 Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。 GLM-ASR 系列语音识别模型包括:全球领先的云端语音识别模型GLM-ASR-2512;参数量仅 1.5B 的开源 SOTA 端侧语音模型 GLM-ASR-Nano-2512。 GLM‑TTS 工业级语音合成系统:只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。 四项视频生成核心技术:
SCAIL:影视级角色动画生成框架,实现SOTA姿态控制; RealVideo:实时流式视频生成系统,仅2-3秒首响延迟; Kaleido:多主体视频生成框架,一致性开源SOTA; SSVAE:频谱结构化变分自编码器 VAE,3倍收敛加速。
图像编辑高度可控:LongCat-Image 在图像编辑领域的多个重要基准测试中(如GEdit-Bench、ImgEdit-Bench)均达到开源SOTA水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。 中文文字生成精准覆盖:针对中文文本渲染这一行业痛点,LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度。
逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时,提供了强大的逼真图像生成能力。 准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。
https://www.scnet.cn/ui/aihub/models
相关新闻
-
2025-12-11
最佳实践Vol.58 | 玩转AI社区,从0到1构建智能体
-
2025-12-09
超算互联网0Day上线!智谱多模态大模型GLM-4.6V、「手机Agent」AutoGLM
-
2025-12-08
荣誉见证合作力量,携手共筑AI开源新生态
-
2025-12-05
超算&AI应用周报Vol.83 | 免费试玩!文字识别HunyuanOCR智能体、多模态智能助手MiniCPM-V上线
-
2025-12-03
晋升国标,“超算互联网标准体系”建设取得新突破
