🤖AI模型上新
GLM-4.6V 系列多模态大模型,包括:面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B);面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。 Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。 GLM-ASR 系列语音识别模型包括:全球领先的云端语音识别模型GLM-ASR-2512;参数量仅 1.5B 的开源 SOTA 端侧语音模型 GLM-ASR-Nano-2512。 GLM‑TTS 工业级语音合成系统:只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。 四项视频生成核心技术:
SCAIL:影视级角色动画生成框架,实现SOTA姿态控制; RealVideo:实时流式视频生成系统,仅2-3秒首响延迟; Kaleido:多主体视频生成框架,一致性开源SOTA; SSVAE:频谱结构化变分自编码器 VAE,3倍收敛加速。
图像编辑高度可控:LongCat-Image 在图像编辑领域的多个重要基准测试中(如GEdit-Bench、ImgEdit-Bench)均达到开源SOTA水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。 中文文字生成精准覆盖:针对中文文本渲染这一行业痛点,LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度。
逼真的画质: Z-Image-Turbo 在保持出色美学质量的同时,提供了强大的逼真图像生成能力。 准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。
https://www.scnet.cn/ui/aihub/models
相关新闻
-
2026-03-09
全面打通飞书、企微!超算互联网助你“养虾”自由
-
2026-03-06
在超算互联网也能“养龙虾”了!一分钟速通OpenClaw部署
-
2026-02-27
国家超算互联网核心节点上线试运行,全国最大国产AI算力资源池启用
-
2026-02-27
计算速度与效率双跃升!千款应用深度适配超算互联网万卡超集群
-
2026-02-27
超算互联网核心节点赋能,材料计算效率再提速
