新闻动态

首页 > 新闻动态 > 超算互联网0Day上线!智谱多模态大模型GLM-4.6V、「手机Agent」AutoGLM
2025-12-09

超算互联网0Day上线!智谱多模态大模型GLM-4.6V、「手机Agent」AutoGLM

刚刚,超算互联网 AI 社区上线智谱开源 GLM-4.6V 系列模型,以及「手机通用 Agent」AutoGLM!企业和开发者均可在 AI 社区快速下载模型文件进行推理部署、开发。


GLM-4.6V 系列多模态大模型,包括:面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B);面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。


Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。


图片

超算互联网 AI 社区上线 GLM-4.6V 和 AutoGLM

模型链接:

  • GLM-4.6V:https://www.scnet.cn/ui/aihub/models/sugon_scnet/GLM-4.6V

  • GLM-4.6V-Flash:https://www.scnet.cn/ui/aihub/models/sugon_scnet/GLM-4.6V-Flash

  • AutoGLM-Phone-9B:https://www.scnet.cn/ui/aihub/models/sugon_scnet/AutoGLM-Phone-9B


GLM-4.6V :从看懂图片到自动完成任务

GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。


「图像即参数,结果即上下文」

GLM-4.6V 从设计之初就围绕「图像即参数,结果即上下文」,构建了原生多模态工具调用能力:

  • 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。

  • 输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。


模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。


GLM-4.6V Benchmarks


同规模开源 SOTA

GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中,9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。


AutoGLM:让人人都可构建手机 Agent

2024 年 10 月,智谱发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM,它被业内视为全球首个具备 Phone Use 能力的 AI Agent。


2024 年 11 月,AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包。


2025 年,智谱发布了 AutoGLM 2.0,验证了强化学习的规模扩展定律,提出了 MobileRL、ComputerRL 和 AgentRL 算法,让 AutoGLM 在上千个虚拟设备环境里同时强化学习,极大扩展了 Agent 的准确性和泛化能力。


今天,智谱宣布开源 AutoGLM,从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度, AutoGLM 的积累足够写成一大摞技术报告。


图片


智谱表示,AutoGLM 开源的第一层初衷,是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。「从今天开始,人人都可以拥有自己的手机 Agent。」


此次开源的是一整套可以「拿来就用」的能力,而不仅仅是一份概念说明。具体包括:

  • 训练好的核心模型;

  • Phone Use 能力框架与工具链;

  • 可直接跑通的 Demo,覆盖 50+ 高频中文 App;

  • 针对 Android 的适配层与示例工程;

  • 文档、快速上手指南。


图片

超算互联网 AI 社区上线的 GLM 系列模型


目前,超算互联网 AI 社区已汇聚 900 余款国内外优质开源模型,上线 20 余款智谱开源模型,包括新一代 GLM 模型系列、视频生成模型 CogVideoX 系列、端到端语音模型 GLM-4-Voice,以及多语言代码生成模型 CodeGeeX4 等。更多热门模型及应用可登录 AI 社区 www.scnet.cn/ui/aihub/ 体验。


智谱开源模型链接合集:

https://www.scnet.cn/ui/aihub/models?keyword=GLM&order=updateTime