新闻动态

首页 > 新闻动态 > 今日上新 | 腾讯混元3D世界模型、科学多模态大模型Intern-S1、语音模型Higgs Audio V2……

2025-07-29

今日上新 | 腾讯混元3D世界模型、科学多模态大模型Intern-S1、语音模型Higgs Audio V2……

SCNet今日上新

🤖腾讯混元3D世界模型上线，一句话创造3D世界

今日，超算互联网上线腾讯混元3D世界模型，支持下载模型文件快速构建3D 创作引擎，满足游戏开发、VR、数字内容创作者个性化创作需求。

腾讯混元3D世界模型1.0融合了全景视觉生成与分层3D重建技术，同时支持文字和图片输入，实现了高质量、风格多样的可漫游3D场景生成。

对游戏开发者而言，混元3D世界模型极大简化了3D场景构建流程，只需输入简单指令，模型即可快速生成包含建筑、地形、植被的完整3D场景。输出的Mesh文件可用于游戏原型搭建或关卡设计，还能灵活调整前景物体、更换天空背景，满足个性化创作需求。

无建模经验的普通用户，通过混元 3D 创作引擎，仅需一句话或者一张图即可快速生成360°沉浸式视觉空间，生成的场景可无缝导入Vision Pro等虚拟头显，带来沉浸式体验。

今日，超算互联网上线上海人工智能实验室『书生』科学多模态大模型Intern-S1，支持下载模型文件快速开发，助力全面重构科研生产力。

该模型首创"跨模态科学解析引擎"，基于2350亿参数MoE语言架构与60亿参数视觉编码器，可精准解读化学分子式、蛋白质结构、地震波信号等复杂科学数据。

Intern-S1支持规划化合物合成路线、分析蛋白质序列等专业科研任务。在5万亿个多模态数据token上预训练，其中超2.5万亿来自科学领域。

得益于强大的科学解析能力，Intern-S1在化学、材料、地球等多学科专业任务基准上超越了顶尖闭源模型Grok-4；在多模态综合能力方面，Intern-S1同样表现亮眼，全面领先InternVL3、Qwen2.5-VL等主流开源模型，为开发者提供专业级科学推理能力。

今日，超算互联网上线“AI大神”李沐开源语音生成模型Higgs Audio V2，助力开发者高效开发语音AI应用。该模型构建在 Llama-3.2-3B 基础之上，预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。目前在 Github 上已获得5.5k stars。

Higgs Audio V2的核心功能亮点包括：

多说话人对话生成能力：可自动识别对话场景中的不同角色，并为每个角色匹配相应的情感表达，在长对话中，模型能够保持角色声音的一致性，同时根据对话内容动态调整语气和情感，使生成的对话如真人交流般自然流畅。
智能韵律调整系统：该系统能根据文本内容自动调整语速、停顿和语调，无需人工干预即可生成富有生命力的语音。
零样本语音克隆与歌声合成：用户只需提供3-5秒的简短语音样本，模型就能准确复制特定人物的声音特征，包括音色、语调和说话习惯。同时可克隆声音哼唱旋律，同步生成背景音乐。
实时语音交互能力：能理解用户的语音情绪，并做出相应的情感化表达，这种能力为虚拟主播、实时语音助手等场景提供了接近人类的交互体验。

🔍一键直达：https://www.scnet.cn/ui/aihub/models/icszy_zs_ai/higgs-audio-v2-generation-3B-base

今日，阿里Qwen3-235B-A22B 思考模型升级版本：Qwen3-235B-A22B-Thinking-2507上线超算互联网，该模型采用极宽松的 Apache2.0 开源协议，可在超算互联网免费下载商用。

全新开源的 Qwen3-235B-A22B-Thinking-2507，在推理性能和通用能力上均实现巨大飞跃，可比肩Gemini-2.5 pro、O4-mini等顶尖闭源模型，并创下全球开源模型 SOTA 性能表现：

在编程（LiveCodeBench）、数学（AIME25）等核心能力上，Qwen3推理模型实现了推理性能提升；
在知识（SuperGPQA）、创意写作能力（WritingBench）、人类偏好对齐（Arena-Hard v2）、多语言能力（MultilF）等通用能力上，Qwen3推理模型取得了显著进步；
新模型支持 256K 长文本理解，适用于高度复杂的推理任务。

🔍一键直达：

更多热门模型，尽在SCNet：https://www.scnet.cn/ui/aihub/models