应用周报

每周带来超级计算与人工智能的热点资讯,聚焦超算&AI快讯、前沿应用、学术研究、最佳实践等行业热点、前沿趋势、商城动态。

热门软件模型持续更新中,关注【超算互联网】公众号,每周抢先体验最新超算应用。

超算AI快讯

通义万相「首尾帧生视频模型」上线超算互联网

本周,通义万相首尾帧生视频开源模型上线超算互联网,支持下载模型文件快速开发。

WAN.png

Wan2.1作为百亿级参数规模的开源首尾帧生视频模型,该模型可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。

基于该模型,用户上传两张图片即可完成更复杂、更个性化的视频生成任务,并实现同一主体的特效变化、不同场景的运镜控制等视频生成。

用户还可输入一段提示词,通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,让视频拥有更丰富的视觉效果。

2.png

在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。

您可点击商品详情 (scnet.cn)抢先体验。


昆仑万维无限时长电影生成模型SkyReels-V2上线超算互联网

本周,昆仑万维无限时长电影生成模型SkyReels-V2上线超算互联网,平台提供一键下载模型文件快捷开发服务。

昆仑.png

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。

SkyReels-V2的多项创新技术包括:

  1. 全面的影视级视频理解模型:SkyCaptioner-V1

  2. 针对运动的偏好优化

  3. 高效的扩散强迫框架

  4. 渐进式分辨率预训练与多阶段后训练优化

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使其能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。

在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。具体表现如下:

指令遵循:SkyReels-V2在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上均优于基线方法。运动质量:在运动动态性、流畅性和物理合理性方面,SkyReels-V2表现出色,生成的运动内容自然且多样。

一致性:主体和场景在整个视频中保持高度一致,运动过程有较高的保真度。

视觉质量:生成视频在视觉清晰度、色彩准确性和结构完整性上均达到高水平,无明显扭曲或损坏。

e8fd4f24-79da-475f-abe7-2357507e6658.png

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。这一结果进一步验证了SkyReels-V2在生成高保真、指令对齐的视频内容方面的强大能力。

SkyReels-V2支持多种应用,包括故事生成、图像到视频合成、摄像指导功能以及元素到视频生成。

您可点击商品详情 (scnet.cn)抢先体验。


微软原生1-bit模型BitNet b1.58 2B4T上线,计算效率更高

本周,微软原生1-bit模型BitNet b1.58 2B4T上线超算互联网,支持下载模型文件快速开发。

微软.png


BitNet b1.58 2B4T是由微软研究院开发的一个开源、原生1-bit大规模语言模型(LLM),参数规模达到20亿。该模型在4万亿个令牌的数据集上进行训练,展示了原生1-bit LLM可以实现与相同大小的领先开放权重全精度模型相当的性能,同时在计算效率(内存、能耗、延迟)方面提供了显著优势。

根据研究人员的测试,该模型在包括 ARC-Challenge、OpenbookQA、 BoolQ、GSM8K(小学水平数学问题的集合)和 PIQA(测试物理常识推理能力)等在内的基准测试中,超过了 Meta 的 Llama 3.2 1B、谷歌的 Gemma 3 1B 和阿里巴巴的 Qwen 2.5 1.5B。BitNet b1.58 2B4T 的运行速度比其他同等规模的模型更快,在某些情况下的速度甚至能达到其他模型的数倍,同时内存占用却只是后者的一小部分。BitNet b1.58 2B4T 的内存大小仅为 0.4GB,CPU 推理延迟是 29ms;而其他同等规模的模型需要 1.4-4.8GB,CPU 推理延迟在 41ms-124ms。

7e3054a8-fe32-4eff-be25-02e8235cc7d4.png

从微软在技术报告中放出的对比图可以看到,BitNet b1.58 2B4T 在性能上几乎与 Qwen 2.5 1.5B 相当,但内存大小仅为后者的 1/6,速度提高了 2 倍。并且,其性能优于需 2GB 内存的 Llama 3.2 1B 模型,且 BitNet b1.58 2B4T 处理 token 的速度还要快 40%。此外,具有 1000 亿(100B)参数的 BitNet b1.58 模型可以在单个 CPU 上运行,速度可与人类阅读速度相媲美(每秒处理 5-7 个 token),这一结果极大地增强了在本地设备上运行 LLM 的可能性。

您可点击商品详情 (scnet.cn)抢先体验。


自回归视频生成大模型MAGI-1上线,清华特奖团队打造

本周,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。这是一个通过自回归预测视频块序列来生成视频的世界模型,生成效果自然流畅。MAGI-1已上线超算互联网,支持快速下载模型文件。

8c9dad1b-f06b-47fc-b2e3-ccfeb97069b1.png

MAGI-1 是一个世界模型,通过自回归预测视频块序列来生成视频。该模型通过去噪逐块增加的噪声,实现因果时间建模,并支持流式生成。MAGI-1 在基于文本指令的图像到视频任务中表现出色,提供高时间一致性和可扩展性。其创新算法和基础设施支持块级提示生成,允许平滑场景过渡、长时间合成和细粒度文本驱动控制。

fd662921-a027-4ec3-9ad0-9be3d17304cd.png

MAGI-1 生成的视频具有以下特点:

1、流畅度高,不卡顿,可以无限续写。它可以一镜到底生成连续的长视频场景,没有尴尬的剪辑或奇怪的拼接,就像电影一样流畅自然。

2、精准时间轴控制。MAGI-1 是唯一具有秒级时间轴控制的模型 —— 你可以按自己设想的那样,精准地雕琢每一秒。

3、运动更加自然,更有生机。不少 AI 生成的视频,画面动作不是慢吞吞,就是僵硬死板、幅度过小。Magi-1 克服了这些问题,生成的动作更加流畅、有活力,且场景切换更加顺滑。内部人工评估:在开源模型中,MAGI-1 实现了最先进的性能(超过 Wan-2.1,明显优于 Hailuo 和 HunyuanVideo),尤其是在指令遵循和运动质量方面表现出色,使其成为 Kling 等闭源商业模型的潜在有力竞争者。

物理评估:得益于自回归架构的天然优势,Magi 在通过视频连续性预测物理行为方面实现了远超常人的精度,明显优于所有现有模型。

您可点击商品详情 (scnet.cn)抢先体验。

前沿应用

最佳实践Vol.36 | WRF高分辨率数值模拟——以台风 “凤凰”登陆为例

台风是形成在热带海洋上的强烈天气系统,是地球上最具破坏力的自然灾害之一。每年全球热带洋面生成的、最大风速达到8级以上的热带气旋平均有83个,影响 50多个国家。

Weather Research and Forecasting(WRF)是一款由美国国家大气研究中心(NCAR)、国家海洋和大气管理局(NOAA)及其合作伙伴共同开发的广泛使用的数值天气预测和大气研究工具。它用于模拟短期天气预报、大气过程和长期气候模拟。使用WRF的前提需要进行基础库和WRF模式的编译安装,流程较为麻烦繁琐。

现在,超算互联网提供WRF一键部署服务,使科研人员能够绕过繁琐的设置和调试,轻松体验WRF的强大功能。

本期最佳实践,我们将利用中尺度非静力WRF模式,对2008年第8号台风 “凤凰”的登陆过程开展高分辨率数值模拟。

1ffb5f46-3c71-4d1f-a491-afab72064ee1.png

除了视频教程外,我们提供详细的实操文档,大家可参照这些步骤在超算互联网使用WRF进行气象模拟计算。

更多应用案例可关注超算互联网最佳实践系列文章


开源文本转语音模型Dia-1.6B发布,合成超逼真对话

Dia是由Nari Labs开发的一个拥有16亿参数的文本到语音(TTS)模型。该模型能够直接从文本生成高度逼真的对话,并支持通过音频进行情感和语调控制。同时,模型还可以生成非语言的交流声音,例如笑声、咳嗽声、吸鼻子声等。


output.png


目前 Nari Labs 并未发布 Dia 模型的详细技术报告,但可以在其 Hugging Face 页面看到些许有关硬件和推理加速的技术细节。

该团队表示,Dia 目前仅在 GPU 上进行过测试(Pytorch 2.0+,CUDA 12.6)。CPU 支持也即将添加。并且由于需要下载 Descript Audio Codec,初始运行会需要更长时间。

在企业级 GPU 上,Dia 可以实时生成音频。在较旧的 GPU 上,推理会更慢。作为参考,在 A4000 GPU 上,Dia 大约每秒生成 40 个 token(86 个 token 相当于 1 秒的音频)。torch.compile 将提高受支持 GPU 的速度。Dia 的完整版本需要大约 10GB 的显存才能运行。不过该团队承诺未来会放出一些量化版本。

GitHub:https://github.com/nari-labs/dia/Hugging Face: https://huggingface.co/nari-labs/Dia-1.6B


学术研究

论文解读Vol.4 | AI探索氧化铈纳米团簇庞大构型空间,准确性与第一性原理计算相当

氧化铈(CeO₂)具有独特的 4f 电子结构和高储氧能力,是一种重要的催化剂和载体材料。然而,CeO₂ 纳米簇的复杂性对其结构表征构成了挑战。

近日,来自中国科学院和上海大学的研究团队,提出了一种机器学习方法,利用高维神经网络势(High-dimensional Neural Network Potential,HDNNP)来加速氧化铈纳米簇结构的全局优化。新方法集成了主动学习,构建了一个多功能的 HDNNP,可以探索从小型到中型的氧化铈簇(CenO2n+x,n=2~18,x=−1, 0, +1)的庞大构型空间。

通过迭代主动学习改进的 HDNNP,达到了与第一性原理计算相当的准确性。结果表明,最低能量结构的构型在不同区间有所不同。在 n=9 和 n=14 时,结构从紧凑型转变为多层有序结构,随后转变为金字塔结构。当 n>14 时,几乎所有的结构都是由核心不断增长的金字塔结构衍生而来的。此外,还分析了最低能量簇的电子结构。

HDNNP 为复杂纳米团簇结构的全局优化提供了一个强大的框架。该研究不仅促进了对氧化铈纳米团簇的理解,而且为机器学习势在复杂电子结构材料科学研究中的应用铺平了道路。

捕获.png

论文原文及解读稿全文已上线超算互联网「论文研读」店铺,可点击文末“阅读原文”或访问下方链接获取:

https://www.scnet.cn/ui/mall/search/global?keyword=HDDNP


【投稿征集】

自 2025 年 3 月起,超算互联网上线「AI4S 论文解读系列专题」,截至今日,已向超算用户和科研人员分享四期 AI for materials、protein、biology 方向的论文解读。超算互联网重点关注 AI 大模型、HPC、工业仿真、AI4S(物理、化学材料、气象环境、生物信息等)等前沿领域的最新研究进展。

超算互联网日访问量已突破 300 万,为全面、高效地传播前沿科研成果,我们诚邀您分享创新研究成果和高效计算方法等。现面向广大科研人员开放免费投稿渠道。稿件内容来源为:个人学术研究成果、高水平期刊学术论文解读。

投稿方式:

投递邮箱:scnet_contest@163.com

也可扫描下方二维码添加超算互联网小编企业微信进行投稿。还可入群交流,共同探讨 AI4S 发展,快速把握科研领域的热点资讯。

ea19a745-04fc-4714-9383-2fc1743843c0.png


从抗体到基因剪刀设计,AI生物大模型ProGen3发布

近期,生物计算公司 ProFluent 推出了 ProGen3 系列稀疏生成式 PLM,并提出了计算优化的缩放定律,用于扩展到 46B 的参数模型(基于 1.5T 氨基酸标记进行预训练)。准确地说,ProGen3 是一套用于蛋白质设计的前沿生成语言模型。它不仅允许用户生成新的全长蛋白质,还能重新设计现有蛋白质的特定结构域以增强其功能。它利用稀疏架构实现了 4 倍加速,且不牺牲建模性能。

3a921cd4-09eb-47a3-b8da-b45446e0d0b7.png

ProGen3 的预训练数据取自 Profluent Protein Atlas v1 的优化数据分布,该数据集包含 34 亿个全长蛋白质。并且,研究人员首次在湿实验室中评估模型规模对 PLM 生成的序列的影响,他们发现更大的模型可以为更广泛的蛋白质家族生成可行的蛋白质。「这并非纯粹的学术探索。我们最终会根据为社会创造实际价值的能力来评估 Profluent 的成果。扩展蛋白质语言模型实现了从生成溶菌酶等模型酶到设计像 OpenCRISPR 这样复杂、功能强大的基因组编辑器的能力飞跃。」ProFluent 团队表示。

该研究以「Scaling unlocks broader generation and deeper functional understanding of proteins」为题,于 2025 年 4 月 16 日发布在 BioRxiv 预印平台。

论文链接:https://www.biorxiv.org/content/10.1101/2025.04.15.649055v1

行业交流

超算&AI应用交流群

关于市面上物理化学材料、气象环境、生物信息、人工智能等领域的各类热门软件以及超算&AI行业热点资讯,我们组建了一个高质量社群,感兴趣的老师,欢迎扫码加群交流~

×