AI 的世界真是日新月异,这才几天又一款全新的 AI 模型出现了:全球首个通用实时世界模型 PixVerse-R1。通用级PixVerse R1的技术突破 我觉得 PixVerse-R1 的发布标志着视频生成正在从“静态输出”转向“实时交互”的全新阶段。用户设定好世界观,就可以在生成视频流的过程里和 AI 实时交互,比如通过 prompt 改变地图和角色的行为。游戏、漫剧利好。 我试了一下,有 Deepseek 时刻的味道。 随着模型发布的还有一份技术报告,其中提到了三个创新性技术:Omni、Memory 和 IRE。 Omni 是一个从底层就支持多种模态的通用模型,用来做世界模型的计算基座。它用同一套 Transformer,把所有模态都编码进一条连续的 token 序列里,相当于用一条时间线来理解和生成整个世界的感知,这让不同模态之间的配合更自然、更精准。在训练上,用原始比例和分辨率来学习,不去随便裁剪、拉伸,所以画面里的构图、比例和细节都能尽量保持真实,不会被几何变形和伪影破坏。同时,模型通过海量真实视频把物理规律“学进了脑子”,比如光影怎么变化、物体怎么运动,所以它生成出来的平行世界,在光照和运动上大体是符合物理常识的。 Memory 这套机制,主要就是解决长视频里前后对不上和显存爆表这两个老大难问题。它不是一次性生成一整段视频,而是一帧一帧往后推,理论上可以一直生成下去,形成无尽的视频流。同时,它有一块专门的记忆模块,会把角色是谁、世界规则是什么这些关键信息单独记住,后面生成时直接用这份“记忆”,不用每次都从头算一遍,这样既保证了前后逻辑和物理效果统一,又不会让显存占用失控。 IRE 最有意思,可以理解为一套让模型实时响应的加速引擎,是实时响应的关键。 它做了三件事: 第一,用“时间轨迹折叠”把原来曲里拐弯的生成过程拉成一条直线,让噪声更快变成画面,把传统需要 50 多步的扩散采样压缩到 1~4 步,速度直接提升了几个数量级。 第二,用“引导校正”把各种条件约束(比如提示词、控制信息)直接融进模型内部,不再走传统 CFG 那套“双倍算力”的老路,节省算力。 第三,通过“自适应稀疏注意力”精简计算图,重点算该算的地方、略过不重要的区域,在 1080P 这种高分辨率下,还能在有限算力里给出接近即时的响应。 看起来 PixVerse-R1 是构建了一个可交互的数字世界计算基础设施,为 AI 原生游戏、实时 VR/XR、互动电影等全新媒介形态提供了新的可能性。

MacTalk 2026-01-18 21:26
推荐阅读