谷歌推出 Genie 3:打开 “世界模型 ”通往自动驾驶的大门
近日,谷歌DeepMind推出视频生成模型Genie 3。与传统的生成式AI不同,Genie 3不仅能生成视频,更能基于文本或图像提示创建可交互的虚拟环境,具备 “世界模型 ”特征。该能力被业内视为通用人工智能落地以及智能驾驶发展中的重要突破。
所谓 “世界模型”,是指人工智能系统通过学习世界运行规律,预测环境在行动后的演变,从而支持智能体在虚拟场景中练习和优化决策。在汽车行业,世界模型的意义尤为突出。3能够实时生成具备物理一致性和动态反馈的虚拟环境,成为自动驾驶算法训练的全新 “沙盒”。这意味着车企可以在更低成本、更高效率下,模拟极端工况与稀有场景,加速驾驶策略优化。
从技术上看,Genie 3基于Vision Transformer(ViT)架构,具备720p、24帧实时渲染和约一分钟的视觉记忆。这使生成环境具备持续性与可信度,能够支持车辆控制逻辑在仿真中反复迭代。业内人士指出,若Genie 3进一步与车辆执行系统结合,并实现车端轻量化部署,或许可以推动智能驾驶从概念验证走向规模化应用。
不过,Genie 3目前仍存在行动空间受限、交互时长有限、地理精度不足等挑战。DeepMind已明确表示,Genie 3当前仅向部分研究人员开放研究预览版,尚未对公众推出。但Genie 3的发布为汽车行业带来信号:生成式AI正从 “内容工具 ”演变为 “环境引擎”,将成为下一阶段智能驾驶与产业升级的重要推力。
谷歌 DeepMind 发布了新的视频生成模型 Genie 3,它超越了传统的生成式人工智能。与标准模型不同,Genie 3 可根据文本或图像提示创建交互式、物理一致的环境,体现了 “世界模型 ”的概念,许多人认为这一概念对未来的自动驾驶至关重要。.
世界模型使人工智能系统能够学习世界的行为方式,并预测在采取行动后环境如何演变,从而使代理能够在安全的模拟环境中练习决策。这对汽车行业具有深远的影响。智能交通的关键挑战之一在于如何安全地处理罕见而复杂的交通场景。传统的模拟严重依赖真实世界的记录数据,成本高昂且局限性大。相比之下,Genie 3 可以实时生成动态环境,为汽车制造商提供可扩展的沙盒,以更低的成本和更高的效率训练和验证自动驾驶算法。.
从技术上讲,Genie 3 建立在基于视觉转换器(ViT)的时空架构上,可实现 720p、24fps 实时渲染,拥有约一分钟的视觉记忆。这确保了虚拟世界的一致性,使车辆控制系统能够在模拟条件下进行迭代和优化。分析人士认为,在车辆上轻量级部署 Genie 3 可加速自动驾驶从概念验证到实际应用的过渡。.
不过,局限性依然存在--精灵 3 目前支持受限的行动空间、有限的交互持续时间和不完善的地理精确度。重要的是,DeepMind 已经明确表示,精灵 3 仅作为研究预览版提供给数量有限的测试者,尚未向公众开放。.
尽管挑战依然存在,但 Genie 3 的推出预示着模式的转变:生成式人工智能正在从内容工具演变为环境引擎,必将推动下一阶段的智能交通和行业转型。.