
谷歌推出精灵 3:为自动驾驶开启 “世界模式 ”之门
谷歌推出Genie 3:打开 “世界模型 ”通往自动驾驶的大门 近日,谷歌DeepMind推出视频生成模型Genie 3。与传统的生成式AI不同,Genie 3不仅能生成视频,更能基于文本或图像提示创建可交互的虚拟环境,具备 “世界模型 ”特征。该能力被业内视为通用人工智能落地以及智能驾驶发展中的重要突破。所谓 “世界模型”,是指人工智能系统通过学习世界运行规律,预测环境在行动后的演变,从而支持智能体在虚拟场景中的练习和优化决策。该能力被业内视为通用人工智能落地以及智能驾驶发展中的重要突破。3能够实时生成具备物理一致性和动态反馈的虚拟环境,成为自动驾驶算法训练的全新 “沙盒”。这意味着车企可以在更低成本、更高效率下,模拟极端工况与稀有场景,加速驾驶策略优化。从技术上看,Genie 3基于Vision Transformer(ViT)架构,具备720p、24帧实时渲染和约一分钟的视觉记忆。这使生成环境具备持续性与可信度,能够支持车辆控制逻辑在仿真中反复迭代。业内人士指出,若Genie 3进一步与车辆执行系统结合,并实现车端轻量化部署,或许可以推动智能驾驶从概念验证走向规模化应用。 不过,Genie 3目前仍存在行动空间受限问题。3目前仍存在行动空间受限、交互时长有限、地理精度不足等挑战。DeepMind已明确表示,Genie 3当前仅向部分研究人员开放研究预览版,尚未对公众推出。但Genie 3的发布为汽车行业带来信号:生成式AI正从 “内容工具 ”演变为 “环境引擎”,将成为下一阶段智能驾驶与产业升级的重要推力、新的视频生成模型,它超越了传统的生成式人工智能。与标准模型不同,Genie 3 可根据文本或图像提示创建交互式、物理一致的环境,体现了许多[...] 的 “世界模型 ”概念。