人工智能工具正为物理世界做好准备

Google 在 1 月发布的 Project Genie 令人惊叹，它能将简单的文本或图像提示转化为可互动的仿真世界。然而，其开发者认为这不仅是一个游戏，更是一个“世界模型”——这是 AI 理解复杂、不可预测物理空间的必要工具，对于未来人形机器人购物或自动驾驶汽车上路至关重要。

这一概念源于 1943 年心理学家 Kenneth Craik 的构想：生物在头脑中建立世界的“小型模型”以进行预演。目前，业界在构建 AI 世界模型上有三种主要路径：

基于视频生成的方法（如 Project Genie）：
通过模拟连贯世界来训练 AI。优点是能提供海量训练数据，但受限于视频的 2D 特性，难以捕捉非视觉信息或保持长期的一致性（Genie 仿真通常在 60 秒后就会失效）。
构建全 3D 环境（如 World Labs 的 Marble）：
由斯坦福大学 Fei-Fei Li 领导，强调空间智能。它旨在创建交互式、多模态且内部一致的完整 3D 世界，而非即兴生成的 2D 视频。这被认为更适合建筑设计等需要稳定空间的场景。
联合嵌入预测架构（JEPA，如 Yann LeCun 的探索）：
认为不应局限于物理空间。JEPA 旨在让 AI 能够进行抽象思考，规划未来而不必模拟每一秒的细节，类似于人类在做决策时会跳过繁琐的过程，直接预测结果。

争议：大语言模型（LLM）是否自带世界模型？

OpenAI 前联合创始人 Ilya Sutskever 等人认为，训练 LLM 本质上就是在训练世界模型。将海量互联网数据压缩成模型，迫使系统必须“学习”信息背后的根本原理。研究表明，AI 确实能在内部神经网络中“推演”出游戏逻辑或特定概念，但这是否等同于对物理世界的扎实理解，仍存巨大争议。

无论哪种路径最终胜出，AI 即将跨出屏幕，真正深入我们的物理世界。