0%

人工智能工具正为物理世界做好准备

AI 走向现实世界:什么是“世界模型”?

Google 在 1 月发布的 Project Genie 令人惊叹,它能将简单的文本或图像提示转化为可互动的仿真世界。然而,其开发者认为这不仅是一个游戏,更是一个“世界模型”——这是 AI 理解复杂、不可预测物理空间的必要工具,对于未来人形机器人购物或自动驾驶汽车上路至关重要。

这一概念源于 1943 年心理学家 Kenneth Craik 的构想:生物在头脑中建立世界的“小型模型”以进行预演。目前,业界在构建 AI 世界模型上有三种主要路径:

  1. 基于视频生成的方法(如 Project Genie):
    通过模拟连贯世界来训练 AI。优点是能提供海量训练数据,但受限于视频的 2D 特性,难以捕捉非视觉信息或保持长期的一致性(Genie 仿真通常在 60 秒后就会失效)。

  2. 构建全 3D 环境(如 World Labs 的 Marble):
    由斯坦福大学 Fei-Fei Li 领导,强调空间智能。它旨在创建交互式、多模态且内部一致的完整 3D 世界,而非即兴生成的 2D 视频。这被认为更适合建筑设计等需要稳定空间的场景。

  3. 联合嵌入预测架构(JEPA,如 Yann LeCun 的探索):
    认为不应局限于物理空间。JEPA 旨在让 AI 能够进行抽象思考,规划未来而不必模拟每一秒的细节,类似于人类在做决策时会跳过繁琐的过程,直接预测结果。

争议:大语言模型(LLM)是否自带世界模型?

OpenAI 前联合创始人 Ilya Sutskever 等人认为,训练 LLM 本质上就是在训练世界模型。将海量互联网数据压缩成模型,迫使系统必须“学习”信息背后的根本原理。研究表明,AI 确实能在内部神经网络中“推演”出游戏逻辑或特定概念,但这是否等同于对物理世界的扎实理解,仍存巨大争议。

无论哪种路径最终胜出,AI 即将跨出屏幕,真正深入我们的物理世界。