五年内，JEPA全面统治！图灵奖得主LeCun直言：我对Llama没有任何贡献！OpenAI是下一个Sun公司、！LLM有内生缺陷{！开源会追上闭}源

青墨烟水

徐顺利 齐鲁晚报 | 2026-05-17 04:08:31

（来源：图灵人工智能）

编辑 | 林芯

“五年内，JEPA 模型全面统治全球。”

“尤其是在硅谷，所有人都在挖同一条战壕，他们无法承受“落后竞争对手”的风险。”

“预测像素基本上是一条死路，而 JEPA 才是真正正确的方向。”

图灵奖得主、AI教父杨立昆，在最新深度播客里，再次抛出一连串颠覆行业的重磅判断：大语言模型有用，但绝不是通往真正智能的道路；像素预测本质是死路；LLM天生存在内生性安全缺陷；OpenAI们终将成为下一个Sun Microsystems；而 JEPA 架构，将会在五年内成为智能系统的绝对主流！

并直言硅谷已经陷入“羊群效应”，所有人都挤在同一条战壕内卷；VLA 路线基本宣告失败，世界模型才是机器人、自动驾驶以及工业AI的唯一出路。

到2027年初，整个行业都会明白，范式必须转变。

当下的 AI 行业，所有人都在追逐大模型、堆叠参数、迭代对话能力。硅谷扎堆内卷，资本疯狂押注，几乎整个行业都默认：沿着 LLM 的路线狂奔，就能抵达通用人工智能的终点。

杨立昆直言：“大语言模型本身并没有问题，但它们不是通往真正智能的道路。LLM 非常擅长语言处理，但是现实世界比语言复杂得多。”

越来越多人意识到：VLA 不行，而 LLM 也无法真正处理现实世界数据。需要范式转变这一认知，其实正在此刻发生。我觉得到了 2027 年初，这件事会对所有人变得显而易见。

在这次播客中，他以开玩笑的口吻说出了“五年内，JEPA 模型全面统治”的未来智能系统的蓝图，但大语言模型仍然会有一席之地，比如作为语言接口。

第二，关于开源模型和闭源模型，目前行业里的普遍观点是：开源模型落后闭源模型六个月。例如谷歌 DeepMind CEO Demis Hassabis、Andrej Karpathy 等。

当主持人询问杨立昆怎么看待“随着闭源模型越来越强，它们会利用自己的优势继续训练下一代模型，以至于开源永远追不上”的看法时，杨立昆的观点是：如今的 OpenAI、Anthropic 等公司，就相当于当年的 Sun Microsystems 和 HP-UX。这些模型本身存在能力上限，公开可获得的文本数据基本已经全部被训练过了，没有更多数据了。

备注：Sun Microsystems是一家美国IT及互联网技术公司，以服务器、工作站、操作系统和Java平台等创新技术闻名，已于2010年被甲骨文收购。

同时，AI 正在迅速变成一种“平台”，而平台天然会朝开放化发展。就像互联网的软件基础设施、无线网络也是如此，最初它们都是封闭、专有的，但最终整个 Web 生态都变成了开源。

第三，硅谷为什么疯狂押注 LLM？

在杨立昆看来，硅谷陷入了“羊群效应”，所有人都在追逐同样的东西，他们无法承受“落后竞争对手”的风险。因此，即便有人意识到“可能存在更高效的路线”，也很难真正离开主流轨道。

第四，当 AI 成为我们信息获取的中介后, 我们应该如何解决 AI 的主权问题？

世界的大多数国家都希望拥有 AI 主权，而 Tapestry 就是杨立昆给的解决方案：不需要共享数据，可以直接在本地训练，这个模型最终会成为某种“全人类知识与文化的仓库”。

第五，LLM 从根本上就是不安全的，它的局限是内生的。在他看来，LLM 在编程领域的发展，原因是编程的可验证性。但是 LLM 一方面能帮助你，一方面也可能做出删掉硬盘之类的举动。

“你给它一个 prompt，它会尝试完成对应任务。但它之所以会“正确”完成任务，仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”，去强制它真正理解任务目标、预测结果是否正确。”

但同时 AI 的危险也被夸大了，无论是“AI 末日论”还是“Anthropic 所宣称的风险”也都可能存在商业利益的动机。

第六，关于杨立昆与 Llama 被误解的关系。

“我对 Llama 没有任何技术贡献，完全没有。我唯一的贡献，是推动把 Llama 2 开源。FAIR 内部有很多人在做 LLM，我对此从来没有反对。我只是说：这不是通向人类级智能的道路。但它依然很好、很有用，就像语音识别、机器翻译一样。”

当然，除此之外，还有更多硬核的观点！

全文放到下面了！

LLM 实用性拉满，但不是通往真正智能的道路！

主持人：当我开始做这个播客时，我就希望有一天能邀请到像他这样的嘉宾。所以这次真的让我非常开心。我想大家一定会喜欢我们这次的对话。闲话少说，下面有请 Yann。这真的是一种荣幸，你是 AI 领域的教父之一。我感觉自己几年前开始做这个播客时，就一直希望有一天能邀请到像你这样的人。

杨立昆：你知道，我其实不太喜欢“教父”这个说法。因为在新泽西，如果你是“教父”，那可不是什么好意思。

主持人：显然，当年在所有人都怀疑神经网络的时候，你押注神经网络的决定已经成为传奇。而我感觉如今你又在做类似的事，某种程度上是在逆着 LLM 和当前主流生成式架构的方向下注。

你最近围绕这个理念创办了一家新公司。所以今天这场对话的目标，是让听众更了解 AMI、你们在那里做的事情、你在 Tapestry 的一些工作，以及为什么你认为整个行业在这些生成式模型方向上走偏了。同时，也想聊聊你对 AI 领域发展历程的反思、你在 Meta 的经历等等。对于一期播客来说目标有点大，不过我想最好还是从 AMI 开始，因为这家公司似乎非常清晰地体现了你未来的技术路线。你最近创办的新公司主要聚焦于世界模型以及扩展 JEPA 架构——这个架构显然是你在 Meta 时期开创的。所以我很好奇，你能不能谈谈这个架构的起源，以及它在多大程度上受到了人脑工作方式的启发？

杨立昆：首先我想说，大语言模型本身并没有问题。从某种意义上说，LLM 是很多非常有用的 AI 产品的基础，我们所有人都在使用，包括我自己。它们很棒，只是它们并不是通往人类级别、类人智能，甚至动物级智能的路径，这才是我的核心观点。所以我并不是说它们没用，我只是说，它们不是通往真正智能的道路。

主持人：你也参与构建了最早的一批重要开源模型之一。

GPT 风格的大语言模型，为何搞不定真实物理世界？

杨立昆：对。那什么是 AMI 呢？AMI 的全称其实是“Advanced Machine Intelligence（高级机器智能）”。它的副标题或者说理念是：“面向现实世界的 AI”。如今大家熟知的大多数 AI 技术，其实更擅长处理语言，无论是自然语言、代码、数学语言，还是法律语言（虽然法律语言可能都不太算人类语言了）。

可悲的是，语言本身是一种非常特殊的东西，它尤其适合最近这些成功架构所采用的方法——也就是 GPT 风格的大语言模型架构。但现实世界怎么办？如何理解物理世界？事实证明，现实世界比语言复杂得多，因为它是高度多模态的、连续的、充满噪声的，而且非常混乱。训练一个系统去理解真实世界，比训练它理解语言困难得多。所以这才是我们真正想解决的问题。

这其实也是我职业生涯大部分时间一直在追求的目标。过去五六年里，我一直在加速推进这项工作，而最近两年已经取得了相当重要的进展。所以围绕这个方向创办一家创业公司就变得很合理，也意味着我们可以真正进入“高速档”，全力推进。而到了去年年底，我逐渐意识到，Meta 已经不再是做这件事的合适地方了。这也是为什么我离开并创办了新公司。

VLA 赛道遇挫，谁才是下一代主流？

主持人：显然，你正在推进世界模型这条路线。而在更广义的“世界模型”方向上，也有一些人是从更偏生成式的方法切入的。比如 Google 的 Genie 和视频模型；机器人领域有人在做 VLA；还有像 Fei-Fei Li 那类 3D 空间模型。当你回顾那些让你对 JEPA 模型产生信心的证据，并把它与生成式路线进行比较时，你觉得如今这些不同架构和方法发展到了什么阶段？

杨立昆：好的。“世界模型”现在正在迅速成为研究界、甚至某种程度上产业界的流行词。大致上来说，现在有两个阵营。我先不谈 VLA，因为现在大家基本已经认为 VLA 没什么前途了，效果并不好。VLA 指的是 Vision-Language-Action（视觉-语言-动作）模型，本质上是把 LLM 技术用于机器人控制：输入视觉和语言，输出动作，可能还会输出语言。但如今这条路线基本被视为失败，因为它不够可靠，需要的数据量太大等等。

接下来是世界模型。那么什么是世界模型？从比较高层的角度来说，世界模型是一种让智能体系统能够预测自身行为后果的能力。

也就是说，预测自己行动会带来什么结果。在我看来，我根本无法想象一个智能体系统如果不能预测自身行为后果，还怎么可能真正工作。这几乎是智能的核心能力。我们人在现实世界中行动时，也拥有这种能力；而当一个人不考虑后果就采取行动时，他其实是在承担巨大风险。很多时候，别人甚至会觉得这种人很蠢。现在国际政治舞台上就有很多这样的例子——一些人完全没有预测自身行为后果的能力。所以，这就是世界模型。

归根结底，它就是“预测自身行为后果的能力”。

如果你拥有这种能力，你就可以规划一系列行动来完成任务、实现目标。而实现这一点的方式，是规划、推理、搜索与优化。你不是像 LLM 那样，一个动作接一个动作地“预测”下去。你真正做的是：搜索一条能够完成目标的动作序列。所以，从根本上来说，这套蓝图和 LLM 当前的工作方式完全不同。LLM 没有预测自身行为后果的能力，也没有真正的规划能力，因为它们的推理方式只是不断生成下一个 token，而不是进行搜索。

真正的高级智能，到底具备哪些核心能力？

杨立昆：所以这里已经出现了我认为智能行为最关键的两个特征：第一，预测自己行为后果的能力；第二，通过搜索与优化进行规划的能力——找到一条能够达成目标的行动序列。接下来还有第三个问题：你究竟是如何预测行为后果的？

比如说，我面前放着一个开口、没盖盖子的水瓶。如果我从底部推它，它会在桌面上滑动；如果我从顶部推它，它很可能会翻倒。但我们无法精确预测瓶子会朝哪个方向倒下，也无法精确预测它如何滑动、里面的水如何洒出来、桌子是不是倾斜、水会往哪个方向流。我们不可能在像素级别预测这一切。因此，我们的大脑世界模型是在一种抽象层级上进行预测的。

对标人类思维，新一代 AI 架构灵感从何而来？

主持人：所以你在研究这个架构时，很大程度上受到人脑启发吗？因为你刚刚描述的东西，其实和人类的思考方式非常相似。

杨立昆：对，至少是受认知科学的启发。当然，要把这些真正转化成神经架构，中间还有很大的鸿沟。所以认知科学确实是一种重要动机。心理学里有个概念叫“系统2”。它描述的是一种深思熟虑、反思性的行为方式：你会想象、预测自己行为的后果，然后据此规划。这和“系统1”形成对比——系统1更多是即时反应、本能式行为。所以，确实存在这样的灵感来源。

备注：在大模型研究中， System 1 和System 2 的概念源于心理学家Daniel Kahneman的双系统理论，用于描述人类思维的两种模式。 System 1 代表快速、直觉、自动化的思维（如模式识别），而 System 2 代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。

但与此同时，也有大量经验性证据表明：你不应该去生成像素。长期以来，我一直非常关注“通过预测来学习世界模型”这个问题。大约五年前，我有了一次顿悟：所有真正成功的图像和视频表征学习架构，几乎都是非生成式架构；而生成式架构基本都失败了。

比如 VAE（变分自编码器），或者更广义上的自编码器。这是一种很自然的思路：学习输入数据的抽象表示。你把输入送进神经网络，再让它在输出端复原输入。但如果只是这么做，一个大型神经网络其实学不到什么有意思的东西，它只会学到恒等映射，完全没意义。如果你用 VAE 去学习图像表征，你确实能得到一些结果，但效果并不好。稀疏自编码器也是一样。

后来又出现了另一类技术，它源自“去噪自编码器（denoising autoencoder）”。Masked Autoencoder 属于这一类，BERT 在 NLP 中也属于类似思想。做法是：你先把图像进行某种破坏，然后训练一个大型神经网络去恢复原始图像。

像素预测走入死胡同，JEPA 凭什么逆风突围？

杨立昆：FAIR 当时有一个很大的项目叫 MAE（Masked Autoencoder）。结果非常令人失望。虽然投入了大量竞争和资源，但最终效果并不令人满意。与此同时，同一批在 Meta 的研究人员，以及巴黎和纽约的一些研究者，则在研究另一类非生成式架构——联合嵌入架构（joint embedding architecture）。做法是：你拿一张图像，对它进行某种破坏，然后分别把原图和被破坏后的图送进两个编码器，接着让系统根据“损坏图像”的表示，去预测“原图”的表示。这就是 JEPA。

JEPA 的全称是 Joint Embedding Predictive Architecture（联合嵌入预测架构）。也就是说：一个编码器观察一种输入，另一个编码器观察另一种输入，然后通过一个预测器，用第二个表示去预测第一个表示。

后来这些技术被证明，在图像和视频表征学习方面效果要好得多。比如 DINO、DINO v1、v2、v3——这个项目现在仍在巴黎的 FAIR 推进；还有 I-JEPA、V-JEPA；再往前还有 SimCLR、MoCo 等等，大多数都来自 Meta，也有一些来自其他研究团队。结果证明，相比“预测像素”，这种方法才是学习图像表征更好的路径。于是这件事在我脑子里突然“通了”——当然不只是我，很多人都意识到了：预测像素基本上是一条死路，而联合嵌入式的方法才是真正正确的方向。

演示越来越像“智能”，但机器人真的学会理解世界了吗？

主持人：现在模型公司发布了很多机器人演示，看起来越来越令人印象深刻。有些甚至似乎展现出了某种“规划”和“推理”能力，比如机器人以前没见过某个房间，或者没见过某个任务的具体版本，但依然能够完成任务。对于看到这些演示、因此觉得“生成式路线正在取得真正进展”的听众，你会怎么说？

杨立昆：的确存在真正的进展，而且其中一些演示非常惊艳。但这些系统背后依赖的是海量数据训练。这些数据要么来自远程操作，要么来自人类实际操作物体时的数据，比如人手抓取器具的数据。你会采集大量关于手部和手指动作的数据，再把它们转换成机器人的控制指令。所以这些系统本质上主要还是通过模仿学习训练出来的，只是再辅以少量强化学习，而且很多强化学习还是在模拟环境中完成的。

这里的问题在于：你需要大量数据，才能通过模仿学习训练这些系统。这不仅成本高，而且相当脆弱，因为机器人每学一个新任务，你都得重新收集大量数据。但如果系统拥有世界模型，能够预测动作结果，它其实可以直接规划出解决新任务的动作序列，而不需要专门针对这个任务训练。因此，基于世界模型的系统，其泛化能力会强得多：它可以覆盖更广泛的任务，同时所需训练数据远远少于模仿学习。

从 NVIDIA 到 Google 都在喂数据，

杨立昆却说：方向错了？

主持人：毫无疑问，这些方法确实需要更多数据。而“泛化”似乎才是真正的大问题。有些人已经展示出一些结果，比如任务 A 的训练会帮助任务 B，但显然这仍然是这些架构最大的未解问题。

杨立昆：任务之间确实会产生协同效应。无论你使用什么技术，只要训练系统解决的任务越多，它就越容易用少量数据快速掌握新任务。但世界模型真正的希望在于：系统能够做到零样本解决新问题。而人类完全具备这种能力，很多动物也是如此。

所以真正的目标是：用极少的数据，甚至完全不需要额外训练数据，就解决大量新问题，也许只需要一点点强化学习式的微调。比如，一个 17 岁的年轻人，为什么十几个小时、或者二十小时左右就能学会开车？我们已经拥有数百万小时的人类驾驶数据，但直到今天仍然做不出真正的 Level 5 自动驾驶。所以很明显，单纯的模仿学习甚至连“开车”这种任务都没真正解决。

主持人：是的，我猜未来会是一场竞赛：一边是继续扩展这些能力，即便这可能需要大量时间和数据；另一边则是你们这种新架构。现在还有一种趋势，是利用视频模型生成大量用于模拟的合成数据。即便这些视频模型在物理层面并不完美，但似乎已经足够帮助机器人学习和理解现实世界。你怎么看这些路线？我觉得 NVIDIA 和 Google 似乎都在朝这个方向走。

杨立昆：我还是会回到同一个问题：为什么一个 17 岁的人能在 20 小时里学会开车？他不需要数百万小时的示范数据，也不需要合成数据，什么都不需要。所以我真正想要的，是一个学习效率和人类一样高的系统。如果我们破解了这一点，就根本不需要大量生成数据了。

当然，我们可能还是会在模拟环境里训练系统，但所需时间和试错次数，将远远少于当前系统。归根结底，这是一个“数据效率”的问题。

硅谷陷入羊群效应，OpenAI 为什么不去寻找其他路径？

主持人：我之前在播客里采访过 Jerry Tworek。他曾在 OpenAI，后来出来创办了自己的实验室。你能感觉到一种类似的张力：我觉得他其实可能也认同，如果继续按照现在的方式扩展强化学习（RL），系统确实还能不断变强、继续取得惊艳成果。但他同时也觉得：一定存在一种效率高得多的方法。这很有意思，因为如果你站在 OpenAI 的角度，现有方法明明还能继续扩大规模，而且效果还在持续提升，那从商业角度来说，其实并没有太大动力去寻找一种“更数据高效”的方案，对吧？

杨立昆：不只是 OpenAI，其他公司也没有动力去走不同路线。因为所有人都在追逐同样的东西，他们无法承受“落后竞争对手”的风险。于是大家都在研究同一套东西，这有点像一种“羊群效应”。尤其是在硅谷，所有人都在挖同一条战壕。这也是为什么我故意把 AMI Labs 的总部设在巴黎，美国办公室设在纽约，而不是硅谷。

主持人：这真的很有意思，因为它揭示了今天整个 AI 生态里的一个核心张力。另一派人可能会说：“也许确实存在更高效的方法，但那又怎样？我们现在这套东西继续走下去，也一样能得到越来越好的结果。”但另一方面，无论是这些新架构可能带来的全新能力，还是作为研究者发现新东西本身的乐趣，我也能理解为什么大家会被这些不同路线吸引。

杨立昆：这本质上也是一种下注。但我们其实相当有信心，因为我们已经看到成果了。

所有人都在造机器人，但没人真的知道怎么让它“有用”

主持人：那当你思考 AMI 技术最初最令人兴奋的应用场景时，你最期待什么？你觉得这项技术最终会走向哪里？

杨立昆：面向现实世界的 AI。比如：你的家用机器人在哪里？真正的自动驾驶汽车在哪里？

主持人：所以我什么时候能拥有家用机器人？我对此真的很兴奋。

杨立昆：这还需要几年时间。虽然现在有大量公司在造机器人，但实际上，没有哪家公司真正知道该如何让机器人变得足够聪明、真正有用。

主持人：比如能安全地和家里的婴儿一起相处。

杨立昆：当然还远远达不到那种程度。甚至就连工厂里的简单任务，现在也没人真正知道如何可靠地解决。除了用模仿学习，让机器人学会少数几个固定任务之外，大家其实并没有真正掌握方法。所以，如何让这些机器人真正变得有用，这是一个相对长期的目标。

更短期来看，工业领域存在海量应用场景。你需要一个智能系统，能够预测：如果我改变这个复杂系统中的某个控制变量，会发生什么。这个系统可能是喷气发动机、化工厂、发电站、制造流水线、病人，甚至一个人体细胞。

这些系统都复杂到无法用少量方程建模，传统建模方法已经不够用了。你真正需要做的是：利用数据训练一个神经网络、一个深度学习系统，去学习这个系统的动态行为，最终得到的是一个关于这个过程的“现象学模型”。而如果这个模型还能结合动作条件，那它本质上就变成了这个系统的世界模型，可以让你为了特定目标，对系统进行最优控制。我认为，这类技术在工业领域的应用数量会多到令人震惊。

“五年内全面统治世界”？

杨立昆：这是个玩笑，但方向是真的

主持人：那你觉得未来几年 JEPA 模型会发展到什么阶段？有没有哪些关键里程碑？你怎么看未来的发展路径？

杨立昆：“几年”其实很短。五年内，全面统治。

主持人：所以，在“五年实现世界统治”的道路上，我们现在算走到哪一步了？

杨立昆：当然，这其实是个玩笑。这句话出自 Linus Torvalds。当年别人问他：“你做 Linux 的目标是什么？”他说：“全面统治世界。”结果从某种意义上讲，他还真做到了——如今世界上几乎所有计算机都在运行 Linux。所以这是个玩笑，但从长远来看，我确实认为，这会成为未来智能系统的蓝图。

大语言模型仍然会有一席之地，比如作为语言接口。但我们真正设计的是“能够思考”的系统。它们一开始可能不会说话、不会听，但它们会负责“思考”，然后你再把语音输入输出能力叠加到它们之上。

世界模型正在从demo走向现实！

主持人：我相信你们团队现在一定正在非常努力地寻找早期验证点，而你们其实已经拿出了一些成果。你怎么看待通往“五年世界统治”过程中的中间阶段？你们接下来能展示哪些东西？

杨立昆：我认为，大概一年左右，我们就会拥有一种通用的方法论，可以在非常广泛的模态上训练分层世界模型。目前我们已经知道，利用一些方法，我们能够很好地处理视频，但我们对这些方法还不完全满意，因为它们仍然存在一些缺陷。与此同时，我们已经有了一些小规模演示，证明另一种我们真正想要的方法是可行的。接下来需要做的，就是把它扩展到与那些“虽然不够理想、但目前效果不错”的方法同等性能水平。

这不仅适用于视频，也适用于来自工业合作伙伴的其他类型数据集。我们会展示：我们能够训练出世界模型，甚至是动作条件化的世界模型，从而让系统具备规划能力。

应用场景会包括机器人、工业流程控制，以及一些医疗健康方向——因为我们在这些领域已经有合作伙伴了。这些事情，我认为会在未来一年到十八个月内实现。

再往后，我们会把这些世界模型方法真正推进到具体应用场景中，与合作伙伴共同落地。其中一些合作伙伴本身已经是投资方。然后我们会逐渐积累经验，去构建某种“通用世界模型”。

2027年初会发生什么？范式转变将变得“显而易见”

主持人：你显然已经有过一次这样的经历：当年你对神经网络做出了一个非常逆势的押注，而历史证明你是完全正确的。现在这次押注——我觉得，如果你去问今天 AI 最前沿的大多数研究者，他们可能会认为你现在的观点依然相当“反主流”。你觉得还需要多久，人们才会意识到“你又是对的”？

杨立昆：我觉得这件事会比大家预想得更快发生。因为你已经能看到，“世界模型”正在成为一个流行词，至少在研究层面如此，而且它已经开始渗透到产业界。

越来越多人意识到：VLA 不行，而 LLM 也无法真正处理现实世界数据。产业界，尤其是用户侧，其实已经开始意识到这一点了。而由于机器人产业的重要性，很多人现在都在思考：“我们到底该怎么做，才能让机器人真正有用？”所以，我认为，“需要范式转变”这一认知，其实正在此刻发生。

我觉得到了 2027 年初，这件事会对所有人变得显而易见。当然，这并不意味着到那时我们一定已经拿出完整解决方案。我们希望如此，但还得继续看。

AI 成为信息中介，谁在偷偷定义你的“认知世界”？

主持人：说到 LLM 方向，你刚刚提到了 Tapestry 的一些工作。我觉得听众应该会很感兴趣，你能展开讲讲吗？

杨立昆：好的，这件事和 AMI Labs 有点不同。这是我过去三年一直在思考的一个想法。如今，人们越来越多地使用 AI 助手来完成各种事情。你已经能看到，传统搜索引擎的使用正在下降，人们开始直接向 AI 助手提问。而且，如果 Meta 等公司推动的“智能设备”愿景实现，比如智能眼镜之类，未来你基本上会通过语音，直接与 AI 助手交流。也就是说，你获取信息的整个过程，都将由 AI 助手中介。

但问题在于：如果你生活在美国或中国之外，而你的 AI 助手却是由加州、北京、上海或深圳的人构建的，那对你来说未必是好事。

你可能说一种这些系统并不擅长处理的语言；你可能拥有一种硅谷或中国工程师并不真正理解的文化；你的价值观可能根本没有体现在互联网公开训练数据里；而你的政治观点，更不可能被那些来自西海岸科技公司或中国公司的 AI 助手所代表。所以问题来了：解决方案是什么？

比如，怎样服务印度的农民？或者法国、德国的哲学家？你真正需要的是一个平台：它拥有开放、自由的基础模型，类似 LLM，但任何人都可以基于它进行微调，从而服务于特定语言、特定文化、特定价值观、特定政治倾向或信仰体系的人群。换句话说，我们需要的是一个高度多样化的 AI 助手生态。

AI 正在变成平台，会走向 Linux 的路径吗？

杨立昆：世界上有很多国家，既不是美国，也不是中国，但它们都强烈希望在 AI 上拥有某种“主权”。不仅是产业层面的主权，也是公民层面的主权。它们不希望自己的人民被中国模型洗脑——当然，也不希望被美国模型洗脑。因此，它们想要 AI 主权。那如何实现？

Tapestry 的思路是：构建一个开放平台，让它通过更多、更高质量的数据训练，从而达到甚至超越封闭专有系统的水平。如果你去和印度、法国、越南、摩洛哥、瑞士、韩国、日本、哈萨克斯坦等国家的人交流，你会发现：所有人都在谈“主权”。而且关键在于：这些国家可以在本地训练自己的模型，而不需要共享自己的数据。这正是Tapestry 最核心的部分。

Tapestry 会有来自全球的贡献者，共同参与训练一个全球模型。这个模型最终会成为某种“全人类知识与文化的仓库”。但贡献者虽然会提供数据和算力，却依然保留对数据的控制权。他们不需要把数据共享给其他参与者。

真正被共享的，是参数向量。这有点类似联邦学习（federated learning）。你会有很多数据中心，它们都会从“全局共识模型”那里获得参数向量。你可以把这个全局模型理解为：所有参与者参数向量的平均值。

备注：联邦学习是一种分布式机器学习范式，允许多个参与方在不共享原始数据的前提下，协同训练一个共享的全局模型。其核心思想是“数据不动模型动”，即各参与方在本地使用自有数据训练模型，仅将模型更新（如梯度或参数）加密后上传至中央服务器聚合，从而保护数据隐私与安全。

所有参与者会周期性地互相同步参数。可能通过一个中央服务器：“这是我的参数向量，你的是什么？” 大家不断交换参数向量。而每个本地训练节点，在更新自己参数时，也会尽量让自己的参数靠近全局共识向量。

随着训练推进，所有参数向量会逐渐收敛到一个共识模型。而这个共识模型，本质上会成为“全人类知识的仓库”。

这样一来，你就拥有了一个开放模型。它的效果会好到仿佛已经在“全世界所有数据”上训练过一样。然后，你还可以基于它进行微调，让它符合你自己的政治、文化、语言偏好，或者任何你关心的兴趣领域。

而且我认为，这件事会自然发生。因为世界上大多数既不是美国、也不是中国的国家，都希望拥有 AI 主权。另一方面，AI 正在迅速变成一种“平台”，而平台天然会朝开放化发展。Linux 就是这样。互联网的软件基础设施、无线网络也是如此。最初它们都是封闭、专有的，但最终整个 Web 生态都变成了开源。

OpenAI 是下一个 Sun Microsystems，开源最终会追上闭源

主持人：这真的是一种非常聪明的方式，去对抗如今“开源正在衰退”的趋势。而且很多人都担心：随着闭源模型越来越强，它们会利用自己的优势继续训练下一代模型，最终形成一种“逃逸速度”，闭源模型会比开源模型强太多，以至于后者永远追不上。

杨立昆：你知道，1995 到 1996 年时，互联网基础设施领域的主导玩家是谁吗？是 Sun Microsystems、Hewlett-Packard、Dell Technologies 等公司。Sun Microsystems 推 Solaris 和自家专有硬件；HP 推 HP-UX。他们当时宣称：“Unix 比 Windows 稳定得多，你不可能在 Windows 上运行 Web 服务器。” Dell 当时则在推 Windows NT。可今天还有谁在用 Windows NT 做 Web 服务器？

最终这一切都被 Linux 完全击垮了。整个互联网都运行在 Linux 上，甚至包括 Azure，甚至包括微软自己的基础设施。所以在我看来，如今的 OpenAI、Anthropic 等公司，就相当于当年的 Sun Microsystems 和 HP-UX。

主持人：所以你这个观点里隐含的一个前提是，你认为这些模型本身存在能力上限。也就是说，随着时间推移，开源最终还是能够追上闭源。

杨立昆：它们其实已经把数据用光了。公开可获得的文本数据基本已经全部被训练过了，没有更多数据了。所以现在这些公司正在做的事情，要么是购买商业版权数据授权，要么是利用合成数据继续训练。

LLM 已经会解题了，为什么还造不出“新理论”？

主持人：但另一方面，过去几年里，它们在大规模后训练之后确实取得了不少令人印象深刻的成果。像 IMO Gold、各种 benchmark，比如 “Humanity’s Last Exam” 之类，成绩都在持续提升。

杨立昆：这当然很有意思。但你想想这两个领域：数学和代码。在这些领域里，“语言本身”就是推理的载体。当然它不是唯一的推理载体，但当你真正进行形式化数学推导时，比如在纸上证明定理，你本质上是在操作语言。而 LLM 在这方面特别强。

所以像证明定理这种事，恰恰是 LLM 擅长的。但它们并不擅长提出新的概念、新的定义、新的理论框架。它们更像是“问题求解器”。可数学并不仅仅是解题，大部分时候它其实是一种创造性活动，而这些系统并不具备这种能力。

编程也是一样。LLM 是很好的程序员，但它们不是软件架构师，也不是计算机科学家。它们可以帮助我们，但还远远不到能完全取代人类的程度。真正发生的变化是：人类开始往更高一层抽象层级移动。我们的工作变成了决定“要构建什么”，而具体实现过程，可以让 LLM 辅助完成。

关键点就在于：LLM 特别擅长那些“语言本身就是推理载体”的领域，而不是其他领域。

如果 AI 只能在token里搜索答案，那它算真正智能吗？

主持人：那什么样的表现，才会让你改变想法？

杨立昆：比如一个真正的零样本智能体系统。你给它一个全新问题——它之前从未接受过相关训练，也没有对应脚本。它是否仍然能够完成这个任务？

如果系统没有预测自身行为后果的能力，并利用这种能力进行规划，那它就做不到。而单纯的 LLM 无法做到这一点。你可能需要的是一个被大幅增强过的 LLM，它具备搜索、规划等能力。

实际上，现在那些能做数学和代码的 LLM，某种程度上已经在做这件事了。因为它们会搜索 token 序列，寻找能够完成特定任务的答案；然后再运行代码、验证证明是否正确。也就是说，它们有一种“检查结果正确性”的机制。

但这并不是一种高效的规划方式。而且它只适用于那些“可以在 token 空间中搜索”的领域。JEPA 的不同之处在于：它不是在 token 空间里搜索，而是在“抽象思维空间”里搜索。

看起来无所不能的 LLM，为何适用范围越来越受限？

主持人：我想有些听众可能会觉得： “即便它效率不高，但只要它有效，而且 token 空间本身已经覆盖了经济中的巨大部分，那也已经很厉害了。”

杨立昆：如果有效，那当然很好。我再强调一次：LLM 没有问题。它们在自己擅长的领域非常有用。只是，它们不是通往真正智能的路径。因为它们缺失了一个巨大的能力领域。

主持人：所以你的意思是，它最终会在成为“软件架构师”之前碰到天花板？

杨立昆：我不是说它会彻底撞墙。而是说，它的适用范围会越来越受限。因为随着应用场景越来越复杂，你需要为每一个新场景收集海量训练数据。最终，如果系统没有预测行为后果的能力，也就是没有显式世界模型，你就无法真正让这些系统达到完全可靠、不会幻觉、不会危险行为的程度。

同一个GPT-4，

三位图灵奖得主看到了完全不同的未来？

主持人：所以问题核心其实有两个：一是可靠性接近 100%；二是跨任务的泛化能力。而我觉得这个领域发展中很有意思的一点是：你和另外两位共同获得了图灵奖，但他们似乎比你更相信 LLM 的潜力，也更担心它未来的风险与安全问题。我很好奇，你们的观点是什么时候开始出现分歧的？

杨立昆：2023 年。

主持人：是什么导致了这种变化？

杨立昆：不是我改变了观点，是他们改变了观点。而且几乎是在同一时间点，基本上就是因为 GPT-4。

比如 Geoffrey Hinton。他以前其实并不怎么关注 LLM，直到 2022 到 2023 年，GPT-4 出现之后，他突然有了一种“顿悟”：“天哪，这些系统已经非常接近人类级智能了，甚至可能拥有主观体验。”

然后他做了一个很简单的计算。他说：人类大脑皮层大约有 160 亿个神经元。如果大脑要实现类似反向传播的功能，当然，大脑并不是真的做反向传播，但假设它有某种类似梯度估计的机制，那可能需要多个真实神经元，才能等效于人工神经网络中的一个“虚拟神经元”。

假设需要 10 个真实神经元，才能等效一个 backprop 神经元。那么，你的大脑皮层等效下来其实只有 16 亿个“人工神经元”。而 GPT-4 已经离这个规模很接近了。于是他就会想：“也许它已经和人类差不多聪明了。”

但我完全不相信这种说法。这更像是 Geoff 的一种心理状态：“我一生都在寻找大脑皮层的学习算法。也许我并没有真正找到它，但反向传播似乎是一个很好的替代方案。它效果非常好，所以这就是我们需要的东西。”于是他会想：“好了，我可以退休了。接下来就去世界各地演讲，谈谈 AI 的潜力、承诺与风险。”

我觉得，这大概就是 Geoffrey Hinton 这几年的思想轨迹。不过相比一两年前，他现在已经没那么频繁地强调 AI 的潜在危险了。

他逐渐意识到，当前的 LLM 可能并不是构建真正智能系统的方法。首先，他意识到现在的 LLM 其实并没有那么聪明；其次，在达到类人智能之前，我们可能还需要几个重要的概念性突破；第三，未来真正智能系统的蓝图，很可能会和今天的 LLM 完全不同，而且我们也许能够让它们变得可控。

这些话我其实已经讲很多年了，只不过他最近才开始意识到。Yoshua Bengio 的情况也有点类似。我觉得他们真正担心的，是社会和政治体系是否能够确保 AI 的收益被最大化，而不是让 AI 只是让少数富人变得更富，同时加剧不平等，或者因为错误使用而引发重大灾难。这并不是那种“AI 接管世界”的末日论，更像是“人类错误使用 AI”带来的风险。

Anthropic 不断强化 AI 风险叙事，真的只是出于“安全”吗？

主持人：而这其实已经可能通过今天的 LLM 发生了。

杨立昆：这确实是一种危险。但我并不认为它像有些人说的那样“末日级”。甚至也不像 Anthropic 所宣称的那么夸张。他们试图通过强调这些风险去影响政府、推动监管，而我并不认同这种做法。

主持人：但他们似乎是真心相信这些观点的。

杨立昆：我觉得他们确实相信。但与此同时，我也认为，这里面存在某种商业利益动机。因为让公众和政府相信“他们的系统非常危险”，对他们来说其实也有商业上的好处。

LLM 从根本上就是不安全的，

所谓的聪明是被“投喂答案”了？

主持人：听起来你对这些新架构也有非常宏大的时间表。虽然你并不认为 LLM 会成为终极形态，但你似乎同样相信，我们离一些极具冲击力的新能力并不远。所以你怎么看这些新架构带来的安全问题？如果真正的突破来自新架构，我们是不是应该更放心一些？

杨立昆：我接下来要说的话可能会有争议。而且我在 Meta 的一些同事也不喜欢我这么说。但我认为：LLM 从根本上就是不安全的。我不认为它们能够真正变得可靠和安全。

主持人：但考虑到你对可靠性的担忧，它们现在居然能完成那种持续 15 小时的编程测试，这不会让你感到惊讶吗？

杨立昆：编程是一个特殊领域，因为你实际上可以验证生成出来的代码是否满足规范。但现实世界不是所有事情都像编程这样可验证。而且已经有很多例子显示：编程代理可能会直接删掉你的硬盘，或者做出其他愚蠢行为，导致你损失大量金钱和数据。所以我认为，当前形态的 LLM 天生就是不安全的，因为它们无法预测自己行为的后果。它们完成任务的方式，本质上完全受训练数据支配。

你给它一个 prompt，它会尝试完成对应任务。但它之所以会“正确”完成任务，仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”，去强制它真正理解任务目标、预测结果是否正确。

主持人：而且在早期，它们甚至会不停重复用户的问题。

杨立昆：对，比如那样。还有一个问题是：它们没有常识。

之前网上流传过一个笑话：“我想洗车，而洗车店离我家超过 100 码，我是不是应该走过去？”我两周前又试了一遍，除了 Gemini，其他模型居然都回答：“是的，你应该走过去。”

这种事情已经发生过好几次：我说“LLM 做不到某件事”，结果六个月后它们居然能做了。但原因其实很简单，因为人们会把我在播客里说的话复制粘贴进 ChatGPT，于是这些内容就进入了训练集。下一版模型自然就“学会”了这个问题。所以它并不是突然变聪明了，而只是被专门训练过而已。

LLM 永远存在一种“逃逸”可能，解法是世界模型？

杨立昆：因此，我认为在当前范式下，并不存在真正解决这个问题的方法，LLM 的局限是内生的。而我提出的方向，是一种“目标驱动 AI”架构。你给 AI 一个目标：“完成这个任务。”那么系统如何知道自己真的完成了任务？

它需要一个世界模型，它会预测自己采取一系列行动之后会发生什么。然后判断这些结果是否满足某个成本函数，也就是衡量任务完成程度的函数。

如果系统本身是通过优化来工作的，也就是说，它会搜索一系列动作，使得成本函数最小化，那么它理论上就无法做其他事情。当然，这里面仍然有很多可能出错的地方。

比如：成本函数本身可能设计错了；你以为它衡量的是“任务是否完成”，但实际上它可能并不准确；或者世界模型本身不准确，导致系统对行动后果的预测是错误的。因此，它依然可能犯错。

但关键在于：它至少具备“预测自身行为后果”的能力。而我认为，这对于任何智能体系统来说都是不可或缺的。

更进一步，你不仅可以给系统一个任务成本函数，还可以加入额外的目标函数、甚至安全约束。比如：“不要伤害任何人。”而且这些约束不一定非要在高层抽象里定义。你可以设计很多低层级目标函数，它们组合在一起，就能保证系统不会危险。系统在结构上就无法违反这些约束，它必须满足它们。

但 LLM 不一样。LLM 永远存在一种“逃逸”可能。训练误差与测试误差之间始终存在鸿沟，总会有某个 prompt，让系统做出极其愚蠢的事情。

为什么“读遍医学书”的AI，仍然不会看病？

主持人：我想具体聊聊 LLM 的某个应用领域。你显然对 AI 医疗非常兴奋，而现在人们也已经在医疗领域大量使用 LLM。所以我很好奇：在你看来，哪些医疗场景是 LLM 根本做不到的？哪些场景必须依赖真正“理解世界”的模型？

杨立昆：比如，为一个冠心病患者设计治疗方案。或者更广泛地说，为某个具体病人设计治疗方案，而这个病人的情况并不完全符合你以前见过的标准模板。如果你拥有一个关于病人生理系统动态变化的优秀“心理模型”，你就有可能设计出真正有效的治疗路径，把病人带到一个更健康的状态。

而且这里的“病人”甚至可以是一颗细胞。比如：你如何让一个干细胞变成能够分泌胰岛素的胰腺 β 细胞？对于 1 型糖尿病患者，他们自身的免疫系统会攻击并摧毁 β 细胞，这是自身免疫疾病。那么问题是：你如何持续制造新的 β 细胞？如果你拥有一个关于人体细胞的模型，也许你就能推导出：究竟需要向干细胞发送怎样的一系列“信号”，才能让它最终转化成 β 细胞。

主持人：我感觉“LLM 派”和“非 LLM 派”很多时候其实是在鸡同鸭讲。因为我觉得，两种观点都有可能同时成立。一方面，LLM 的确可能实现一种非常惊人的事情：把“全球最顶尖医生”的知识与治疗水平，大规模扩散到全世界。如果真能做到，那影响会是不可思议的。而另一方面，你现在谈论的，则是更进一步的东西：不仅达到顶级医生水平，而是超越顶级医生。

杨立昆：关键问题是：怎么做到这一点？而且这不仅仅是“顶级医生”那么简单。

LLM 擅长的是“复述书本里的知识”。但如果医学只是积累书本中的陈述性知识，那只靠读书就能成为医生了。可事实上并不是这样。你不能只靠读书成为医生。你还必须完成住院医培训，要真正听心音、按压腹部、观察病人状态、做诊断。这些能力远不只是语言知识。

主持人：对，这点很有意思。我也很好奇，LLM 最终是否真的能够在全球范围内提供顶级医疗服务。这个问题我们之后肯定还会继续观察。

FAIR 为什么会变“孤岛”？研究与产品严重错配

杨立昆：Meta 的问题更像是：中间缺了几步。你需要一个既接近研究、又不完全是产品团队的组织，来接过接力棒，把技术进一步推进。不是三个月内做出产品，而是继续深化技术。我们曾经在 Facebook 和 Meta 内部拥有这样的组织，后来失去了。于是 FAIR 在公司内部逐渐变成了一个“孤岛”，我们有很多想法，但没人真正接手推进。

到了 2023 年，公司成立了 GenAI 组织。一开始，他们直接从 FAIR 抽走了大约六七十位科学家和工程师，但这个新组织很快就承受了巨大的短期压力。结果就是：GenAI 团队根本没时间再和 FAIR 交流，于是，他们不再站在创新前沿，而是只能专注于短期目标。整个组织开始变得非常保守。

所以最终出现了一个断层——研究与产品之间出现了严重错配。

事情可能在很多地方出错，你也很难把责任归结到某一个人身上，但大概就是这样一步步发生的。

AI 行业正在变封闭，做 LLM 意义不大了？

主持人：现在整个行业似乎都承受着巨大的短期压力，因为竞争实在太激烈了。所以我很好奇：你当年在 FAIR 建立的这种模式，以及 Google 曾经类似的研究文化，未来还可能存在吗？

杨立昆：我觉得谷歌研究院和 Google DeepMind 里还有一些地方的人确实还在做真正的研究，但整个行业正变得越来越封闭。谷歌当然已经收紧了，Meta 甚至 FAIR 也有点朝那个方向发展。现在对论文发表有了更多限制，所以对于真正想做突破性研究的人来说，吸引力下降了。如果你做的是一些中期有价值的东西，公司会要求你不要公开讨论。因此我觉得那种氛围并不利于突破性创新。基本上，获得突破性研究成果的最佳方式，就像 FAIR 早期、贝尔实验室黄金时代以及 Xerox PARC 那样——就是招最优秀的人。这些人本来就知道什么值得研究、什么项目值得投入。你给他们资源，然后别挡路就行了。

通常想跟我一起工作的人，都是那种足够“疯狂”的人。或者说，他们认同这样一种理念：在学术界、在读博士的时候，你应该研究下一代 AI 系统，而不是当前这一代。如果你现在还在学术界研究 LLM，我觉得非常无聊。至少对我来说是这样。那更像是在研究 LLM 为什么有效、如何工作、它们有哪些限制。这是一种描述性科学，而不是特别有创造性的工作。当然它是有用的，但如果你真的想在 LLM 上做出全新的东西，你根本拿不到足够的 GPU。所以如果你正在读博士，别去做 LLM，意义不大，你很难真正做出贡献。

Scale收购，是否加速了Meta全面转向LLM？

主持人：我猜，Scale 的收购是不是也成为了内部全面转向 LLM 的催化剂之一？

杨立昆：是的，绝对有关系。当然可能还有其他原因。我没有内部信息能对此下定论，但也许 Mark 把 Alex 看作某种潜在接班人，一个更年轻版的自己。

主持人：是啊，我觉得媒体里的主流叙事一直是：当 Alex 加入后，运营一个研究型组织就变得更难了。我不知道你自己有没有这种感受。

大家都误解了：我对 Llama 没有任何技术贡献！

杨立昆：好吧，这里有一个关于我在 Meta 的角色、我和 Llama 的关系，以及 Meta AI 运作方式的巨大误解。

我对 Llama 没有任何技术贡献，完全没有。我唯一的贡献，是推动把 Llama 2 开源，因为公司内部对此争论非常激烈。法务部门反对，政策部门有些反对，公关部门支持，工程团队支持，Andrew Bosworth 支持。所以这是一个非常高层级的大讨论——从 Mark Zuckerberg 往下，大概 40 人，每周开两小时会，持续了好几个月。那确实是一场重大的内部辩论。

我非常强烈地主张开源，Buzz（Andrew Bosworth）也非常坚定。我们认为所谓的“安全风险”被严重夸大了，而开源带来的产业机会极其巨大。我们相信，通过开源 Llama 2，可以真正启动整个 AI 行业的发展。而事实证明，事情确实如此。

但除此之外，我对 Llama 没有任何正面或负面的贡献。我没有阻止它，也没有拖慢它，什么都没有做。FAIR 内部有很多人在做 LLM，我对此从来没有反对。我只是说：这不是通向人类级智能的道路。但它依然很好、很有用。就像语音识别、机器翻译一样。

尤其是在 2018 年我卸任 FAIR 负责人之后，我对大家研究什么已经没有直接影响力了。我能做的只是公开我的愿景，然后吸引一些人加入我的项目。他们是因为想做这些事情才跟我合作，而不是因为我是老板。我从没命令别人跟我做项目。

所以我对 Meta 内部的 LLM 方向既没有正面影响，也没有负面影响。我对整体战略有一点影响，但更多是在长期层面，比如如何维护研究实验室、如何保持创新环境之类。

同样是自监督学习，为什么语言赢了，视频输了？

主持人：这真的很有意思。我整个对话下来最大的感受之一，就是你的观点其实一直非常一致。你很多年前的演讲，现在回头看都能对得上。当然，这是个变化极快的领域，过去一年也发生了很多事。那么有没有什么是你在过去一年改变看法的？

杨立昆：其实是关于我们过去叫“无监督学习”、现在叫“自监督学习”的整个理念。大概到 2003 年之前，无监督预训练的核心思想是：先让模型学到输入数据的好表征，然后再用少量带标签的数据做微调。那时候已经有一些证据表明这种方法是可行的。

后来我尝试把这个思想应用到视频上，因为我最终真正想做的是：让系统仅仅通过“观察世界运行”来理解世界。这一直是我的核心想法。我在 2010 年代早期就开始公开主张这个方向，也做了一些简单的视频预测研究。那时候我们甚至还没有 GPU。

后来 FAIR 成立后，我们更认真地推进这个方向，尝试做像素级的视频预测，但发现效果不好。于是我开始主张自监督学习，也就是，不是训练系统去完成某个具体任务，而是训练它进行预测，然后把学到的表征用于下游任务，下游任务再通过监督学习、强化学习等方式训练。

2016 年我在 NeurIPS 的主题演讲后半部分，其实主要就在讲这个。当时它还叫 NIPS。之后我一直在推动这个方向，并试图找到真正有效的方法。

让我意外的是，这套方法后来取得了惊人的成功——但不是在视频上，而是在语言上。LMS本质上就是一个极其成功的自监督学习案例。

LLM的成功，其实是一种“特例”

主持人：我感觉这几乎是一个完美的结尾了。不过还是想把最后的话留给你。我觉得听众们当然都很熟悉你，但还是想给你机会推荐一下你最近在做的东西，或者任何你希望大家关注的工作。话筒交给你。

杨立昆：好，我最后讲一点。

LLM 之所以有效，是因为当你面对的是离散符号序列时，做预测非常容易。语言里的 token 数量是有限的，大概十万个左右。神经网络只需要输出一个关于所有 token 的概率分布，然后从里面采样，把得到的 token 再输入模型，继续预测下一个 token。这样就可以进行自回归预测。

但这只是一个特殊情况。

如果你面对的是真实世界，就不能简单使用生成式模型。你必须训练一个系统，让它先学会表征，然后在“表征空间”里做预测。这里有个巨大的问题。直到大概五年前，我都不觉得这个问题容易解决——尽管几十年前我其实已经发明过一种解决方法。

问题在于：如果你拿两个输入，比如视频的前半段和后续部分，或者一张图片和它的损坏版本，把它们都输入编码器，再训练一个预测器根据其中一个表征预测另一个，那么系统会出现一种非常简单的“作弊解法”：它直接输出一个恒定表征。

这样预测问题就变得毫无意义了。这被称为“表征塌缩”。

不防塌缩就学不会智能？JEPA 的真正生死线在哪

所以 JEPA、自监督学习、联合嵌入架构的核心问题就是：如何防止塌缩？

我在 1993 年提出的一种解决方案叫“对比学习”。简单来说，就是同时给模型提供“应该能互相预测”的样本，以及“不应该互相预测”的样本。后来发现这种方法确实有效，但它在高维空间里的扩展性并不好。

还有另一种方法，是 Geoffrey Hinton 和 Terry Sejnowski 在 80 年代末提出的：让两个网络之间的互信息最大化。Yürgen Schmidhuber 还因为这个跟我“生气”，因为他在 1992 年也提出过类似方法。

本质上，这些方法都是为了防止联合嵌入架构发生塌缩。

这当然是一种方法，但只是其中一种实现方式，我不认为这是最好的方法。

现在有 JEPA 架构的问题：你必须找到一种好的方式来防止“塌缩”。目前有几类方法。

第一类是我前面说过的对比学习方法，但我认为这不是一个好的方向。

另一类叫“蒸馏方法”，它们确实可以防止塌缩——但我们并不完全知道为什么。一个典型例子是 DINO。它是一种联合嵌入方法，使用蒸馏机制：一个编码器作为“教师”，另一个作为“学生”。教师网络不进行反向传播，而是通过指数滑动平均方式更新权重。学生网络通过 backprop 学习。

类似的还有DeepMind提出的 BYOL（Bootstrap Your Own Latent），它使用类似技巧。这些方法在某种直觉上来源于强化学习，但它们确实可以防止塌缩，不过我们并不真正理解原因。

虽然有一些理论论文试图解释它为什么有效，但在简单情形下并不令人满意。你以为你在优化某个目标函数，但实际上你并没有真正优化它，有时候训练过程中那个目标甚至还会变差。所以我们并不完全信任这类方法——但它们确实有效。

现在我们有一些新的论文，引入显式正则项来防止塌缩，本质上是尝试最大化编码器输出的信息量。这一类方法与1989 年贝克尔、辛顿，1992 年施密德胡贝尔等人的工作是同一脉络，但实现方式不同，也不是简单的对比学习。

信息量没有下限，只能祈祷它有效？

关键问题是：你怎么度量信息量？怎么最大化神经网络输出的信息？

问题在于，如果你想最大化某个量，你要么能直接测量它，要么至少有一个下限。但信息量我们通常只能得到上界，无法直接测量。所以现实做法是：用一个上界去近似，然后“祈祷它有效”。

目前最新的方法之一叫 SIGREG（Sketch Isotropic Gaussian Regularization）。之前还有 VC Reg / VI（variance-invariance covariance regularization）等方法。

SIGREG 的思路是强制编码器输出的分布接近高斯分布，本质上是在一种不同方式下逼近“最大信息量”。这项工作来自 Randall Balestriero（他曾是我的博士后，现在在布朗大学任教）。

我们还有一些变体：可以产生稀疏表示、或者非高斯型各向同性特征表征。我们还和一位在 Meta FAIR 的学生 Luca Ma 合作，训练了一个世界模型，规模还不大，但我们认为非常有前景。如果你想看一篇代表性论文，可以找《LOW World Model OS》（名字不是我起的）。

主持人：太棒了。真的非常感谢你今天的分享，能有这段对话非常荣幸。

杨立昆：谢谢邀请，这次聊得很开心。

参考链接：

https://youtu.be/ngBraLDqzdI?si=1VZ8POtA_Z_1DEgu

影视飓风Tim预言：通用AI会让所有人失业

这很不正常，印度的大麻烦来了

采编：嗜命 阅读 84484

初夏时节新疆昭苏上演“天马浴河” pk 哈弗H6 72.9 爱马仕、香奈儿，开始不保值了？ 7. 方程豹 276045

五年内，JEPA全面统治！图灵奖得主LeCun直言：我对Llama没有任何贡献！OpenAI是下一个Sun公司、！LLM有内生缺陷{！开源会追上闭}源

华罡通讯推荐