五年内,JEPA全面统治!图灵奖得主LeCun直言:我对Llama没有任何贡献!OpenAI是下一个Sun公司、!LLM有内生缺陷{!开源会追上闭}源
(来源:图灵人工智能)
编辑 | 林芯
“五年内,JEPA 模型全面统治全球。”
“尤其是在硅谷,所有人都在挖同一条战壕,他们无法承受“落后竞争对手”的风险。”
“预测像素基本上是一条死路,而 JEPA 才是真正正确的方向。”
图灵奖得主、AI教父杨立昆,在最新深度播客里,再次抛出一连串颠覆行业的重磅判断:大语言模型有用,但绝不是通往真正智能的道路;像素预测本质是死路;LLM天生存在内生性安全缺陷;OpenAI们终将成为下一个Sun Microsystems;而 JEPA 架构,将会在五年内成为智能系统的绝对主流!
并直言硅谷已经陷入“羊群效应”,所有人都挤在同一条战壕内卷;VLA 路线基本宣告失败,世界模型才是机器人、自动驾驶以及工业AI的唯一出路。
到2027年初,整个行业都会明白,范式必须转变。
当下的 AI 行业,所有人都在追逐大模型、堆叠参数、迭代对话能力。硅谷扎堆内卷,资本疯狂押注,几乎整个行业都默认:沿着 LLM 的路线狂奔,就能抵达通用人工智能的终点。
杨立昆直言:“大语言模型本身并没有问题,但它们不是通往真正智能的道路。LLM 非常擅长语言处理,但是现实世界比语言复杂得多。”
越来越多人意识到:VLA 不行,而 LLM 也无法真正处理现实世界数据。需要范式转变这一认知,其实正在此刻发生。我觉得到了 2027 年初,这件事会对所有人变得显而易见。
在这次播客中,他以开玩笑的口吻说出了“五年内,JEPA 模型全面统治”的未来智能系统的蓝图,但大语言模型仍然会有一席之地,比如作为语言接口。
第二,关于开源模型和闭源模型,目前行业里的普遍观点是:开源模型落后闭源模型六个月。例如谷歌 DeepMind CEO Demis Hassabis、Andrej Karpathy 等。
当主持人询问杨立昆怎么看待“随着闭源模型越来越强,它们会利用自己的优势继续训练下一代模型,以至于开源永远追不上”的看法时,杨立昆的观点是:如今的 OpenAI、Anthropic 等公司,就相当于当年的 Sun Microsystems 和 HP-UX。这些模型本身存在能力上限,公开可获得的文本数据基本已经全部被训练过了,没有更多数据了。
备注:Sun Microsystems是一家美国IT及互联网技术公司,以服务器、工作站、操作系统和Java平台等创新技术闻名,已于2010年被甲骨文收购。
同时,AI 正在迅速变成一种“平台”,而平台天然会朝开放化发展。就像互联网的软件基础设施、无线网络也是如此,最初它们都是封闭、专有的,但最终整个 Web 生态都变成了开源。
第三,硅谷为什么疯狂押注 LLM?
在杨立昆看来,硅谷陷入了“羊群效应”,所有人都在追逐同样的东西,他们无法承受“落后竞争对手”的风险。因此,即便有人意识到“可能存在更高效的路线”,也很难真正离开主流轨道。
第四, 当 AI 成为我们信息获取的中介后, 我们应该如何解决 AI 的主权问题?
世界的大多数国家都希望拥有 AI 主权,而 Tapestry 就是杨立昆给的解决方案: 不需要共享数据,可以直接在本地训练,这个模型最终会成为某种“全人类知识与文化的仓库”。
第五,LLM 从根本上就是不安全的,它的局限是内生的。在他看来,LLM 在编程领域的发展,原因是编程的可验证性。但是 LLM 一方面能帮助你,一方面也可能做出删掉硬盘之类的举动。
“你给它一个 prompt,它会尝试完成对应任务。但它之所以会“正确”完成任务,仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”,去强制它真正理解任务目标、预测结果是否正确。”
但同时 AI 的危险也被夸大了,无论是“AI 末日论”还是“Anthropic 所宣称的风险”也都可能存在商业利益的动机。
第六,关于杨立昆与 Llama 被误解的关系。
“我对 Llama 没有任何技术贡献,完全没有。我唯一的贡献,是推动把 Llama 2 开源。FAIR 内部有很多人在做 LLM,我对此从来没有反对。我只是说:这不是通向人类级智能的道路。但它依然很好、很有用,就像语音识别、机器翻译一样。”
当然,除此之外,还有更多硬核的观点!
全文放到下面了!
LLM 实用性拉满,但不是通往真正智能的道路!
主持人:当我开始做这个播客时,我就希望有一天能邀请到像他这样的嘉宾。所以这次真的让我非常开心。我想大家一定会喜欢我们这次的对话。闲话少说,下面有请 Yann。这真的是一种荣幸,你是 AI 领域的教父之一。我感觉自己几年前开始做这个播客时,就一直希望有一天能邀请到像你这样的人。
杨立昆:你知道,我其实不太喜欢“教父”这个说法。因为在新泽西,如果你是“教父”,那可不是什么好意思。
主持人:显然,当年在所有人都怀疑神经网络的时候,你押注神经网络的决定已经成为传奇。而我感觉如今你又在做类似的事,某种程度上是在逆着 LLM 和当前主流生成式架构的方向下注。
你最近围绕这个理念创办了一家新公司。所以今天这场对话的目标,是让听众更了解 AMI、你们在那里做的事情、你在 Tapestry 的一些工作,以及为什么你认为整个行业在这些生成式模型方向上走偏了。同时,也想聊聊你对 AI 领域发展历程的反思、你在 Meta 的经历等等。对于一期播客来说目标有点大,不过我想最好还是从 AMI 开始,因为这家公司似乎非常清晰地体现了你未来的技术路线。你最近创办的新公司主要聚焦于世界模型以及扩展 JEPA 架构——这个架构显然是你在 Meta 时期开创的。所以我很好奇,你能不能谈谈这个架构的起源,以及它在多大程度上受到了人脑工作方式的启发?
杨立昆:首先我想说,大语言模型本身并没有问题。从某种意义上说,LLM 是很多非常有用的 AI 产品的基础,我们所有人都在使用,包括我自己。它们很棒,只是它们并不是通往人类级别、类人智能,甚至动物级智能的路径,这才是我的核心观点。所以我并不是说它们没用,我只是说,它们不是通往真正智能的道路。
主持人:你也参与构建了最早的一批重要开源模型之一。
GPT 风格的大语言模型,为何搞不定真实物理世界?
杨立昆:对。那什么是 AMI 呢?AMI 的全称其实是“Advanced Machine Intelligence(高级机器智能)”。它的副标题或者说理念是:“面向现实世界的 AI”。如今大家熟知的大多数 AI 技术,其实更擅长处理语言,无论是自然语言、代码、数学语言,还是法律语言(虽然法律语言可能都不太算人类语言了)。
可悲的是,语言本身是一种非常特殊的东西,它尤其适合最近这些成功架构所采用的方法——也就是 GPT 风格的大语言模型架构。 但现实世界怎么办?如何理解物理世界? 事实证明,现实世界比语言复杂得多,因为它是高度多模态的、连续的、充满噪声的,而且非常混乱。训练一个系统去理解真实世界,比训练它理解语言困难得多。所以这才是我们真正想解决的问题。
这其实也是我职业生涯大部分时间一直在追求的目标。过去五六年里,我一直在加速推进这项工作,而最近两年已经取得了相当重要的进展。所以围绕这个方向创办一家创业公司就变得很合理,也意味着我们可以真正进入“高速档”,全力推进。而到了去年年底,我逐渐意识到,Meta 已经不再是做这件事的合适地方了。这也是为什么我离开并创办了新公司。
VLA 赛道遇挫,谁才是下一代主流?
主持人:显然,你正在推进世界模型这条路线。而在更广义的“世界模型”方向上,也有一些人是从更偏生成式的方法切入的。比如 Google 的 Genie 和视频模型;机器人领域有人在做 VLA;还有像 Fei-Fei Li 那类 3D 空间模型。 当你回顾那些让你对 JEPA 模型产生信心的证据,并把它与生成式路线进行比较时,你觉得如今这些不同架构和方法发展到了什么阶段?
杨立昆:好的。“世界模型”现在正在迅速成为研究界、甚至某种程度上产业界的流行词。大致上来说,现在有两个阵营。我先不谈 VLA,因为现在大家基本已经认为 VLA 没什么前途了,效果并不好。VLA 指的是 Vision-Language-Action(视觉-语言-动作)模型,本质上是把 LLM 技术用于机器人控制:输入视觉和语言,输出动作,可能还会输出语言。但如今这条路线基本被视为失败,因为它不够可靠,需要的数据量太大等等。
接下来是世界模型。那么什么是世界模型?从比较高层的角度来说,世界模型是一种让智能体系统能够预测自身行为后果的能力。
也就是说,预测自己行动会带来什么结果。在我看来,我根本无法想象一个智能体系统如果不能预测自身行为后果,还怎么可能真正工作。这几乎是智能的核心能力。 我们人在现实世界中行动时,也拥有这种能力;而当一个人不考虑后果就采取行动时,他其实是在承担巨大风险。很多时候,别人甚至会觉得这种人很蠢。现在国际政治舞台上就有很多这样的例子——一些人完全没有预测自身行为后果的能力。所以,这就是世界模型。
归根结底,它就是“预测自身行为后果的能力”。
如果你拥有这种能力,你就可以规划一系列行动来完成任务、实现目标。而实现这一点的方式,是规划、推理、搜索与优化。你不是像 LLM 那样,一个动作接一个动作地“预测”下去。你真正做的是:搜索一条能够完成目标的动作序列。所以,从根本上来说,这套蓝图和 LLM 当前的工作方式完全不同。LLM 没有预测自身行为后果的能力,也没有真正的规划能力,因为它们的推理方式只是不断生成下一个 token,而不是进行搜索。
真正的高级智能,到底具备哪些核心能力?
杨立昆:所以这里已经出现了我认为智能行为最关键的两个特征: 第一,预测自己行为后果的能力; 第二,通过搜索与优化进行规划的能力——找到一条能够达成目标的行动序列。 接下来还有第三个问题:你究竟是如何预测行为后果的?
比如说,我面前放着一个开口、没盖盖子的水瓶。如果我从底部推它,它会在桌面上滑动;如果我从顶部推它,它很可能会翻倒。 但我们无法精确预测瓶子会朝哪个方向倒下,也无法精确预测它如何滑动、里面的水如何洒出来、桌子是不是倾斜、水会往哪个方向流。我们不可能在像素级别预测这一切。 因此,我们的大脑世界模型是在一种抽象层级上进行预测的。
对标人类思维,新一代 AI 架构灵感从何而来?
主持人: 所以你在研究这个架构时,很大程度上受到人脑启发吗?因为你刚刚描述的东西,其实和人类的思考方式非常相似。
杨立昆: 对,至少是受认知科学的启发。当然,要把这些真正转化成神经架构,中间还有很大的鸿沟。所以认知科学确实是一种重要动机。 心理学里有个概念叫“系统2”。它描述的是一种深思熟虑、反思性的行为方式:你会想象、预测自己行为的后果,然后据此规划。这和“系统1”形成对比——系统1更多是即时反应、本能式行为。所以,确实存在这样的灵感来源。
备注:在大模型研究中, System 1 和System 2 的概念源于心理学家Daniel Kahneman的双系统理论,用于描述人类思维的两种模式。 System 1 代表快速、直觉、自动化的思维(如模式识别),而 System 2 代表慢速、有意识、需要努力的逻辑推理(如复杂数学计算)。
但与此同时,也有大量经验性证据表明:你不应该去生成像素。长期以来,我一直非常关注“通过预测来学习世界模型”这个问题。大约五年前,我有了一次顿悟:所有真正成功的图像和视频表征学习架构,几乎都是非生成式架构;而生成式架构基本都失败了。
比如 VAE(变分自编码器),或者更广义上的自编码器。 这是一种很自然的思路:学习输入数据的抽象表示。你把输入送进神经网络,再让它在输出端复原输入。 但如果只是这么做,一个大型神经网络其实学不到什么有意思的东西,它只会学到恒等映射,完全没意义。 如果你用 VAE 去学习图像表征,你确实能得到一些结果,但效果并不好。稀疏自编码器也是一样。
后来又出现了另一类技术,它源自“去噪自编码器(denoising autoencoder)”。Masked Autoencoder 属于这一类,BERT 在 NLP 中也属于类似思想。 做法是:你先把图像进行某种破坏,然后训练一个大型神经网络去恢复原始图像。
像素预测走入死胡同,JEPA 凭什么逆风突围?
杨立昆:FAIR 当时有一个很大的项目叫 MAE(Masked Autoencoder)。结果非常令人失望。虽然投入了大量竞争和资源,但最终效果并不令人满意。 与此同时,同一批在 Meta 的研究人员,以及巴黎和纽约的一些研究者,则在研究另一类非生成式架构——联合嵌入架构(joint embedding architecture)。做法是:你拿一张图像,对它进行某种破坏,然后分别把原图和被破坏后的图送进两个编码器,接着让系统根据“损坏图像”的表示,去预测“原图”的表示。这就是 JEPA。
JEPA 的全称是 Joint Embedding Predictive Architecture(联合嵌入预测架构)。也就是说:一个编码器观察一种输入,另一个编码器观察另一种输入,然后通过一个预测器,用第二个表示去预测第一个表示。
后来这些技术被证明,在图像和视频表征学习方面效果要好得多。比如 DINO、DINO v1、v2、v3——这个项目现在仍在巴黎的 FAIR 推进;还有 I-JEPA、V-JEPA;再往前还有 SimCLR、MoCo 等等,大多数都来自 Meta,也有一些来自其他研究团队。结果证明,相比“预测像素”,这种方法才是学习图像表征更好的路径。 于是这件事在我脑子里突然“通了”——当然不只是我,很多人都意识到了:预测像素基本上是一条死路,而联合嵌入式的方法才是真正正确的方向。
演示越来越像“智能”,但机器人真的学会理解世界了吗?
主持人:现在模型公司发布了很多机器人演示,看起来越来越令人印象深刻。有些甚至似乎展现出了某种“规划”和“推理”能力,比如机器人以前没见过某个房间,或者没见过某个任务的具体版本,但依然能够完成任务。对于看到这些演示、因此觉得“生成式路线正在取得真正进展”的听众,你会怎么说?
杨立昆:的确存在真正的进展,而且其中一些演示非常惊艳。 但这些系统背后依赖的是海量数据训练。这些数据要么来自远程操作,要么来自人类实际操作物体时的数据,比如人手抓取器具的数据。你会采集大量关于手部和手指动作的数据,再把它们转换成机器人的控制指令。 所以这些系统本质上主要还是通过模仿学习训练出来的,只是再辅以少量强化学习,而且很多强化学习还是在模拟环境中完成的。
这里的问题在于:你需要大量数据,才能通过模仿学习训练这些系统。这不仅成本高,而且相当脆弱,因为机器人每学一个新任务,你都得重新收集大量数据。但如果系统拥有世界模型,能够预测动作结果,它其实可以直接规划出解决新任务的动作序列,而不需要专门针对这个任务训练。 因此,基于世界模型的系统,其泛化能力会强得多:它可以覆盖更广泛的任务,同时所需训练数据远远少于模仿学习。
从 NVIDIA 到 Google 都在喂数据,
杨立昆却说:方向错了?
主持人:毫无疑问,这些方法确实需要更多数据。而“泛化”似乎才是真正的大问题。有些人已经展示出一些结果,比如任务 A 的训练会帮助任务 B,但显然这仍然是这些架构最大的未解问题。
杨立昆:任务之间确实会产生协同效应。无论你使用什么技术,只要训练系统解决的任务越多,它就越容易用少量数据快速掌握新任务。但世界模型真正的希望在于:系统能够做到零样本解决新问题。而人类完全具备这种能力,很多动物也是如此。
所以真正的目标是:用极少的数据,甚至完全不需要额外训练数据,就解决大量新问题,也许只需要一点点强化学习式的微调。比如,一个 17 岁的年轻人,为什么十几个小时、或者二十小时左右就能学会开车?我们已经拥有数百万小时的人类驾驶数据,但直到今天仍然做不出真正的 Level 5 自动驾驶。所以很明显,单纯的模仿学习甚至连“开车”这种任务都没真正解决。
主持人:是的,我猜未来会是一场竞赛:一边是继续扩展这些能力,即便这可能需要大量时间和数据;另一边则是你们这种新架构。现在还有一种趋势,是利用视频模型生成大量用于模拟的合成数据。即便这些视频模型在物理层面并不完美,但似乎已经足够帮助机器人学习和理解现实世界。你怎么看这些路线?我觉得 NVIDIA 和 Google 似乎都在朝这个方向走。
杨立昆:我还是会回到同一个问题:为什么一个 17 岁的人能在 20 小时里学会开车?他不需要数百万小时的示范数据,也不需要合成数据,什么都不需要。所以我真正想要的,是一个学习效率和人类一样高的系统。如果我们破解了这一点,就根本不需要大量生成数据了。
当然,我们可能还是会在模拟环境里训练系统,但所需时间和试错次数,将远远少于当前系统。归根结底,这是一个“数据效率”的问题。
硅谷陷入羊群效应,OpenAI 为什么不去寻找其他路径?
主持人:我之前在播客里采访过 Jerry Tworek。他曾在 OpenAI,后来出来创办了自己的实验室。 你能感觉到一种类似的张力:我觉得他其实可能也认同,如果继续按照现在的方式扩展强化学习(RL),系统确实还能不断变强、继续取得惊艳成果。但他同时也觉得:一定存在一种效率高得多的方法。 这很有意思,因为如果你站在 OpenAI 的角度,现有方法明明还能继续扩大规模,而且效果还在持续提升,那从商业角度来说,其实并没有太大动力去寻找一种“更数据高效”的方案,对吧?
杨立昆:不只是 OpenAI,其他公司也没有动力去走不同路线。因为所有人都在追逐同样的东西,他们无法承受“落后竞争对手”的风险。于是大家都在研究同一套东西,这有点像一种“羊群效应”。尤其是在硅谷,所有人都在挖同一条战壕。这也是为什么我故意把 AMI Labs 的总部设在巴黎,美国办公室设在纽约,而不是硅谷。
主持人:这真的很有意思,因为它揭示了今天整个 AI 生态里的一个核心张力。另一派人可能会说:“也许确实存在更高效的方法,但那又怎样?我们现在这套东西继续走下去,也一样能得到越来越好的结果。”但另一方面,无论是这些新架构可能带来的全新能力,还是作为研究者发现新东西本身的乐趣,我也能理解为什么大家会被这些不同路线吸引。
杨立昆:这本质上也是一种下注。但我们其实相当有信心,因为我们已经看到成果了。
所有人都在造机器人,但没人真的知道怎么让它“有用”
主持人:那当你思考 AMI 技术最初最令人兴奋的应用场景时,你最期待什么?你觉得这项技术最终会走向哪里?
杨立昆:面向现实世界的 AI。比如:你的家用机器人在哪里?真正的自动驾驶汽车在哪里?
主持人:所以我什么时候能拥有家用机器人?我对此真的很兴奋。
杨立昆:这还需要几年时间。虽然现在有大量公司在造机器人,但实际上,没有哪家公司真正知道该如何让机器人变得足够聪明、真正有用。
主持人:比如能安全地和家里的婴儿一起相处。
杨立昆:当然还远远达不到那种程度。甚至就连工厂里的简单任务,现在也没人真正知道如何可靠地解决。除了用模仿学习,让机器人学会少数几个固定任务之外,大家其实并没有真正掌握方法。所以,如何让这些机器人真正变得有用,这是一个相对长期的目标。
更短期来看,工业领域存在海量应用场景。你需要一个智能系统,能够预测:如果我改变这个复杂系统中的某个控制变量,会发生什么。这个系统可能是喷气发动机、化工厂、发电站、制造流水线、病人,甚至一个人体细胞。
这些系统都复杂到无法用少量方程建模,传统建模方法已经不够用了。你真正需要做的是:利用数据训练一个神经网络、一个深度学习系统,去学习这个系统的动态行为,最终得到的是一个关于这个过程的“现象学模型”。而如果这个模型还能结合动作条件,那它本质上就变成了这个系统的世界模型,可以让你为了特定目标,对系统进行最优控制。我认为,这类技术在工业领域的应用数量会多到令人震惊。
“五年内全面统治世界”?
杨立昆:这是个玩笑,但方向是真的
主持人:那你觉得未来几年 JEPA 模型会发展到什么阶段?有没有哪些关键里程碑?你怎么看未来的发展路径?
杨立昆:“几年”其实很短。五年内,全面统治。
主持人:所以,在“五年实现世界统治”的道路上,我们现在算走到哪一步了?
杨立昆:当然,这其实是个玩笑。这句话出自 Linus Torvalds。当年别人问他:“你做 Linux 的目标是什么?”他说:“全面统治世界。”结果从某种意义上讲,他还真做到了——如今世界上几乎所有计算机都在运行 Linux。所以这是个玩笑,但从长远来看,我确实认为,这会成为未来智能系统的蓝图。
大语言模型仍然会有一席之地,比如作为语言接口。但我们真正设计的是“能够思考”的系统。它们一开始可能不会说话、不会听,但它们会负责“思考”,然后你再把语音输入输出能力叠加到它们之上。
世界模型正在从demo走向现实!
主持人:我相信你们团队现在一定正在非常努力地寻找早期验证点,而你们其实已经拿出了一些成果。 你怎么看待通往“五年世界统治”过程中的中间阶段?你们接下来能展示哪些东西?
杨立昆:我认为,大概一年左右,我们就会拥有一种通用的方法论,可以在非常广泛的模态上训练分层世界模型。目前我们已经知道,利用一些方法,我们能够很好地处理视频,但我们对这些方法还不完全满意,因为它们仍然存在一些缺陷。与此同时,我们已经有了一些小规模演示,证明另一种我们真正想要的方法是可行的。接下来需要做的,就是把它扩展到与那些“虽然不够理想、但目前效果不错”的方法同等性能水平。
这不仅适用于视频,也适用于来自工业合作伙伴的其他类型数据集。我们会展示:我们能够训练出世界模型,甚至是动作条件化的世界模型,从而让系统具备规划能力。
应用场景会包括机器人、工业流程控制,以及一些医疗健康方向——因为我们在这些领域已经有合作伙伴了。 这些事情,我认为会在未来一年到十八个月内实现。
再往后,我们会把这些世界模型方法真正推进到具体应用场景中,与合作伙伴共同落地。其中一些合作伙伴本身已经是投资方。然后我们会逐渐积累经验,去构建某种“通用世界模型”。
2027年初会发生什么?范式转变将变得“显而易见”
主持人:你显然已经有过一次这样的经历:当年你对神经网络做出了一个非常逆势的押注,而历史证明你是完全正确的。现在这次押注——我觉得,如果你去问今天 AI 最前沿的大多数研究者,他们可能会认为你现在的观点依然相当“反主流”。你觉得还需要多久,人们才会意识到“你又是对的”?
杨立昆:我觉得这件事会比大家预想得更快发生。因为你已经能看到,“世界模型”正在成为一个流行词,至少在研究层面如此,而且它已经开始渗透到产业界。
越来越多人意识到:VLA 不行,而 LLM 也无法真正处理现实世界数据。产业界,尤其是用户侧,其实已经开始意识到这一点了。而由于机器人产业的重要性,很多人现在都在思考:“我们到底该怎么做,才能让机器人真正有用?”所以,我认为,“需要范式转变”这一认知,其实正在此刻发生。
我觉得到了 2027 年初,这件事会对所有人变得显而易见。当然,这并不意味着到那时我们一定已经拿出完整解决方案。我们希望如此,但还得继续看。
AI 成为信息中介,谁在偷偷定义你的“认知世界”?
主持人:说到 LLM 方向,你刚刚提到了 Tapestry 的一些工作。我觉得听众应该会很感兴趣,你能展开讲讲吗?
杨立昆:好的,这件事和 AMI Labs 有点不同。这是我过去三年一直在思考的一个想法。如今,人们越来越多地使用 AI 助手来完成各种事情。你已经能看到,传统搜索引擎的使用正在下降,人们开始直接向 AI 助手提问。而且,如果 Meta 等公司推动的“智能设备”愿景实现,比如智能眼镜之类,未来你基本上会通过语音,直接与 AI 助手交流。也就是说,你获取信息的整个过程,都将由 AI 助手中介。
但问题在于:如果你生活在美国或中国之外,而你的 AI 助手却是由加州、北京、上海或深圳的人构建的,那对你来说未必是好事。
你可能说一种这些系统并不擅长处理的语言;你可能拥有一种硅谷或中国工程师并不真正理解的文化;你的价值观可能根本没有体现在互联网公开训练数据里;而你的政治观点,更不可能被那些来自西海岸科技公司或中国公司的 AI 助手所代表。所以问题来了:解决方案是什么?
比如,怎样服务印度的农民?或者法国、德国的哲学家?你真正需要的是一个平台:它拥有开放、自由的基础模型,类似 LLM,但任何人都可以基于它进行微调,从而服务于特定语言、特定文化、特定价值观、特定政治倾向或信仰体系的人群。换句话说,我们需要的是一个高度多样化的 AI 助手生态。
AI 正在变成平台,会走向 Linux 的路径吗?
杨立昆:世界上有很多国家,既不是美国,也不是中国,但它们都强烈希望在 AI 上拥有某种“主权”。 不仅是产业层面的主权,也是公民层面的主权。它们不希望自己的人民被中国模型洗脑——当然,也不希望被美国模型洗脑。因此,它们想要 AI 主权。那如何实现?
Tapestry 的思路是:构建一个开放平台,让它通过更多、更高质量的数据训练,从而达到甚至超越封闭专有系统的水平。如果你去和印度、法国、越南、摩洛哥、瑞士、韩国、日本、哈萨克斯坦等国家的人交流,你会发现:所有人都在谈“主权”。而且关键在于:这些国家可以在本地训练自己的模型,而不需要共享自己的数据。这正是Tapestry 最核心的部分。
Tapestry 会有来自全球的贡献者,共同参与训练一个全球模型。这个模型最终会成为某种“全人类知识与文化的仓库”。但贡献者虽然会提供数据和算力,却依然保留对数据的控制权。他们不需要把数据共享给其他参与者。
真正被共享的,是参数向量。这有点类似联邦学习(federated learning)。你会有很多数据中心,它们都会从“全局共识模型”那里获得参数向量。你可以把这个全局模型理解为:所有参与者参数向量的平均值。
备注:联邦学习是一种分布式机器学习范式,允许多个参与方在不共享原始数据的前提下,协同训练一个共享的全局模型。其核心思想是“数据不动模型动”,即各参与方在本地使用自有数据训练模型,仅将模型更新(如梯度或参数)加密后上传至中央服务器聚合,从而保护数据隐私与安全 。
所有参与者会周期性地互相同步参数。可能通过一个中央服务器:“这是我的参数向量,你的是什么?” 大家不断交换参数向量。而每个本地训练节点,在更新自己参数时,也会尽量让自己的参数靠近全局共识向量。
随着训练推进,所有参数向量会逐渐收敛到一个共识模型。而这个共识模型,本质上会成为“全人类知识的仓库”。
这样一来,你就拥有了一个开放模型。它的效果会好到仿佛已经在“全世界所有数据”上训练过一样。然后,你还可以基于它进行微调,让它符合你自己的政治、文化、语言偏好,或者任何你关心的兴趣领域。
而且我认为,这件事会自然发生。因为世界上大多数既不是美国、也不是中国的国家,都希望拥有 AI 主权。 另一方面,AI 正在迅速变成一种“平台”,而平台天然会朝开放化发展。Linux 就是这样。互联网的软件基础设施、无线网络也是如此。最初它们都是封闭、专有的,但最终整个 Web 生态都变成了开源。
OpenAI 是下一个 Sun Microsystems,开源最终会追上闭源
主持人:这真的是一种非常聪明的方式,去对抗如今“开源正在衰退”的趋势。而且很多人都担心:随着闭源模型越来越强,它们会利用自己的优势继续训练下一代模型,最终形成一种“逃逸速度”,闭源模型会比开源模型强太多,以至于后者永远追不上。
杨立昆:你知道,1995 到 1996 年时,互联网基础设施领域的主导玩家是谁吗?是 Sun Microsystems、Hewlett-Packard、Dell Technologies 等公司。Sun Microsystems 推 Solaris 和自家专有硬件;HP 推 HP-UX。他们当时宣称:“Unix 比 Windows 稳定得多,你不可能在 Windows 上运行 Web 服务器。” Dell 当时则在推 Windows NT。可今天还有谁在用 Windows NT 做 Web 服务器?
最终这一切都被 Linux 完全击垮了。整个互联网都运行在 Linux 上,甚至包括 Azure,甚至包括微软自己的基础设施。所以在我看来,如今的 OpenAI、Anthropic 等公司,就相当于当年的 Sun Microsystems 和 HP-UX。
主持人:所以你这个观点里隐含的一个前提是,你认为这些模型本身存在能力上限。也就是说,随着时间推移,开源最终还是能够追上闭源。
杨立昆: 它们其实已经把数据用光了。公开可获得的文本数据基本已经全部被训练过了,没有更多数据了。 所以现在这些公司正在做的事情,要么是购买商业版权数据授权,要么是利用合成数据继续训练。
LLM 已经会解题了,为什么还造不出“新理论”?
主持人:但另一方面,过去几年里,它们在大规模后训练之后确实取得了不少令人印象深刻的成果。像 IMO Gold、各种 benchmark,比如 “Humanity’s Last Exam” 之类,成绩都在持续提升。
杨立昆:这当然很有意思。但你想想这两个领域:数学和代码。 在这些领域里,“语言本身”就是推理的载体。当然它不是唯一的推理载体,但当你真正进行形式化数学推导时,比如在纸上证明定理,你本质上是在操作语言。而 LLM 在这方面特别强。
所以像证明定理这种事,恰恰是 LLM 擅长的。但它们并不擅长提出新的概念、新的定义、新的理论框架。 它们更像是“问题求解器”。可数学并不仅仅是解题,大部分时候它其实是一种创造性活动,而这些系统并不具备这种能力。
编程也是一样。LLM 是很好的程序员,但它们不是软件架构师,也不是计算机科学家。它们可以帮助我们,但还远远不到能完全取代人类的程度。真正发生的变化是:人类开始往更高一层抽象层级移动。 我们的工作变成了决定“要构建什么”,而具体实现过程,可以让 LLM 辅助完成。
关键点就在于:LLM 特别擅长那些“语言本身就是推理载体”的领域,而不是其他领域。
如果 AI 只能在token里搜索答案,那它算真正智能吗?
主持人:那什么样的表现,才会让你改变想法?
杨立昆:比如一个真正的零样本智能体系统。你给它一个全新问题——它之前从未接受过相关训练,也没有对应脚本。它是否仍然能够完成这个任务?
如果系统没有预测自身行为后果的能力,并利用这种能力进行规划,那它就做不到。而单纯的 LLM 无法做到这一点。你可能需要的是一个被大幅增强过的 LLM,它具备搜索、规划等能力。
实际上,现在那些能做数学和代码的 LLM,某种程度上已经在做这件事了。因为它们会搜索 token 序列,寻找能够完成特定任务的答案;然后再运行代码、验证证明是否正确。也就是说,它们有一种“检查结果正确性”的机制。
但这并不是一种高效的规划方式。而且它只适用于那些“可以在 token 空间中搜索”的领域。JEPA 的不同之处在于:它不是在 token 空间里搜索,而是在“抽象思维空间”里搜索。
看起来无所不能的 LLM,为何适用范围越来越受限?
主持人:我想有些听众可能会觉得: “即便它效率不高,但只要它有效,而且 token 空间本身已经覆盖了经济中的巨大部分,那也已经很厉害了。”
杨立昆:如果有效,那当然很好。我再强调一次:LLM 没有问题。它们在自己擅长的领域非常有用。只是,它们不是通往真正智能的路径。因为它们缺失了一个巨大的能力领域。
主持人:所以你的意思是,它最终会在成为“软件架构师”之前碰到天花板?
杨立昆:我不是说它会彻底撞墙。而是说,它的适用范围会越来越受限。因为随着应用场景越来越复杂,你需要为每一个新场景收集海量训练数据。最终,如果系统没有预测行为后果的能力,也就是没有显式世界模型,你就无法真正让这些系统达到完全可靠、不会幻觉、不会危险行为的程度。
同一个GPT-4,
三位图灵奖得主看到了完全不同的未来?
主持人:所以问题核心其实有两个:一是可靠性接近 100%;二是跨任务的泛化能力。 而我觉得这个领域发展中很有意思的一点是:你和另外两位共同获得了图灵奖,但他们似乎比你更相信 LLM 的潜力,也更担心它未来的风险与安全问题。我很好奇,你们的观点是什么时候开始出现分歧的?
杨立昆:2023 年。
主持人:是什么导致了这种变化?
杨立昆:不是我改变了观点,是他们改变了观点。而且几乎是在同一时间点,基本上就是因为 GPT-4。
比如 Geoffrey Hinton。他以前其实并不怎么关注 LLM,直到 2022 到 2023 年,GPT-4 出现之后,他突然有了一种“顿悟”:“天哪,这些系统已经非常接近人类级智能了,甚至可能拥有主观体验。”
然后他做了一个很简单的计算。他说:人类大脑皮层大约有 160 亿个神经元。如果大脑要实现类似反向传播的功能,当然,大脑并不是真的做反向传播,但假设它有某种类似梯度估计的机制,那可能需要多个真实神经元,才能等效于人工神经网络中的一个“虚拟神经元”。
假设需要 10 个真实神经元,才能等效一个 backprop 神经元。那么,你的大脑皮层等效下来其实只有 16 亿个“人工神经元”。而 GPT-4 已经离这个规模很接近了。于是他就会想:“也许它已经和人类差不多聪明了。”
但我完全不相信这种说法。这更像是 Geoff 的一种心理状态:“我一生都在寻找大脑皮层的学习算法。也许我并没有真正找到它,但反向传播似乎是一个很好的替代方案。它效果非常好,所以这就是我们需要的东西。”于是他会想:“好了,我可以退休了。接下来就去世界各地演讲,谈谈 AI 的潜力、承诺与风险。”
我觉得,这大概就是 Geoffrey Hinton 这几年的思想轨迹。不过相比一两年前,他现在已经没那么频繁地强调 AI 的潜在危险了。
他逐渐意识到,当前的 LLM 可能并不是构建真正智能系统的方法。首先,他意识到现在的 LLM 其实并没有那么聪明;其次,在达到类人智能之前,我们可能还需要几个重要的概念性突破;第三,未来真正智能系统的蓝图,很可能会和今天的 LLM 完全不同,而且我们也许能够让它们变得可控。
这些话我其实已经讲很多年了,只不过他最近才开始意识到。Yoshua Bengio 的情况也有点类似。 我觉得他们真正担心的,是社会和政治体系是否能够确保 AI 的收益被最大化,而不是让 AI 只是让少数富人变得更富,同时加剧不平等,或者因为错误使用而引发重大灾难。这并不是那种“AI 接管世界”的末日论,更像是“人类错误使用 AI”带来的风险。
Anthropic 不断强化 AI 风险叙事,真的只是出于“安全”吗?
主持人:而这其实已经可能通过今天的 LLM 发生了。
杨立昆:这确实是一种危险。但我并不认为它像有些人说的那样“末日级”。甚至也不像 Anthropic 所宣称的那么夸张。他们试图通过强调这些风险去影响政府、推动监管,而我并不认同这种做法。
主持人:但他们似乎是真心相信这些观点的。
杨立昆:我觉得他们确实相信。 但与此同时,我也认为,这里面存在某种商业利益动机。因为让公众和政府相信“他们的系统非常危险”,对他们来说其实也有商业上的好处。
LLM 从根本上就是不安全的,
所谓的聪明是被“投喂答案”了?
主持人:听起来你对这些新架构也有非常宏大的时间表。 虽然你并不认为 LLM 会成为终极形态,但你似乎同样相信,我们离一些极具冲击力的新能力并不远。 所以你怎么看这些新架构带来的安全问题?如果真正的突破来自新架构,我们是不是应该更放心一些?
杨立昆:我接下来要说的话可能会有争议。 而且我在 Meta 的一些同事也不喜欢我这么说。 但我认为:LLM 从根本上就是不安全的。我不认为它们能够真正变得可靠和安全。
主持人:但考虑到你对可靠性的担忧,它们现在居然能完成那种持续 15 小时的编程测试,这不会让你感到惊讶吗?
杨立昆:编程是一个特殊领域,因为你实际上可以验证生成出来的代码是否满足规范。但现实世界不是所有事情都像编程这样可验证。而且已经有很多例子显示:编程代理可能会直接删掉你的硬盘,或者做出其他愚蠢行为,导致你损失大量金钱和数据。所以我认为,当前形态的 LLM 天生就是不安全的,因为它们无法预测自己行为的后果。它们完成任务的方式,本质上完全受训练数据支配。
你给它一个 prompt,它会尝试完成对应任务。但它之所以会“正确”完成任务,仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”,去强制它真正理解任务目标、预测结果是否正确。
主持人:而且在早期,它们甚至会不停重复用户的问题。
杨立昆:对,比如那样。还有一个问题是:它们没有常识。
之前网上流传过一个笑话:“我想洗车,而洗车店离我家超过 100 码,我是不是应该走过去?”我两周前又试了一遍,除了 Gemini,其他模型居然都回答:“是的,你应该走过去。”
这种事情已经发生过好几次:我说“LLM 做不到某件事”,结果六个月后它们居然能做了。但原因其实很简单,因为人们会把我在播客里说的话复制粘贴进 ChatGPT,于是这些内容就进入了训练集。下一版模型自然就“学会”了这个问题。所以它并不是突然变聪明了,而只是被专门训练过而已。
LLM 永远存在一种“逃逸”可能,解法是世界模型?
杨立昆:因此,我认为在当前范式下,并不存在真正解决这个问题的方法,LLM 的局限是内生的。而我提出的方向,是一种“目标驱动 AI”架构。你给 AI 一个目标:“完成这个任务。”那么系统如何知道自己真的完成了任务?
它需要一个世界模型,它会预测自己采取一系列行动之后会发生什么。然后判断这些结果是否满足某个成本函数,也就是衡量任务完成程度的函数。
如果系统本身是通过优化来工作的,也就是说,它会搜索一系列动作,使得成本函数最小化,那么它理论上就无法做其他事情。当然,这里面仍然有很多可能出错的地方。
比如:成本函数本身可能设计错了;你以为它衡量的是“任务是否完成”,但实际上它可能并不准确;或者世界模型本身不准确,导致系统对行动后果的预测是错误的。因此,它依然可能犯错。
但关键在于:它至少具备“预测自身行为后果”的能力。而我认为,这对于任何智能体系统来说都是不可或缺的。
更进一步,你不仅可以给系统一个任务成本函数,还可以加入额外的目标函数、甚至安全约束。比如:“不要伤害任何人。”而且这些约束不一定非要在高层抽象里定义。你可以设计很多低层级目标函数,它们组合在一起,就能保证系统不会危险。系统在结构上就无法违反这些约束,它必须满足它们。
但 LLM 不一样。LLM 永远存在一种“逃逸”可能。训练误差与测试误差之间始终存在鸿沟,总会有某个 prompt,让系统做出极其愚蠢的事情。
为什么“读遍医学书”的AI,仍然不会看病?
主持人:我想具体聊聊 LLM 的某个应用领域。你显然对 AI 医疗非常兴奋,而现在人们也已经在医疗领域大量使用 LLM。 所以我很好奇:在你看来,哪些医疗场景是 LLM 根本做不到的?哪些场景必须依赖真正“理解世界”的模型?
杨立昆:比如,为一个冠心病患者设计治疗方案。或者更广泛地说,为某个具体病人设计治疗方案,而这个病人的情况并不完全符合你以前见过的标准模板。如果你拥有一个关于病人生理系统动态变化的优秀“心理模型”,你就有可能设计出真正有效的治疗路径,把病人带到一个更健康的状态。
而且这里的“病人”甚至可以是一颗细胞。比如:你如何让一个干细胞变成能够分泌胰岛素的胰腺 β 细胞?对于 1 型糖尿病患者,他们自身的免疫系统会攻击并摧毁 β 细胞,这是自身免疫疾病。那么问题是:你如何持续制造新的 β 细胞?如果你拥有一个关于人体细胞的模型,也许你就能推导出:究竟需要向干细胞发送怎样的一系列“信号”,才能让它最终转化成 β 细胞。
主持人:我感觉“LLM 派”和“非 LLM 派”很多时候其实是在鸡同鸭讲。因为我觉得,两种观点都有可能同时成立。一方面,LLM 的确可能实现一种非常惊人的事情:把“全球最顶尖医生”的知识与治疗水平,大规模扩散到全世界。 如果真能做到,那影响会是不可思议的。而另一方面,你现在谈论的,则是更进一步的东西:不仅达到顶级医生水平,而是超越顶级医生。
杨立昆:关键问题是:怎么做到这一点?而且这不仅仅是“顶级医生”那么简单。
LLM 擅长的是“复述书本里的知识”。但如果医学只是积累书本中的陈述性知识,那只靠读书就能成为医生了。可事实上并不是这样。你不能只靠读书成为医生。你还必须完成住院医培训,要真正听心音、按压腹部、观察病人状态、做诊断。这些能力远不只是语言知识。
主持人:对,这点很有意思。我也很好奇,LLM 最终是否真的能够在全球范围内提供顶级医疗服务。这个问题我们之后肯定还会继续观察。
FAIR 为什么会变“孤岛”?研究与产品严重错配
杨立昆:Meta 的问题更像是:中间缺了几步。你需要一个既接近研究、又不完全是产品团队的组织,来接过接力棒,把技术进一步推进。不是三个月内做出产品,而是继续深化技术。我们曾经在 Facebook 和 Meta 内部拥有这样的组织,后来失去了。于是 FAIR 在公司内部逐渐变成了一个“孤岛”,我们有很多想法,但没人真正接手推进。
到了 2023 年,公司成立了 GenAI 组织。一开始,他们直接从 FAIR 抽走了大约六七十位科学家和工程师,但这个新组织很快就承受了巨大的短期压力。结果就是:GenAI 团队根本没时间再和 FAIR 交流,于是,他们不再站在创新前沿,而是只能专注于短期目标。整个组织开始变得非常保守。
所以最终出现了一个断层——研究与产品之间出现了严重错配。
事情可能在很多地方出错,你也很难把责任归结到某一个人身上,但大概就是这样一步步发生的。
AI 行业正在变封闭,做 LLM 意义不大了?
主持人:现在整个行业似乎都承受着巨大的短期压力,因为竞争实在太激烈了。所以我很好奇:你当年在 FAIR 建立的这种模式,以及 Google 曾经类似的研究文化,未来还可能存在吗?
杨立昆:我觉得谷歌研究院和 Google DeepMind 里还有一些地方的人确实还在做真正的研究,但整个行业正变得越来越封闭。谷歌当然已经收紧了,Meta 甚至 FAIR 也有点朝那个方向发展。现在对论文发表有了更多限制,所以对于真正想做突破性研究的人来说,吸引力下降了。如果你做的是一些中期有价值的东西,公司会要求你不要公开讨论。因此我觉得那种氛围并不利于突破性创新。基本上,获得突破性研究成果的最佳方式,就像 FAIR 早期、贝尔实验室黄金时代以及 Xerox PARC 那样——就是招最优秀的人。这些人本来就知道什么值得研究、什么项目值得投入。你给他们资源,然后别挡路就行了。
通常想跟我一起工作的人,都是那种足够“疯狂”的人。或者说,他们认同这样一种理念:在学术界、在读博士的时候,你应该研究下一代 AI 系统,而不是当前这一代。如果你现在还在学术界研究 LLM,我觉得非常无聊。至少对我来说是这样。那更像是在研究 LLM 为什么有效、如何工作、它们有哪些限制。这是一种描述性科学,而不是特别有创造性的工作。当然它是有用的,但如果你真的想在 LLM 上做出全新的东西,你根本拿不到足够的 GPU。所以如果你正在读博士,别去做 LLM,意义不大,你很难真正做出贡献。
Scale收购,是否加速了Meta全面转向LLM?
主持人:我猜,Scale 的收购是不是也成为了内部全面转向 LLM 的催化剂之一?
杨立昆:是的,绝对有关系。当然可能还有其他原因。我没有内部信息能对此下定论,但也许 Mark 把 Alex 看作某种潜在接班人,一个更年轻版的自己。
主持人:是啊,我觉得媒体里的主流叙事一直是:当 Alex 加入后,运营一个研究型组织就变得更难了。我不知道你自己有没有这种感受。
大家都误解了:我对 Llama 没有任何技术贡献!
杨立昆:好吧,这里有一个关于我在 Meta 的角色、我和 Llama 的关系,以及 Meta AI 运作方式的巨大误解。
我对 Llama 没有任何技术贡献,完全没有。我唯一的贡献,是推动把 Llama 2 开源,因为公司内部对此争论非常激烈。法务部门反对,政策部门有些反对,公关部门支持,工程团队支持,Andrew Bosworth 支持。所以这是一个非常高层级的大讨论——从 Mark Zuckerberg 往下,大概 40 人,每周开两小时会,持续了好几个月。那确实是一场重大的内部辩论。
我非常强烈地主张开源,Buzz(Andrew Bosworth)也非常坚定。我们认为所谓的“安全风险”被严重夸大了,而开源带来的产业机会极其巨大。我们相信,通过开源 Llama 2,可以真正启动整个 AI 行业的发展。而事实证明,事情确实如此。
但除此之外,我对 Llama 没有任何正面或负面的贡献。我没有阻止它,也没有拖慢它,什么都没有做。FAIR 内部有很多人在做 LLM,我对此从来没有反对。我只是说:这不是通向人类级智能的道路。但它依然很好、很有用。就像语音识别、机器翻译一样。
尤其是在 2018 年我卸任 FAIR 负责人之后,我对大家研究什么已经没有直接影响力了。我能做的只是公开我的愿景,然后吸引一些人加入我的项目。他们是因为想做这些事情才跟我合作,而不是因为我是老板。我从没命令别人跟我做项目。
所以我对 Meta 内部的 LLM 方向既没有正面影响,也没有负面影响。我对整体战略有一点影响,但更多是在长期层面,比如如何维护研究实验室、如何保持创新环境之类。
同样是自监督学习,为什么语言赢了,视频输了?
主持人:这真的很有意思。我整个对话下来最大的感受之一,就是你的观点其实一直非常一致。你很多年前的演讲,现在回头看都能对得上。当然,这是个变化极快的领域,过去一年也发生了很多事。那么有没有什么是你在过去一年改变看法的?
杨立昆:其实是关于我们过去叫“无监督学习”、现在叫“自监督学习”的整个理念。大概到 2003 年之前,无监督预训练的核心思想是:先让模型学到输入数据的好表征,然后再用少量带标签的数据做微调。那时候已经有一些证据表明这种方法是可行的。
后来我尝试把这个思想应用到视频上,因为我最终真正想做的是:让系统仅仅通过“观察世界运行”来理解世界。这一直是我的核心想法。我在 2010 年代早期就开始公开主张这个方向,也做了一些简单的视频预测研究。那时候我们甚至还没有 GPU。
后来 FAIR 成立后,我们更认真地推进这个方向,尝试做像素级的视频预测,但发现效果不好。于是我开始主张自监督学习,也就是,不是训练系统去完成某个具体任务,而是训练它进行预测,然后把学到的表征用于下游任务,下游任务再通过监督学习、强化学习等方式训练。
2016 年我在 NeurIPS 的主题演讲后半部分,其实主要就在讲这个。当时它还叫 NIPS。之后我一直在推动这个方向,并试图找到真正有效的方法。
让我意外的是,这套方法后来取得了惊人的成功——但不是在视频上,而是在语言上。LMS本质上就是一个极其成功的自监督学习案例。
LLM的成功,其实是一种“特例”
主持人:我感觉这几乎是一个完美的结尾了。不过还是想把最后的话留给你。我觉得听众们当然都很熟悉你,但还是想给你机会推荐一下你最近在做的东西,或者任何你希望大家关注的工作。话筒交给你。
杨立昆:好,我最后讲一点。
LLM 之所以有效,是因为当你面对的是离散符号序列时,做预测非常容易。语言里的 token 数量是有限的,大概十万个左右。神经网络只需要输出一个关于所有 token 的概率分布,然后从里面采样,把得到的 token 再输入模型,继续预测下一个 token。这样就可以进行自回归预测。
但这只是一个特殊情况。
如果你面对的是真实世界,就不能简单使用生成式模型。你必须训练一个系统,让它先学会表征,然后在“表征空间”里做预测。这里有个巨大的问题。直到大概五年前,我都不觉得这个问题容易解决——尽管几十年前我其实已经发明过一种解决方法。
问题在于:如果你拿两个输入,比如视频的前半段和后续部分,或者一张图片和它的损坏版本,把它们都输入编码器,再训练一个预测器根据其中一个表征预测另一个,那么系统会出现一种非常简单的“作弊解法”:它直接输出一个恒定表征。
这样预测问题就变得毫无意义了。这被称为“表征塌缩”。
不防塌缩就学不会智能?JEPA 的真正生死线在哪
所以 JEPA、自监督学习、联合嵌入架构的核心问题就是:如何防止塌缩?
我在 1993 年提出的一种解决方案叫“对比学习”。简单来说,就是同时给模型提供“应该能互相预测”的样本,以及“不应该互相预测”的样本。后来发现这种方法确实有效,但它在高维空间里的扩展性并不好。
还有另一种方法,是 Geoffrey Hinton 和 Terry Sejnowski 在 80 年代末提出的:让两个网络之间的互信息最大化。Yürgen Schmidhuber 还因为这个跟我“生气”,因为他在 1992 年也提出过类似方法。
本质上,这些方法都是为了防止联合嵌入架构发生塌缩。
这当然是一种方法,但只是其中一种实现方式,我不认为这是最好的方法。
现在有 JEPA 架构的问题:你必须找到一种好的方式来防止“塌缩”。目前有几类方法。
第一类是我前面说过的对比学习方法,但我认为这不是一个好的方向。
另一类叫“蒸馏方法”,它们确实可以防止塌缩——但我们并不完全知道为什么。一个典型例子是 DINO。它是一种联合嵌入方法,使用蒸馏机制:一个编码器作为“教师”,另一个作为“学生”。教师网络不进行反向传播,而是通过指数滑动平均方式更新权重。学生网络通过 backprop 学习。
类似的还有DeepMind提出的 BYOL(Bootstrap Your Own Latent),它使用类似技巧。这些方法在某种直觉上来源于强化学习,但它们确实可以防止塌缩,不过我们并不真正理解原因。
虽然有一些理论论文试图解释它为什么有效,但在简单情形下并不令人满意。你以为你在优化某个目标函数,但实际上你并没有真正优化它,有时候训练过程中那个目标甚至还会变差。所以我们并不完全信任这类方法——但它们确实有效。
现在我们有一些新的论文,引入显式正则项来防止塌缩,本质上是尝试最大化编码器输出的信息量。这一类方法与1989 年贝克尔、辛顿,1992 年施密德胡贝尔等人的工作是同一脉络,但实现方式不同,也不是简单的对比学习。
信息量没有下限,只能祈祷它有效?
关键问题是:你怎么度量信息量?怎么最大化神经网络输出的信息?
问题在于,如果你想最大化某个量,你要么能直接测量它,要么至少有一个下限。但信息量我们通常只能得到上界,无法直接测量。所以现实做法是:用一个上界去近似,然后“祈祷它有效”。
目前最新的方法之一叫 SIGREG(Sketch Isotropic Gaussian Regularization)。之前还有 VC Reg / VI(variance-invariance covariance regularization)等方法。
SIGREG 的思路是强制编码器输出的分布接近高斯分布,本质上是在一种不同方式下逼近“最大信息量”。这项工作来自 Randall Balestriero(他曾是我的博士后,现在在布朗大学任教)。
我们还有一些变体:可以产生稀疏表示、或者非高斯型各向同性特征表征。我们还和一位在 Meta FAIR 的学生 Luca Ma 合作,训练了一个世界模型,规模还不大,但我们认为非常有前景。如果你想看一篇代表性论文,可以找《LOW World Model OS》(名字不是我起的)。
主持人:太棒了。真的非常感谢你今天的分享,能有这段对话非常荣幸。
杨立昆:谢谢邀请,这次聊得很开心。
参考链接:
https://youtu.be/ngBraLDqzdI?si=1VZ8POtA_Z_1DEgu