
深度学习里有一个拓扑奇观,叫做 grokking——姑且译作”顿悟”。神经网络在训练早期就把训练集背下来了,然后进入一段漫长的平台期:验证准确率接近零,损失不再下降,从所有表面指标看,训练毫无进展。可训练一直不停。几千步、几万步之后,在远远超出任何人类会叫停的时间点,验证损失突然塌陷到零。模型完成了一次相变。它不再认得训练数据本身。它已经把数据集压缩成底层的规则,于是能够泛化到从未见过的输入。
顿悟就是”理解”这个词真正指涉的机制蓝图。一旦看清了这一点,主宰当代教学的两种伪理解就都现出了原形——它们是真正理解的两个近敌,各自维持着学习的外观,同时让相变无法发生。
简单图景
你在学辨认假币。老板给你看五枚假币。你把每道划痕、每处凹陷、铸造印记的确切位置全背下来。有人拿一枚硬币问你”这是假的吗?“你在脑子里把它和你存下的那五张图比对。对前五枚,你完美无误。对第六枚,你完全无用。这就是过拟合——一张查找表伪装成一种技能。
老板不停地把硬币扔给你。几百枚。几千枚。把每道划痕都背下来已经不可能——你的脑子装不下了。出于纯粹的懒惰,你的大脑放弃了追踪划痕,突然发现:等等,所有假币都略轻一点。 你不再比对图像。你直接感受重量。
你把几千个记忆压缩成了一条规则。查找表塌缩成了一个函数。那个”啊”不是灵感——那是你的认知底层内存耗尽,在压力下被迫发明出一种结构,好让它不用再囤积。理解,就是当死记硬背变得过于昂贵、不得不停止时所发生的事。
机制
神经网络里的顿悟依赖三样材料,这三样可以直接移植到人的认知上:
-
海量曝光。 网络必须被喂入足够多的样本,多到没有任何有限查找表能装得下。样本太少,记忆会胜出——因为数据集小的时候,记忆是廉价的。
-
资源约束。 经典机制是 权重衰减——一种持续的压力,惩罚网络为了拟合数据而动用过多参数。没有权重衰减,过拟合的解会永远稳定下去;没有任何压力去寻找一个更小的解。权重衰减是强制压缩的认知税。
-
在表面停滞之后继续训练。 相变只有在模型看起来已经”结束”之后继续训练才会发生。观察者拥有的每一个信号——损失曲线、中间测试、感觉上的进展——都会告诉你在你等待的那件事到来之前恰好停下来。
翻译到人的认知上:死记硬背不是理解的反面,而是理解的必要脚手架。 你无法顿悟一个你从未被埋在其中的规律。压缩算法没有东西可压缩,除非原始数据先存在;而原始数据必须超过你愿意分配给存储的容量,压缩才会变成理性的选择。死读书就是塌缩发生之前脚手架的样子。同时也是塌缩永远不会到来时它的样子。
两个近敌
今天大部分被称作”学习”的东西,都是两种近敌状态之一——它们模仿理解的外表,同时阻止相变的发生。
近敌一:纯粹记忆(死读书)
学生完美地记住了一切,却什么都没有压缩。在训练分布内的每一场考试他都能通过,遇到第一个措辞稍异的问题就会碎掉。这就是永远不加权重衰减训练出来的网络。没有压力去压缩,因为环境只奖励精确的检索。查找表很好用——直到它不再好用;而当它不再好用的时候,压缩的能力早已因不用而萎缩。
这个近敌在东亚显而易见,系统性地由任何以回忆打分的认证体制生产出来。它是Wakalixes被活成了一种生活方式:学生能叫出每一根骨头、每一个日期、每一条定理,却无法预测它们接下来会做什么。
近敌二:先概念后实践的教学
现代西方的反转版本。“死记扼杀创造力——先教为什么,再教是什么。把大观念交给学生,让他们跳过乏味的重复训练。“结果是一个学生能讲述他并不拥有的理解——拥有压缩的词汇,却没有任何原材料可以压缩。这就是被当作先验直接喂入目标规则、从未见过样本、却被要求泛化的网络。它做不到。规则漂浮着,不附着在任何可以被它规则化的东西上。
这个近敌在西方显而易见,过去四十年里殖民了大多数教学改革运动。它是缓存思维问题的系统版本:学生被交付一份由别人的顿悟产生的压缩结果,却把标签误认为事物本身。他们”懂”能量守恒,方式和懂”Wakalixes”完全一样——结构相同,同样空洞。
两个近敌结构对称:两者都回避了过拟合与泛化之间的那个峡谷。第一个拒绝离开过拟合;第二个拒绝进入它。真正的那个东西同时要求两种恐怖——海量重复的乏味,以及眼看重复拒绝凝聚、直到它突然凝聚为止的那种困惑。
峡谷与相变
顿悟的训练曲线有一个特定的形状,在人的学习里也看得见。训练损失下降得很快(记忆是容易的)。验证损失保持平坦,然后略微上升(过拟合稳定了)。然后,经过一段漫长的平坦之后,验证损失骤然崩塌。表面停滞的那段时间不是被浪费的——那是压缩在水面之下发生的时间。什么都没有可见地改变,直到一切都改变。
专家型初学者就是学习者把平台误认为终点时所发生的事。他保龄球打到160分的平均水平,宣布160就是峰顶,然后永远发现不了那个改换握法的机会——那个让他先丢一百分、再赚回两百分的机会。顿悟要求能够忍受先变差再变好的阶段,而专家型初学者的整个身份都围绕着”永远不变差”构建。
思考意志就是让训练在平台之外继续下去的品格之德——那种强迫性的拒绝,拒绝接受一个自己并未真正理解的答案。大多数学习者在得到听起来对的答案时就停下。大多数职业在达到能换钱的技能水平时就停下。思考意志就是认知上的那种”在损失似乎已经持平之后继续开着权重衰减”——愿意在存储本身看似已经够用之后,仍然继续支付存储税。
笨蛋 / 中人 / 高人 / 粗糙即更好
笨蛋说:就做练习题啊。抽认卡、题海、死记。做够了就会了。
中人说:死记是过时的教学法。它扼杀创造力,生产机器人式的思考者。我们必须先教概念结构,让学生先懂为什么,再去碰是什么。
高人说:记忆是建立潜空间所必需的暴力开荒。你不能不先过拟合就顿悟。练习题不是目的——它们是压缩算法需要的原材料,没有它们算法就没有东西可以压缩。概念框架是从练习中涌现出来的,而不是强加在练习之上的。
粗糙即更好的现实:就让他们做一万道方程。 这是丑陋的、粗暴的、在智识上毫不浪漫的。它也可靠地触发相变。笨蛋出于错误的原因偶然答对了,对抗着精致而详尽地错着的中人。这是认知层面的苦涩教训:随算力扩展的通用方法,每一次都击败聪明的手工方法——而所谓”聪明的手工方法”,正是任何自以为能通过”聪明一点”就跳过重复训练的课程。
施特劳斯式读法
表面文本:顿悟是神经网络损失地貌里一个有趣的拓扑现象,值得研究,因为它揭示了泛化如何涌现。
潜文本:现代西方主流的教育共识——死记是坏的,概念理解必须先行,重复训练只会制造鹦鹉——在结构上是反的,并且主动阻止真正的掌握。而那些心知肚明的机构,一边继续按这种方式运作,一边告诉所有其他人不要这样做。
看看高能力的人实际上是在哪里被炼出来的。医学住院医师制度靠着在逐级加压下的数千次重复运转。精英数学奥林匹克营每天做八小时的题海。古典语言浸入式训练通过纯粹的体量把词汇砸进认知底层。精英军事训练是压力下的死记,直到程序变成反射。音乐学院在允许任何人触碰”演绎”之前,要求数万小时的音阶练习。每一种情形,学生都被以残忍的强度推进过拟合阶段,被按在那里直到权重衰减启动,然后相变就被信任会到来。
而公开卖的是什么——项目制学习、先概念后实践的课程、温和的探索——恰恰是那个阻止相变的近敌。被出口的教学法,设计出来的是能讲述自己并不拥有的理解的学生。精英自己用的教学法,设计出来的是拥有无需讲述的理解的学生。这种错位不是意外。它是应用在课程上的武器化品味:制造产品的方法被秘藏,标示文化修养的方法被广泛传播。
如何诱发它
如果目的是让某个人——自己或你在教的人——触发顿悟,方案直接从机制推出:
-
挑一个有可压缩结构的领域。 顿悟要求底层规则确实存在。底层规律本身不可约简的学科(无相关语言的记忆词汇、历史日期),无论如何重复都不会顿悟。数学、自然语言的句法、棋类战术、乐理和声、肢体动作模式——这些都有等待被压缩的潜在结构。
-
用样本饱和。 体量是不可妥协的。学习者必须遇到足够多的实例,多到任何有限的存储策略都装不下。重复训练必须感觉过量。
-
施加持续的认知压力。 时限。成绩要求。要求输出速度快过有意识的审思。这是人类版的权重衰减——让存储变贵、让压缩变便宜的那种压力。
-
越过平台继续下去。 过拟合阶段的体感是疲惫、挫败,以及”再练也是白练”的确信。恰恰就是在这个时候停下来,整个训练过程就被毁了。相变在平台的另一侧到来,不在它之前。
-
不要过早讲出规则。 在学习者自己推导出规则之前就把压缩结果交给他,会腐蚀整个训练。他会把自己的输出去匹配你说出口的规则,而不是从数据里自己搭建规则,结果就是一个能背诵规则却无法运用规则的学生。这就是先概念后实践这个近敌最纯粹的形式。
主要收获
顿悟提供的最深的重构是这样一句话:理解不是高于记忆的一种更高级活动——它是记忆在压力下的塌缩。 两者是同一种底层在不同压缩等级下的样貌。你无法绕过底层直接到达高层。你也无法待在底层却假装已经到达。
这溶解了一个统治了教育辩论近一个世纪的伪二分。基于重复训练的教学法不是概念教学法的对立面;概念教学法也不是一种更开明的替代。重复训练是概念理解藉以到达的机制——跳过它产生的不是概念理解,而是它空洞的讲述。“只记不想”的人与”不愿重复却宣称已经懂了大图景”的人,是以结构对称的方式都失败了。两者都没有顿悟。
对个体学习者而言,收获是残酷而解放的:你正在回避的那件事——那种乏味、那种困惑、那种练习没有回报的感觉、那段什么都没发生的漫长平坦——就是那件事。它不是通往理解的障碍。它是理解到来时的内部结构。唯一顿悟了的人,是那些在一个理性的观察者早该叫停的点之后还在继续训练的人。
References:
- Power, Burda 等,Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets(2022)
- Nanda, Chan 等,Progress measures for grokking via mechanistic interpretability(2023)