成绩膨胀是温柔欺诈:一种用善意语气发出的伪造信号。它告诉学生、家长、大学、雇主,也告诉机构自己:学习已经发生了,能力已经到位了。发出这个谎言的那一刻,它显得很小。账单却会复利很多年。

虚高成绩不是慷慨,而是把失败延期,并擦掉成年人的指纹。

这篇笔记长在古德哈特定律grokking作为看见的教育成人权威冷却失败者的交界处。它回答的问题是:成绩膨胀为什么伤害学生?又是什么样的制度心理不断生产它?它的判断是:成绩膨胀之所以稳定,是因为它几乎满足了系统里的每一个成年人,却悄悄伤害了系统声称要保护的那个人。

简单图像

一个孩子不会游泳。老师本来应该报告:“还不会游。”

但孩子哭了。家长投诉。学校想要更漂亮的通过率。学区想要更好看的公平指标。老师想要安宁。于是报告写成:“游泳合格。”

一天之内,所有人都舒服了。孩子觉得自己被接纳。家长得到安慰。学校显得成功。老师避免了一场争执。

然后孩子走进深水区。

这就是成绩膨胀。它不是取消残酷,而是把残酷从成年人的对话里搬到学生的未来环境里。

成绩是一种反馈信号

成绩不是学校的目的。成绩是反馈信号,告诉人现在的表现和所需能力之间还有多远。这个信号至少有五个工作:

  • 告诉学生自己现在会什么、还不会什么。
  • 告诉老师教学在哪里失败了。
  • 告诉家长安慰是否有根据。
  • 告诉未来机构可以默认学生具备什么准备。
  • 告诉学生的神经系统:现实如何回应努力。

膨胀一次性腐蚀这五件事。

这是古德哈特定律在教育里最干净的版本。成绩一开始是学习的度量。后来它成了大学录取、教师评价、毕业率、学区仪表盘、家长面子、学生自尊的目标。一旦成绩成了目标,系统就会直接优化成绩。学习反而变成碍事的中间环节。

这种腐蚀在仪表盘里看不见,因为仪表盘变好看了。更多 A。更多通过。更少失败。更高毕业率。更少可见差距。数字说系统更温柔、更有效了。

学生只是比成绩单显示的知道得更少。

研究说了什么

实证图像比疗愈叙事难看得多。

哈佛 2023 年的教师讨论报告显示,2020-21 学年哈佛本科 79% 的成绩落在 A 档,十年前是 60%;平均绩点从 2002-03 学年的 3.41 上升到 2020-21 学年的 3.80。问题不只是膨胀,还有压缩:当几乎所有人都贴着天花板,成绩就不再携带信息,学生只能把区分度转移到推荐信、课外履历等”影子系统”里。

耶鲁也呈现同样形状。2023 年一份报告显示,2022-23 学年耶鲁约 79% 的成绩是 A 或 A-minus,2010-11 学年略高于 67%;同期 B 及以下的比例下降。

近期关于伤害最有力的证据来自 Denning、Nesbit、Pope 和 Warnick 2026 年的论文 Easy A’s, Less Pay。他们使用洛杉矶和马里兰的高中行政数据,并连接大学与收入记录,把宽松评分分成两类:

  • 通过型成绩膨胀:让接近不及格的学生更容易通过。
  • 均值型成绩膨胀:把整条成绩分布往上抬。

这个区分很重要。通过型宽松有时可以减少留级,并略微提高边缘学生的高中毕业率。D 代替 F,可能让一个快掉出轨道的学生继续留在制度里,有时间修复。在悬崖边上的仁慈可以是真的。

但整体抬高成绩是另一回事。论文发现,被分配到更高均值型膨胀教师的学生,之后的考试成绩更低,高中毕业率更低,大学入学率更低,收入也更低。作者估计,一名教师如果均值型成绩膨胀高一个标准差,他每年所教学生的终身收入现值总计会减少约 213,872 美元。

机制并不神秘。一个学生没有学会 Algebra I,却拿到了 B。成绩单解决了成年人的问题,同时恶化了学生的问题。缺失的代数不会消失。它会进入几何、化学、统计、大学分班、专业选择、就业能力和自我概念。

更早的研究也指向同一方向。Philip Babcock 关于成绩膨胀与努力的研究发现,当预期成绩更高时,学生学习时间会显著下降。Babcock 和 Marks 还记录了大学学习时间成本的下降:1961 年全职学生每周用于上课和学习约 40 小时,到 2003 年约为 27 小时。成绩膨胀不是唯一原因,但激励很清楚:当系统降低 A 的价格,学生理性地购买更少的学习。

公平的结论不是”所有严格评分都好”。有些严格评分者懒惰、惩罚性强,或根本不会教。有些通过型宽松能阻止学生被官僚系统一脚踢出。更窄也更强的结论是:当成绩高于真实能力时,学生失去了本可以让自己在现实变昂贵之前调整的反馈。

对学生的伤害

成绩膨胀通过六条路径伤害学生。

1. 它摧毁校准。 学生不只需要知道自己有没有进步,还需要知道自己真实站在哪里。虚高成绩会让内部仪表失准。学生以为自己准备好了,其实还没有;以为自己可以自信,其实应该继续练;以为自己安全,其实正往悬崖走。

这是思考意志的反面。思考意志始于一个人无法忍受假装理解。成绩膨胀训练的是相反的东西:制度许可你停在”感觉自己懂了”的位置。

2. 它移除有生产力的压力。 Grokking需要大量暴露、压力,以及在平台期之后继续训练的意愿。虚高成绩在压缩发生之前就撤掉压力。学生以过拟合状态退出训练:足够记忆本地课程,不足以把结构泛化出去。

这也是为什么”概念先行”改革常常和成绩膨胀同行。学生被邀请在底层规则尚未挣到之前叙述理解。结果就是穿着更漂亮教室海报的Wakalixes

3. 它把失败转移到下游。 低分在低风险阶段是痛苦信号。大学挂科、奖学金丢失、专业路径崩塌、第一份工作能力不足,是同一个信号复利后的版本。成绩膨胀没有消灭失败。它把失败从可修复阶段搬到不可修复阶段。

4. 它用成绩单平等替代真实平等。 如果两个学生都拿 A,但一个真正掌握了材料,另一个只是被社会性放行,那么成绩单平等,未来不平等。有钱的学生可以买私教、父母游说、文书辅导、无薪实习和社会资本。贫穷学生只剩下虚高信号,没有隐藏修复系统。

所以成绩膨胀在实践中常常反公平。它移除了本来能证明干预必要的公共信号,只留下已经懂得阅读暗号的家庭才拥有的私人信号。

5. 它把区分度推入影子系统。 当成绩在顶端压缩,机构不会停止筛选。它们会通过推荐信、带有阶层编码的课外活动、科研机会、实习、推荐网络、表演独特性的能力来筛选。哈佛所谓”影子区分系统”不是副作用。它是成绩失去区分力之后的替代物。

旧信号粗糙但可见。新信号更微妙、更继承自社会位置,也更难被外人质疑。可读性被向上重新分配:精英学会读影子,其他人庆祝更温柔的成绩单。

6. 它让之后的失败像身份崩塌。 如果一个学生多年收到虚高安慰,后来撞上现实就不会像普通反馈。它会像背叛。学生会问:“如果我是 A 学生,为什么我在溺水?“答案太羞辱:成绩没有说真话。

于是学生需要被冷却。他们必须接受一个被降级的自我,不是因为他们突然变差了,而是因为机构延迟告诉他们真实位置。成绩膨胀制造了被骗的人,然后又惊讶他们无法被安抚。

Boaler 模式

Jo Boaler 在这里有用,不是因为她是一个心理标本,而是因为她是一个更大制度模式的公开案例。

已记录的事实已经足够。Boaler 是斯坦福数学教育教授,也是 Youcubed 联合创始人,在加州新版 Mathematics Framework 周围具有影响力。公共争议的一部分集中在数据科学是否能作为 Algebra II 的替代路径。批评者认为这会让学生面对大学数学和 STEM 时准备不足。Boaler 则认为数据科学可以是”更高层次的数学”,并认为批评与更广泛的反公平数学改革有关。

2024 年 3 月,一份匿名投诉提交给斯坦福,指控 Boaler 的研究和框架争论中存在 52 处引用误导。斯坦福审查后决定不启动正式调查,称这些指控属于学术分歧和解释问题。Boaler 否认指控,并称投诉具有政治动机。

所以负责任的表述不是”Boaler 有罪”。负责任的表述是:Boaler 争议暴露了这样一种局面:教育改革者用研究的声望为降低或改道标准背书,同时把反对意见处理成对公平的攻击。

模式比个人更重要:

  • 一个真实的不平等被识别出来。
  • 这个不平等在改革阶层情感上变得无法忍受。
  • 困难的门槛被重新描述为排斥。
  • 修复方案改变门槛的含义,而不是建立通过门槛的能力。
  • 改革包裹在研究语言里。
  • 批评者不只是错,而是道德上可疑。
  • 下游学生继承能力缺口。

这是成绩膨胀的近亲。问题不只是字母成绩。问题是通过语义替换实现的证书膨胀:Algebra II 变成”数据科学路径”,掌握变成”参与感”,失败变成”尚未”,标准变成”障碍”,降低要求变得和扩大机会不可区分。

公平的近敌象征性准入。真正的公平给学生支持,让他们达到有要求的标准。象征性准入改变标准的标签,这样没人需要看见学生挣扎。前者昂贵。后者在情绪上有利可图。

宽松阶层的心理

用户层面的诱惑是问:做这些事的人到底哪里有问题?更好的问题是:什么情感经济奖励他们这么做?

宽松阶层大多不是虐待狂。更糟的是:他们常常真的在乎。他们想避免羞辱,减少焦虑,防止学生气馁,缩小差距,肯定身份,保护孩子不被残酷的地位机器压碎。这些动机是真实的。

但没有标准的同情会变成成人自我安抚

给虚高成绩的老师避免了学生的痛。管理员避免了家长投诉。学区避免了难看的差距。教授避免了差评。改革者避免了承认自己偏爱的制度也会复制不平等。所有人都避开了那句:“你还没到。”

这是成人缺席在评分里的形式。成年人是能承受被讨厌,并把真话说成孩子能使用的形式的人。宽松阶层想要关怀的道德权威,却不想付出拒绝的情感成本。它想成为 Oogway,却不想像 Oogway 对 Tai Lung 那样说不。

这里也有地位收益。在精英教育话语里,捍卫标准的人可以被描绘成残酷、狭隘、惩罚性、过时、共谋不平等。放松标准的人则显得人道、精致、反种族主义、创伤知情、面向未来。一旦这种声望梯度形成,标准就变得昂贵。

这就是改革者的舞台陷阱。他们已经以保护学生者的身份登台,就很难下台说:“我们的一些改革可能伤害了本来想帮助的学生。“这不是简单的政策修正,而是身份死亡。所以只能继续往上爬。

最深的病灶是无法区分会伤害人的痛会提供信息的痛。羞辱性、任意、惩罚性的低分可以伤人。一个真实低分,如果同时带着支持和下一步路径,则是在提供信息。宽松阶层把两者都折叠成”伤害”,然后为自己拆掉驾驶舱仪表盘而自我庆祝。

假仁慈的残酷

有一种仁慈会把门留开。悬崖边上的通过型宽松可以是这种仁慈。它说:“你落后了,但我不会让官僚系统把一个糟糕学期变成流放。”

还有一种仁慈会撒谎。均值型膨胀就是这种。它说:“你没事。“因为成年人不想消化”你还没事”。

这个区分就是全部。

第一种保留学生与现实的接触,同时阻止制度性死亡。第二种切断与现实的接触,同时保存成年人的善良自我形象。一种是仁慈。另一种是假仁慈。

好的教育需要勇气去看见真实学生,而不是成年人需要学生成为的那个人。Shifu 的失败不是严格,而是有条件的盲:他透过自己分配的命运来看孩子。成绩膨胀是同一种盲目的柔软版本。虚高评分者也没有看见学生。他们看见的是一个需要保护的脆弱身份、一个需要改善的公平数字、一个需要避免的冲突,或一个需要被证明正确的政策故事。

真实学生需要更难的东西:真实反馈,加上能陪他活过反馈的成人在场。

笨蛋 / 中智 / 更好看法

笨蛋看法是:“现在孩子就是懒,给低分直到他们变强。”

中智看法是:“成绩是压迫性的,学生很焦虑,传统标准复制不平等,人道教育者应该为了成长而评分,而不是为了惩罚。”

更好的看法是:标准和仁慈不是对立面。 没有仁慈的标准会变成筛选残酷。没有标准的仁慈会变成温柔欺诈。成年人的任务是保持信号诚实,同时搭起足够脚手架,让学生能使用这个信号,而不是被它摧毁。

更糟但更真实的现实是:有些成绩就应该低。有些学生应该在具体任务上失败。有些课程就应该阻止学生在先修能力不存在时继续前进。这只有在一个忘记反馈用途的系统里才显得残酷。替代方案不是善良,而是让学生拿着”会游泳”的证书走进深水区。

主要收获

成绩膨胀是文明层面对”还没有”的拒绝。

“还没有”并不残酷。它是教育里最人道的短语之一。它同时保留标准,也保留学生的未来。你还没到。路还在。我们继续做。信号是真实的。你的尊严不依赖于假装不是这样。

虚高的 A 摧毁了这个结构。它在真相是”还没有”时说”已经”。它把教育从反馈系统变成安慰系统。而安慰不是学习。安慰是成年人把焦虑从房间里拿走,存进学生的未来。

诚实成绩不是学生的敌人。诚实成绩是现实最早、最便宜的形式。一个不能发出诚实反馈的学校已经停止教育,开始通过成绩单洗钱式地制造自尊。

最后的测试很简单:如果一个成绩不能提升学生对下一层现实会发生什么的预测能力,它就是Wakalixes。它听起来像信息。感觉像认可。它只是一个词。

References: