当评分机器"误判"时：为什么你的AI助手其实比考官打的分数更高

这项由法国巴黎萨克雷大学CentraleSupélec下属MICS实验室联合Artefact Research Center、Diabolocom和Cohere共同开展的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.09497，有兴趣深入了解的读者可通过该编号查询完整论文。

每当我们想知道一个AI助手到底"聪不聪明"，最常见的做法就是让它回答一批题目，然后把它的答案和标准答案做比较，得出一个分数。听起来合理，对吗？但研究团队发现，这个看似公平的评分流程，其实暗藏一个巨大的漏洞——问题不在于AI不会答题，而在于评分机器不会改卷。

打个比方：一位学生参加数学考试，老师规定必须在答题框里写"答案为X"，但这位学生写了"\boxed{45}"（一种数学格式），答案完全正确，却被阅卷机器判成零分。这不是学生的问题，而是阅卷规则太死板。现有AI评测体系，正在大规模上演类似的悲剧。

这支研究团队系统地检测了这个问题的严重程度，覆盖36个AI模型、15项测试任务，结果令人担忧。更重要的是，他们提出了一个轻量级的解决方案——BERT-as-a-Judge（以下简称"BERT法官"），用一个经过专门训练的小型语言理解模型来替代僵硬的规则匹配，既能读懂答案的真实含义，又无需动用昂贵的大型AI作为裁判。

一、僵硬的阅卷机器：现有评测方式的根本缺陷

要理解这个问题，先从AI评测的日常流程说起。当研究人员想测试某个AI模型的能力，通常会给它一道题，比如"2+2等于多少"，然后要求它按照规定格式回答，例如"Final answer: 4"。接着，评测系统用一个叫做"正则表达式"的规则提取答案部分，再和标准答案做比对。

正则表达式可以理解为一把尺子，它只认识特定的形状。如果答案写成"Final answer: 4"，尺子量出来是4，正确。但如果模型写成"The answer is 4"或者"4（因为2+2=4）"，尺子就量不出来，直接记零分。更糟的是，有时候模型好不容易按格式写了，但最后加了一句说明，变成了"Final answer: \boxed{4}"，尺子依然会因为多出来的符号而判错。

研究团队把这种评测方式比作用一把只能量直线的尺子去测量曲线——工具本身的局限，直接影响了对学生真实能力的判断。

具体来看，研究团队对三类主流测试任务展开了调查，包括选择题（比如MMLU、ARC）、阅读理解抽取题（比如SQuAD、HotpotQA），以及开放式数学题（比如GSM8K、MATH）。他们记录了每个模型在每道题上因格式问题导致答案无法被解析的比例，称之为"解析失败率"。

结果显示，格式错误的比例在不同模型、不同任务之间差距悬殊。以数学题为最难驾驭：Llama-3的70B版本（一个参数规模相当大的模型）在数学题上的格式失败率超过60%，意思是超过一半的回答根本读不到答案。Qwen-3的32B版本在同类任务上也有约20%的失败率。相比之下，选择题和阅读理解题要好一些，多数中等偏大的模型能达到接近零失败率。

更有趣的发现是，模型的"家族背景"对格式依从性影响极大。Qwen-3和Gemma-3这两个系列的模型在阅读理解抽取题上几乎能做到完美格式；而同等规模的Llama-3模型却有相当比例的格式错误。这说明，格式依从能力并不完全等同于解题能力，它更多反映了模型训练时是否被专门打磨过"写规定格式"这件事。

仅仅是解析失败还不够严重，研究团队进一步发现，即便格式正确、答案被成功提取出来，后续的"字面匹配"依然会出错。以Gemma-3系列在阅读理解任务上的表现为例：这些模型的格式失败率几乎为零，但最终得分依然大幅低于真实水平，原因在于它们喜欢给出稍微详细一点的答案，比如"Identity Structure Analysis (ISA)"，而标准答案只写了"Identity Structure Analysis"，字面上不完全匹配，就被判错了。这就是所谓的"格式依从不等于真实能力"——模型答对了，但评分系统不认账。

对AI排行榜的影响同样触目惊心。以Qwen-3的32B版本为例，在选择题任务上，由于规则评测的系统性偏差，它的实际排名比真实水平低了整整18位。反过来，Gemma-3的4B版本则虚假地"爬升"了6位。换句话说，现有的AI排行榜，很大程度上是在比谁更会写规定格式，而不是谁真的更聪明。

二、三种评委，各有短板：现有方法的对比

面对僵硬的规则评测，研究人员其实早已注意到问题所在，并提出过一些改进方向。现有的方案大致分两大类，研究团队将其与自己提出的BERT法官一起放在同一个擂台上比较。

第一类是规则评测，也就是前面提到的正则表达式加字面匹配。它的优点是速度快、成本低、完全确定性，缺点已经说得很清楚——太死板，不懂语义。

第二类是"用大模型来评分"，也就是LLM-as-a-Judge（大语言模型当法官）。简单来说，就是再找一个AI，把题目、候选答案、标准答案一起喂给它，让它判断候选答案对不对。这种方法能理解语义，不在乎格式，听起来很聪明。但它有两个明显的短板：第一，计算成本极高——需要额外运行一个大型AI，本身就要消耗大量资算资源；第二，规模至关重要，研究团队发现，当大模型法官的参数规模在10亿以下时，它的判断能力甚至不如规则匹配，在选择题上只能达到约50%的准确率，相当于随机猜测的水平。

BERT法官走了一条不同的路。它基于一类叫做"双向编码器"的轻量级语言理解模型，这类模型的核心特点是能同时从左到右、从右到左地理解一段文本，非常擅长判断"两段文字在意思上是否等价"。研究团队选用了一个叫做EuroBERT 210M的基础模型（参数规模约2.1亿），在约100万条合成标注的题目-候选答案-标准答案三元组上进行了微调训练，让它学会"读题-读答案-判断对错"这件事。

训练完成后，BERT法官的推理速度非常快，在一台普通笔记本电脑（苹果M1芯片）上，每道题的评判时间约为200毫秒，相比动用大型AI来评判的方案，计算成本降低了数个数量级。

三、训练BERT法官：如何从零打造一位"懂行的阅卷人"

BERT法官的诞生过程，就像是培训一位新阅卷老师——你得先给他准备足够多的例题，让他在实践中学会什么叫"答对"、什么叫"答错"。

首先是数据准备阶段。研究团队让36个不同的AI模型在15个测试任务上各自作答，收集了海量的原始回答。然后，他们用一个名叫Nemotron-Super-v1.5的强大AI模型扮演"答案裁判"的角色，对每条回答贴上"正确"或"错误"的标签。Nemotron-Super-v1.5是目前公认判断能力较强的大型模型，被用作自动标注工具。

为了验证这种自动标注的可靠性，研究团队专门请来了11位人类评估员，对其中一部分数据进行独立标注，最终得到3212条人工标注记录。比对结果显示，人类评估员与Nemotron-Super-v1.5的一致率高达97.5%，其中数学题类别的一致率更达到98.7%。这个数字说明，用大模型自动标注的方法非常可靠，几乎和人工标注一样准确。

训练数据的构成经过了精心设计。研究团队从三类任务中各自抽取数据，确保不同类型的题目在训练集中占比均衡，最终形成约100万条标注样本。涵盖的训练任务包括：选择题方向的MMLU、ARC-Easy、ARC-Challenge；阅读理解方向的SQuAD-v2、HotpotQA；以及数学方向的GSM8K和MATH。其余任务（如CoQA、DROP、AIME、ASDiv等）则完全保留作为测试集，用于评估模型的"跨领域泛化能力"。

训练过程相对简单直接：基础模型EuroBERT 210M在8块MI250x GPU上跑了一轮完整训练，总计约20GPU小时，采用标准的二分类交叉熵损失函数，学习率设为0.00002，配合5%的预热阶段和线性衰减调度。整个训练成本在工业界和学术界都属于相对低廉的范畴。

训练完的BERT法官接收一个三元组输入：题目内容、模型的候选回答、标准参考答案，输出一个介于0到1之间的概率分数，代表候选答案"答对了"的可信度。在实际使用中，以0.5为分界线，高于0.5判为正确，低于0.5判为错误。

四、考场上的真实较量：BERT法官的表现到底有多好

研究团队在一个涵盖全部15个任务的大型测试集上，同时评估了三种方法的准确率：规则评测、大模型法官（Qwen-3 0.6B，参数规模约6亿）、以及BERT法官。评测标准是：对于每道题的每个模型回答，三种方法给出的"对/错"判断，与Nemotron-Super-v1.5的标准判断相比，准确率是多少。

结果非常清晰。在选择题类别上，BERT法官几乎做到了完美：在ARC-Easy上达到99.7%准确率，MMLU上98.5%，TruthfulQA上98.6%，GPQA上93.5%，全面领先规则评测的88%左右。在阅读理解类别上，BERT法官同样大幅领先，HotpotQA上达到90.9%（规则评测75.6%），SQuAD-v2上89.3%（规则评测72.3%），CoQA上88.1%（规则评测仅67%，差距超过21个百分点）。在数学类别上，GSM8K达到98.8%（规则评测94.4%），MATH达到93.7%（规则评测73.4%，差距超过20个百分点），AIME24达到90%，ASDiv达到95.3%。

与此同时，大模型法官在小规模（0.6B参数）下的表现极其糟糕。在ARC-Challenge上，它只能达到50.2%的准确率，几乎等于随机猜测，远不如规则评测的89%。在SQuAD-v2上也只有62.5%，同样低于规则评测的72.3%。这说明，用语言模型来评判答案对错，对模型规模的要求非常高，规模不够的话，不如不用。

为了弄清楚大模型法官究竟需要多大规模才能追上BERT法官，研究团队额外做了一个延伸实验，测试了Qwen-3和Gemma-3两个系列从0.6B到32B不等的多种规模，同时还测试了两种提示方式：一种是直接让模型输出"True"或"False"（简短模式），另一种是允许模型先思考再输出结论（思维链模式）。

结果以计算量（推理浮点运算次数FLOPs）为横轴、准确率为纵轴画出对比曲线后，可以看到：BERT法官用极少的计算量就达到了顶级大模型法官（如Qwen-3 32B开启思维链）才能匹敌的准确率。换句话说，BERT法官在性价比上完胜——花小钱，办大事。

五、走出训练集的舒适区：BERT法官的泛化能力测试

一个好的"阅卷老师"不应该只会批改自己见过的题型。研究团队专门设计了两类泛化测试：跨任务泛化，以及跨模型泛化。

跨任务泛化方面，CoQA、DROP、TruthfulQA、AIME24、AIME25、ASDiv这六个任务完全没有出现在训练集中。测试结果显示，BERT法官在这些从未见过的任务上依然保持了高水准：TruthfulQA达到98.6%，CoQA达到88.1%，ASDiv达到95.3%。这说明，BERT法官并非在死记硬背训练集里的题目，而是真正学会了判断"语义等价"这件事的通用规律。

跨模型泛化方面，研究团队特别测试了四个完全不在训练数据范围内的模型家族，包括Ministral-3、LFM-2、EuroLLM和Apertus。他们做了一个对比实验：一组BERT法官使用包含所有模型输出的完整训练集（ID条件），另一组特意把这四个家族的输出从训练集中剔除，再重新训练（OOD条件），然后比较两种版本在这四个家族模型上的评判准确率差距。

结果显示，两种版本的差距极小。以EuroLLM 9B在数学任务上为例，完整训练版准确率94.5%，剔除后版本94.1%，差距仅0.4个百分点。其他模型家族的差距同样微乎其微，大多不超过1个百分点。这说明，BERT法官不依赖于见过特定模型的输出才能正确评判，它具备真正的跨模型泛化能力，可以被放心地用于评估全新发布的模型，而无需重新训练。

六、更聪明的用法：混合策略、去掉题目、换格式仍然有效

研究团队还探索了几种实际部署中可能遇到的变体情况，为实际使用者提供了丰富的工程参考。

第一个变体是"混合策略"。在很多实际场景中，规则评测和BERT法官不一定非得二选一。研究团队测试了一种折中方案：优先用规则提取答案，如果格式正确就用规则匹配，如果格式解析失败，再调用BERT法官补救。结果显示，这种混合策略确实优于纯规则方案，但略低于全程使用BERT法官的方案。不过，对于一个格式失败率只有20%的模型来说，混合策略可以把BERT法官的调用量减少到原本的五分之一，显著降低计算开销。

第二个变体是"去掉题目"的版本。BERT法官的默认输入包含三部分：题目、候选答案、标准答案。但有时候，用户可能只想比较两段文本是否等价，不想传入完整题目（比如在多模态场景中题目含有图片，而模型目前只处理文本）。研究团队专门训练了一个不含题目的版本，测试结果显示，去掉题目后准确率有所下降，但幅度较为温和。以选择题为例，从97.7%降至97.3%；数学题几乎没有影响，保持93.9%不变；阅读理解的影响稍大，从89.2%降至84.2%，这是可以理解的，因为阅读理解的答案抽取往往依赖题目语境来判断哪段话才是"正确答案"。

第三个变体是"格式迁移"。研究团队的训练数据使用的是"软格式"——要求模型在答案末尾写上"Final answer: X"，但可以在前面自由推理。为了测试BERT法官在不同格式下的鲁棒性，研究团队专门收集了一批"自由格式"的回答（完全不规定格式），并交叉测试了两种训练版本（格式训练版 vs 自由格式训练版）在两种测试集（格式测试集 vs 自由格式测试集）上的表现。

结果发现，自由格式训练版在跨格式场景下表现更稳健，例如用自由格式训练、测试格式化答案时，多个任务的准确率依然很高（选择题94%、数学93.5%）。这与直觉一致：见过更多样化格式的模型，泛化能力更强。同时，规则评测在自由格式场景下完全失效（根本无法解析答案），而BERT法官依然能保持合理的准确率，进一步体现了其优势。

第四个特性是"阈值不敏感"。BERT法官输出的是一个0到1之间的连续概率值，研究团队测试了将判断阈值从0到1遍历后，各任务准确率的变化曲线。结果显示，在0.1到0.9的宽泛范围内，准确率几乎没有明显波动，说明BERT法官对于"对的答案"和"错的答案"的区分度极高，默认使用0.5作为阈值完全够用，不需要针对具体任务做精细调参。

第七个发现，也是关于训练效率的一个好消息：研究团队发现，即便只用10万条训练样本（而不是默认的100万条），BERT法官在选择题和数学题上的表现已经相当出色，继续增加训练数据并不能带来显著提升。阅读理解任务因为需要更多上下文理解，从更多数据中获益稍多一些，但整体而言，BERT法官的训练效率非常高——10万条数据对应约2GPU小时的训练时间，成本极低。

七、评测方式对"考场答案"的影响：不同答题策略的比较

为了确保整个评测体系尽可能公平，研究团队还系统比较了三种不同的"答题方式"对模型测量性能的影响，这部分工作帮助研究团队确定了整个实验体系中最优的答题格式。

第一种是"对数似然"评测，也叫候选选项排名法。这种方式不让模型直接生成答案，而是把所有选项分别拼在题目后面，计算语言模型认为哪个选项的延续概率最高。这种方法天生不需要格式解析，但研究团队发现它严重压制了模型的真实能力——在MMLU上比生成式答题低了约22个百分点，在ARC-Challenge上低了近30个百分点。这说明，语言模型在"比较候选项概率"这件事上的表现，远不如让它直接思考作答。

第二种是"严格格式"，要求模型只能输出"Final answer: X"，不允许任何额外说明。这种方式虽然方便规则解析，但对需要推理的任务损伤极大：在GSM8K（小学数学）上低了30.5个百分点，在DROP上低了11.8个百分点，根本原因是强制约束格式剥夺了模型进行思维链推理的空间。

第三种是"软格式"，要求模型在回答末尾写"Final answer: X"，但前面可以自由推理。这种方式兼顾了格式可解析性与推理能力，在大多数任务上表现最好，是研究团队整个实验体系的默认设置。还有一种"完全自由"的格式，在部分任务上表现与软格式相当，但丧失了规则可解析性，依赖BERT法官进行评判。

由此可见，答题格式本身就是一个影响模型测量性能的重要变量，研究团队的工作也提醒我们：在解读AI排行榜时，不仅要看分数，还要看这个分数是在什么格式约束下测出来的。

说到底，这项研究揭示了一个被长期忽视的评测盲区：我们以为在公平评测AI的智力，实际上在很多时候是在评测AI写规定格式的服从度。BERT法官的意义，正在于用一种低成本、高准确率的方式，把这两件事重新区分开来——让真正会解题的模型得到应有的分数，让格式不那么规整但推理正确的答案不再被冤枉打零分。

对于普通用户来说，这意味着你在看到某款AI模型的评测分数时，需要多问一句："这个分数是用什么方式评出来的？"一个在规则评测下排名靠前的模型，换用更合理的评测方式后，排名可能截然不同，反之亦然。

对于AI研究者来说，这套方法提供了一条低成本的可行路径——花2GPU小时训练一个轻量评判模型，就可以获得比传统规则评测高得多的准确性，同时比使用大型AI法官便宜数百倍。研究团队已经将训练数据、代码和模型权重全部开源，这意味着任何团队都可以直接使用或在此基础上继续改进。

当然，这项研究也有其清晰的边界：它主要针对有明确正确答案的任务，比如选择题、抽取式阅读理解和数学题。对于开放式写作、创意生成、代码质量评估等任务，BERT法官目前还没有覆盖。研究团队也明确指出，将这套框架扩展到多语言场景、多模态输入以及开放式生成评测，是自然的下一步方向。

有兴趣深入了解具体技术细节的读者，可以通过arXiv编号2604.09497查阅完整论文。

Q&A

Q1：BERT-as-a-Judge和普通正则表达式评测相比，准确率提升有多大？

A：在不同任务上提升幅度差异明显。在CoQA这类阅读理解任务上，BERT-as-a-Judge准确率约88%，而正则表达式只有67%，提升超过21个百分点。在MATH数学任务上，BERT-as-a-Judge达到93.7%，正则评测只有73.4%，提升约20个百分点。在多数选择题任务上，两者差距相对较小，但BERT-as-a-Judge依然稳定领先，例如在ARC-Challenge上从89%提升至99.4%。

Q2：BERT-as-a-Judge训练需要多少数据和算力？

A：研究团队的默认配置使用约100万条合成标注样本，在8块MI250x GPU上训练约20GPU小时。但他们发现，仅用10万条数据、约2GPU小时的训练，就能在选择题和数学题上达到接近满分的评判准确率，阅读理解类任务从更多数据中获益稍多。训练完成后，推理速度极快，在普通笔记本电脑上每道题评判约200毫秒。

Q3：用大语言模型来评判答案对错为什么效果不好？

A：大语言模型担任评判角色时，对模型规模要求极高。参数规模在6亿以下时，判断准确率甚至不如传统规则匹配——在选择题任务上只有约50%准确率，相当于随机猜测。即使将规模增大到32B并开启思维链推理，其准确率才能追上BERT-as-a-Judge，但此时计算成本已经比BERT-as-a-Judge高出数百倍。简而言之，大模型评判要么便宜但不准，要么准确但极贵。

【纠错】

【责任编辑:Curry30_Wade3】

深度观察

新华全媒头条丨开炮！葡体主席：本菲卡球员假摔骗点没人说，就是看不惯我们获利