Chengshuo Dai

最近开源模型出得太快了，每天都有号称“超越 GPT-4”的模型发布。但我一直很好奇，这种生成式的文本，到底是怎么客观打分的？

今天查了一下 LLM Evaluation（大模型评估）的资料。以前做翻译任务用的 BLEU 或者 ROUGE 指标已经完全不够用了，因为大模型可以用一百种不同的句式表达同一个正确的意思。

现在最流行的方法竟然是 "LLM-as-a-Judge"（让大模型当裁判）。比如把两个模型的回答都发给 GPT-4，让 GPT-4 来评判谁写得更好。这听起来有点套娃，但据说和人类专家的偏好一致性很高。

不过这里面也有坑。比如 Position Bias（位置偏见），GPT-4 总是倾向于给放在前面的选项打高分。

另外就是大家都在刷榜（比如 MMLU 测试集）。博客里提到："Data contamination is the silent killer of LLM benchmarks." 很多模型在预训练的时候就已经把测试题背下来了。所以现在看那些跑分图，我都持保留态度，还是得在自己的实际业务数据上测了才算数。