Chengshuo Dai
Back to Blog

怎么证明这个模型比那个好?LLM Evaluation

LLM Evaluation

最近开源模型出得太快了,每天都有号称“超越 GPT-4”的模型发布。但我一直很好奇,这种生成式的文本,到底是怎么客观打分的?

今天查了一下 LLM Evaluation(大模型评估)的资料。以前做翻译任务用的 BLEU 或者 ROUGE 指标已经完全不够用了,因为大模型可以用一百种不同的句式表达同一个正确的意思。

现在最流行的方法竟然是 "LLM-as-a-Judge"(让大模型当裁判)。比如把两个模型的回答都发给 GPT-4,让 GPT-4 来评判谁写得更好。这听起来有点套娃,但据说和人类专家的偏好一致性很高。

不过这里面也有坑。比如 Position Bias(位置偏见),GPT-4 总是倾向于给放在前面的选项打高分。

另外就是大家都在刷榜(比如 MMLU 测试集)。博客里提到:"Data contamination is the silent killer of LLM benchmarks." 很多模型在预训练的时候就已经把测试题背下来了。所以现在看那些跑分图,我都持保留态度,还是得在自己的实际业务数据上测了才算数。