MMLU 测评结果与官方差距较大 #267

Haruka1307 · 2024-12-30T08:37:55Z

如您官网所示，llama2-7b的mmlu分数与官方差了快5个点，我测评llama3-8b-instruct也只有0.6396，感觉相差很多，请问是什么原因呢？

wangxingjun778 · 2024-12-30T11:23:37Z

一般来讲，各个评测框架，如OpenCompass、harness等，或者官方的评测逻辑，因为在prompt构造（包括如果有few-shot的话，采样逻辑和各模型对few-shot的following能力）、模型推理参数、结果解析逻辑都有一些差异，最终就会导致评测结果有差异；通常建议尽量采用一个框架来横向评测各个模型。

Haruka1307 · 2025-01-01T13:18:21Z

我看了您们项目mmlu测评的源代码，逻辑是取logits可能性最大的值，与原测评做法一致。这个应该与采样无关

prompt似乎也是和官方一致的：

Haruka1307 · 2025-01-05T05:47:02Z

是不是有可能官方测评是用的micro_avg？
weighted_acc = np.mean(np.concatenate(all_cors))
您最后的输出为WeightedAverageAccuracy，有可能是这方面的原因。请问后续是否是支持指定测评metric为macro，micro，weighted呢？谢谢！

Yunnglin · 2025-01-06T03:01:15Z

我们最终也是类似micro avg的计算方式，后续会支持更多评测指标

Haruka1307 · 2025-01-09T12:12:20Z

我们最终也是类似micro avg的计算方式，后续会支持更多评测指标

报告显示最后是weighted_acc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MMLU 测评结果与官方差距较大 #267

MMLU 测评结果与官方差距较大 #267

Haruka1307 commented Dec 30, 2024

wangxingjun778 commented Dec 30, 2024

Haruka1307 commented Jan 1, 2025

Haruka1307 commented Jan 5, 2025

Yunnglin commented Jan 6, 2025

Haruka1307 commented Jan 9, 2025

MMLU 测评结果与官方差距较大 #267

MMLU 测评结果与官方差距较大 #267

Comments

Haruka1307 commented Dec 30, 2024

wangxingjun778 commented Dec 30, 2024

Haruka1307 commented Jan 1, 2025

Haruka1307 commented Jan 5, 2025

Yunnglin commented Jan 6, 2025

Haruka1307 commented Jan 9, 2025