1、OpenCompass排行榜的指标是45,但是我们本地测试只有41.30 2、这个差距不是由评判模型造成的。因为需要评判模型处理的'unknown'预测只有14个问题,而这14个问题本身就不是Yes/No问题,我参考了官方给出的预测结果,这14个问题同样回答错误。 <img width="550" alt="image" src="https://github.com/user-attachments/assets/4714d716-d9b3-422e-8642-5a783f85c889">