Ovis1.5-Llama3-8B在Hallusion Bench上的指标和榜单上的指标差距过大

1、OpenCompass排行榜的指标是45，但是我们本地测试只有41.30
2、这个差距不是由评判模型造成的。因为需要评判模型处理的'unknown'预测只有14个问题，而这14个问题本身就不是Yes/No问题，我参考了官方给出的预测结果，这14个问题同样回答错误。
<img width="550" alt="image" src="https://github.com/user-attachments/assets/4714d716-d9b3-422e-8642-5a783f85c889">