Skip to content

Ovis1.5-Llama3-8B在Hallusion Bench上的指标和榜单上的指标差距过大 #595

@LIRENDA621

Description

@LIRENDA621

1、OpenCompass排行榜的指标是45,但是我们本地测试只有41.30
2、这个差距不是由评判模型造成的。因为需要评判模型处理的'unknown'预测只有14个问题,而这14个问题本身就不是Yes/No问题,我参考了官方给出的预测结果,这14个问题同样回答错误。
image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions