软负样本构建疑问 #8

aidejieceng · 2022-11-24T11:59:56Z

尊敬的作者，您好：
拜读了您的文章，发现负样本是借助Spacy工具对句子进行句子解析，然后将原始样本的否定内容作为软负样本。如果不使用这种方式，而是借助BM25算法选择负样本，或者借助一个已经训练好的simcse来选择负样本，这种方式可行嘛，您有没有做过对比实验？

phoenixsecularbird · 2022-11-25T06:47:46Z

您好！谢谢您的关注！个人感觉主要问题在于怎么选择比较难的正样本负样本，就是和原样本看起来差的很远，但是语义很接近，或者看起来比较像，但语义差别比较大。BM25是稀疏检索方法，检索到的原样本在词和表达方面会很接近，但是我们无法确定其语义差别，因此很难确定是作为负样本还是正样本。simcse倒是理论上可行，我们没有做过相关尝试，不过道理上讲，如果一个句子被simcse误判为正样本，那么新模型训练的时候该句子会被一直作为正样本，没有改正的机会，因此也很难去找到比较难的正样本负样本。这就是我对这两种思路的认识，一家之言，仅供参考哈！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

软负样本构建疑问 #8

软负样本构建疑问 #8

aidejieceng commented Nov 24, 2022

phoenixsecularbird commented Nov 25, 2022

软负样本构建疑问 #8

软负样本构建疑问 #8

Comments

aidejieceng commented Nov 24, 2022

phoenixsecularbird commented Nov 25, 2022