Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

attention漂移问题 #7

Open
ryuki1223 opened this issue Oct 12, 2019 · 4 comments
Open

attention漂移问题 #7

ryuki1223 opened this issue Oct 12, 2019 · 4 comments

Comments

@ryuki1223
Copy link

ryuki1223 commented Oct 12, 2019

我在训练完后,attention可视化发现attention位置存在漂移,但识别结果是正确的。而且发现大部分字符的attention位置都位于它的上方,例如下图为识别NH_{4}^{+}的 N时的attention位置图
1
而且,对于公式的一些结构信息识别,漂移更严重,而且attention位置呈发散状。例如下图为识别NH_{4}^{+}的 下标结构 "{"的attention图
2
能帮分析下,这是什么原因引起的吗。

@whywhs
Copy link
Owner

whywhs commented Oct 13, 2019

你好,看你给出来的被识别图片非常的长,但是需要被识别的字符只是在中间的一个小区域。
所以,我觉得你可以从以下几点来查看一下:
1、Attention的位置只是代表在这个位置上的关注度较高,不代表其他地方不会关注。因为全图的Attention和为1。从你给出的图片来看,因为图比较大,可能整幅图的关注度差别很小。可视化结果上看某个部分黑度较高是因为我为了凸显这部分而做了专门的处理。建议你打印出没有处理的Attention weights查看。
2、如果你想Attention的可视化结果好,可以进行图片的预处理,裁减掉周围没用的区域。

@ryuki1223
Copy link
Author

ryuki1223 commented Oct 14, 2019

你好,非常感谢回复。 85%的训练数据都是紧贴文字没有白边的,我重新测了张紧贴文字的图
每步的attention图如下
0_-2
1_3_2
2_x_2
3_=_2
4_-_2
5_7_2

第三个图识别x的attention图,我打出来其attention概率值,将最大的attention值规范到1,则第二大attention概率值为7.6055638e-02。大于一个数量级的差距,说明还是有区分度的。但第三张图的识别"x"attention位置落在x的上方。

@whywhs
Copy link
Owner

whywhs commented Oct 21, 2019

抱歉回复较晚
Attention漂移说明模型当前应该正确关注的点有一定的错误,虽然可能并没有影响到结果。这可能也是为什么我现在这个模型的识别准确率较低的原因之一吧。
现在放在github上的这个模型不是我自己目前改进过的最优版本,新的版本可能之后会继续更新。但是我可以建议你在模型中引入正则化以及对输入数据进行一定的预处理(数据增强)。这些在我目前的实验中都取得了不错的结果。随着识别准确率的提升,相信你所说的这个Attention漂移问题可以得到较好的改善。

@ryuki1223
Copy link
Author

非常感谢回复及给的建议,我会持续关注你的更新,再次感谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants