-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
学习代码,请教~ #3
Comments
你好,加qq不太方便,如果你有问题可以在issue里直接说。 |
好的,感谢~我现在已下载苏老师的微信w2v语料并导入gensim,但是我看您用的是tok.pkl,tok_c.pkl,embedding_matrix_c.npy这些文件,请问这些是什么文件?还有w2v.csv这个是您自己w2v之后转换的么,能否发我下文件或者告诉我下生成这些文字的代码,方便的话可以发我邮箱,[email protected] 非常感谢您! |
这三个文件不是事先就有的。你看第 168、181 、207 行,分别生成了 tok.pkl、tok_c.pkl、embedding_matrix_c.npy 这三个文件。 |
那三个文件确实和@padeoe说的一样是运行时生成的,w2v.csv就是来自 https://kexue.fm/archives/4304 ,只是因为平台限制我才转了csv,内容是一样的。你可以从那里下载文件,然后:
同时把input_online.py的最后一行改为:
|
太感谢了!我试试~非常感谢您 |
不客气。如果你还有问题可以再开这个issue。 |
您好,生成csv成功后,载入的时候一直会报这个错误,请问您遇到过没有~ |
应该是导出的文件第一行会有#词向量个数, #词向量维度 两个参数导致的,你可以删掉这一行。 或者读取的时候使用:
|
@raven4752,您好,好像不是这个问题,不知道为何他总是说应该拿到256维度,但是读出257,我把已有的向量拿出来split也是256的,但是他一直报错这个,pandas.io.common.CParserError: Error tokenizing data. C error: Expected 256 fields in line 3, saw 257 |
太感谢啦~终于成功了,剩下来的我是不是就把之前的256dimension改成300就行啦?太感谢您了 |
我没有 hard coding embedding的维度,应该可以直接运行。如果你是说隐层的维度256的话,那个是超参数,和embedding维度无关。 |
好的,感谢 |
老哥好,北航研一学生~对代码有些使用上的问题,能否请教一下?qq 624360737,方便的话能否加一下,不会耽误太多时间,非常感谢!
The text was updated successfully, but these errors were encountered: