https://dc.cloud.alipay.com/index#/topic/data?id=3
- 合并训练集
- 繁体转简体
opencc -i atec_nlp_sim_train_all.csv -o atec_nlp_sim_train_all.simp.csv -c t2s.json
- 生成繁体转简体字典
- 分词保存
- 分析标签分布
- 分析句长分布
- 10折得训练集和验证集
- 形成语料库:字级别和词级别
min_count=2,embedding_size=300,epochs=15,window_size=8,x_max=10
- glove+atec
- fastext
- glove+atec
- fasttext
与全局训练数据中min_count=2的vocab进行比较!
- glove+atec
- fastext
- glove+atec
- fasttext
在训练集中词频数不小于2且在词向量词汇中的词使用对应词向量;
在训练集中词频数不小于2但不在词向量词汇中的词随机初始化,该情况记作编号1;
在训练集中词频数小于2的当作随机初始化,该情况记作编号2。
static:词向量在模型训练过程中保持不变;nonstatic:词向量在模型训练过程中一起训练。
- 词级:nonstatic
- 字级:nonstatic
- 词级:static+1&2trainable
- 字级:nonstatic
- 词级:static+1&2trainable
- 字级:static+1&2trainable
Evaluating with file: data/atec/10/train0.csv, local dict: data/atec/10/train0-2-2.json...
Evaluating with file: data/atec/10/valid0.csv, local dict: data/atec/10/train0-2-2.json...
reuse |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
False |
2490441 |
68 |
0.50 |
0.6688 |
0.5360 |
0.40 |
0.6861 |
0.5533 |
True |
1638693 |
37 |
0.50 |
0.7044 |
0.5426 |
0.35 |
0.7051 |
0.5560 |
dropout |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
0.05 |
1638693 |
37 |
0.50 |
0.7044 |
0.5426 |
0.35 |
0.7051 |
0.5560 |
0.1 |
1638693 |
37 |
0.50 |
0.7076 |
0.5447 |
0.40 |
0.6955 |
0.5562 |
0.2 |
1638693 |
29 |
0.50 |
0.6409 |
0.5269 |
0.30 |
0.6694 |
0.5653 |
0.4 |
1638693 |
42 |
0.50 |
0.6824 |
0.5489 |
0.40 |
0.6855 |
0.5607 |
dropout |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
0.1 |
505941 |
44 |
0.50 |
0.6940 |
0.5533 |
0.40 |
0.6982 |
0.5725 |
0.2 |
505941 |
67 |
0.50 |
0.7085 |
0.5583 |
0.50 |
0.7085 |
0.5583 |
0.4 |
505941 |
96 |
0.50 |
0.6294 |
0.5277 |
0.50 |
0.6294 |
0.5277 |
词向量 |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
atec+atec |
505941 |
44 |
0.50 |
0.6940 |
0.5533 |
0.40 |
0.6982 |
0.5725 |
atec+wc |
505941 |
54 |
0.50 |
0.7298 |
0.5520 |
0.45 |
0.7241 |
0.5616 |
wc+wc |
505941 |
37 |
0.50 |
0.7039 |
0.5486 |
0.45 |
0.6927 |
0.5497 |
dropout |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
0.1 |
407381 |
44 |
0.50 |
0.6865 |
0.5716 |
0.50 |
0.6865 |
0.5716 |
0.2 |
407381 |
55 |
0.50 |
0.6619 |
0.5635 |
0.60 |
0.6776 |
0.5708 |
0.4 |
407381 |
191 |
0.50 |
0.5803 |
0.5067 |
0.75 |
0.6880 |
0.5571 |
词向量 |
num_params |
epoch |
threshold |
t_f1 |
v_f1 |
threshold |
t_f1 |
v_f1 |
atec+atec |
407381 |
44 |
0.50 |
0.6865 |
0.5716 |
0.50 |
0.6865 |
0.5716 |
atec+wc |
407381 |
54 |
0.50 |
0.6935 |
0.5778 |
0.55 |
0.6936 |
0.5783 |
wc+wc |
407381 |
55 |
0.50 |
0.7396 |
0.5711 |
0.50 |
0.7396 |
0.5711 |