這裡存放我的研究:修正未切換注音輸入法產生之字元,中使用的程式碼。
- 將
config_example.json重新命名為config.json - 在
config.json中填入 Discord Bot Token - 執行以下指令安裝所需套件
pip install -r requirements.txt - 執行
bot.py
依自身情況修改 train_XXX.py 中 get_datasets_and_tv 的參數以及其他模型參數,並執行 train_XXX.py
- 確認模型已訓練好且位於正確的目錄下
- 依自身情況修改
translator_XXX.py中model的值,並執行translator_XXX.py
GRU 以及 LSTM 模型共用
translator_RNN.py,修改model值即可
mT5 模型相關檔案為 Jupyter Notebook
https://gallen881.github.io/bopomofo2hanzi/
TED: https://www.kaggle.com/datasets/wahabjawed/text-dataset-for-63-langauges
PTT: https://github.com/zake7749/Gossiping-Chinese-Corpus