中研院資訊所陳孟彰老師的計劃,檔案是icorpus.json
。自2008-11-06開始到2016-02-15結束,收集3266篇新聞,攏總83544句。算標點符號,台語504037詞、1030671字,華語501202詞、1028218字。
計劃結束後,若有錯誤修改,囥佇icorpus.yaml
。
- 先揣適當的新聞
- 鉸做合理的長度
- 修正錯字
- 接著查辭典
- 把文章放到資料庫
- 接著檢查斷詞部分
- 接著檢查翻譯的部分
- 然後還要整篇再看一次
開的時間,前後加起來不只四小時
本著作係採用創用 CC 姓名標示-非商業性-相同方式分享 4.0 國際 (CC BY-NC-SA 4.0) 授權條款授權。
授權人:中央研究院 資訊科學研究所 陳孟彰研究員
程式部份用MIT授權。
virtualenv --python=python3 venv
. venv/bin/activate
pip install -r requirements.txt
走django
python manage.py runserver
訓練翻譯模型
python 文章/模型訓練/臺華新聞做語料.py
python 文章/模型訓練/摩西模型訓練.py
走翻譯服務
python 文章/摩西服務.py