Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
configs		configs
map		map
models		models
tb/single_pld_prob_ldchange		tb/single_pld_prob_ldchange
test		test
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
args.py		args.py
data.py		data.py
main.py		main.py

Repository files navigation

ocr post-correction

问题备注

对于OCR的预测结果，做进一步的矫正处理

研究思路

多模型预测出的结果，进行互补操作
对于预测出的结果，结合自然语言处理的方法，将单个字，与其前后联系起来，而不是单独进行考虑

数据

训练数据

模型的训练数据，选取了常用字，标点符号，数字字母等共计3900个，作为字库，基于此，通过图像处理的方法，自动生成多样性的单字图片数据

预测数据

法律的卷宗pdf扫描件，挑选分辨率较高的来做

采用方法

存在问题

About

OCR

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%