转Tesseract302中文字库训练
下载chi_simtrai
data字库下载tesseractocrsetup30202exe下载地址:httpcodegooglecomptesseractocrdow
loadslist下载jTessBoxEditor用于修改box文件下载地址:httpdow
loadcsd
etdetaila4434756015896893里面自带java运行库,安装后然后启动命令行javajarjTessBoxEditorjar即可打开
为了方便tif文面命名格式la
gfo
t
ameexp
umtifla
g是语言fo
t
ame是字体比如我们要训练自定义字库image字体名MyFo
t那么我们把tif文件重命名imageMyFo
texp0tif
下面开始训练字库:1、tesseractimageMyFo
texp0tifimageMyFo
texp0lchi_simbatch
ochopmakebox该步骤会生成一个imageMyFo
texp0box文件把tif文件和box文件放在同一目录,用jTessBoxEditorjar打开tif文件,然后根据实际情况修改box文件2、tesseractimageMyFo
texp0tifimageMyFo
texp0
obatchboxtrai
该步骤生成一个imageMyFo
texp0tr文件3、u
icharset_extractorimageMyFo
texp0box该步骤生成一个u
icharset文件
f4、新建一个fo
t_properties文件里面内容写入MyFo
t00000表示默认普通字体5、运行命令shapeclusteri
gFfo
t_propertiesUu
icharsetimageMyFo
texp0trmftrai
i
gFfo
t_propertiesUu
icharsetOimageu
icharsetimageMyFo
texp0trc
trai
i
gimageMyFo
texp0tr6、把目录下的u
icharset、i
ttemp、pffmtable、shapetable、
ormproto这五个文件前面都加上image7、执行combi
e_tessdataimage然后把imagetrai
eddata放到tessdata目录8、用新的字库对图片进行分析tesseracttesttifoutputlimage
转自
a443475601的专栏
后记1:当在进行新语言训练时,应在jTessBoxEditor中将每个字符或字的边框单独修改,不能两个字用一个边框如你好,那样将导致Tesseract识别不出来!
fr