像区域。由于该阶段是解决索书号的区域查找问题,而没有涉及单字切分,因此图像区域的估计允许有一定误差。为了包含完整的索书号以及避免索书号漏检,往往是定位得到的图像区域略大于索书号的真实区域。索书号定位主要存在两个问题:1受不均匀光照和褪色的影响,索书号的纹理特征、颜色特征以及形状特征等有较大的变化,可靠性相对较差;2有的索书号由1个字符串组成,有的索陆号由2个字符串组成,而在索书号的周围附近还会存在其他文字,如出版社名称和作者姓名。因此,将索书号与其他文字相区别比较困难。鹅娅尽
鹌惨茏。
第二阶段:索书号提取是在定位得到的索书号区域中,将索书号字符与周围目标和背景相互分离。通过二值化处理,能将字符与背最相互分离。但由于定位得到的图像区域略大于真实索书号区域,二值化后在索书号字符附近可能会存在一些非字符目标,影响后续的单字切分和识别。所以,二值化后采用连通域滤波进一步消除索书号周围的非字符目标。索书号提取主要存在的问题:1不均匀光照增大了索书号图像的灰度值变化范围。2褪色程度的不同则降低了字符与背景的对比度。3污迹的影响。上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难,而且会改变索书号字符的形状特征,最终影响连通域滤波的性能。丛妈为偾蛏练。
第三阶段:索书号字符切分是将索书号字符串切分成一个个字符,以提供给识别算法进行识别。单字切分的结果如何将直接影响识别结果,而且切分好坏除字符能否正确识别之外,没有较好的判别依据。因此,单字切分往往与字符识别紧密结合在一起。索书号的单字切分可以分为两种情况:非粘连单字切分和粘连字符的单字切分。非粘连单字切分比价容易解决。但质量较差索书号图像二值化处理后,相邻字符可能会发生粘连。而粘连索书号切分存在的主要问题是1粘连字符的切分比较困难:2索书号字符发生粘连有一部分是字符的笔画发生变形所致,如笔划宽度变粗等。即使正确的切分也不一定能够完全修正笔画的变形,即无法通过粘连切分恢复字符的原形。
第四阶段:索书号单字识别。印刷体单字识别的研究已经相当成熟,只是与其他应用领域的文字识别相比,索书号文字的质量较差,存在字符不均匀褪色,笔划残缺以及大面积污迹等问题,
3
f2索书号文字图像分割
复杂背景图像中的文字定位和分割是从图像中获取文字信息的关键步骤,直接影响到后续文字识别的准确性,它在机器人视觉.汽车牌照自动识别,计算r