全球旧事资料 分类
局部再从局部到整体的思路来说明这种识别手写体汉字的思想。如图11中的汉字,与平常的手写体汉字的复杂环境有一定的相似性。
图11对于一个普通人而言,能很快的识别出其中的内容:“中国最长的河流是长江”“中国最长的河流是长江”“钟国最长的河流事长工”同样我们也能很快的识别出其中“钟”和“事”以及“工”是错别字,同样那条红线与文章的内容没有任何的联系。下面我们采用一些常用的ocr识别软件将图11进行文字识别,结果如图12所示
3
f图12当然,这只是很普通的一款脱机软件,效果惨不忍睹,但是由此却更加证明了当前手写体文字识别效果很差,或者说在复杂情况下的汉字识别效果并不很好。与当前汉字识别的步骤相似,我们先做的也是版面分析。本文撇开图表等暂时不谈,只说纯汉字识别时的版面分析。首先,我们应该确定的是整个文字区域的范围,如同人在看到一篇手写文字的时候,首先看的是哪些地方是文字的主要区域。如在图13所示的简单分栏环境中,一段文字分分为三栏。
图13有ocr识别软件识别如图14
图14很明显,在版面分析时简单的把文字分为严格的水平单行排列,或者竖直单列排列的形式是不能够应付稍复杂的汉字环境的,更加不用说手写体的汉字环境。人眼在识别汉字的时候,首先是找到整个文字的区域的,一般不会把上述分栏中的某一栏作为文字识别的主要区域。所以提高识别率的第一步就是用更加贴近人思维的算法来解决纯文字的版面分析问题。在我看来,所有文字分布区域的可以从字符的密度,字符的边界以及用现有
4
f的文字方法识别出的文字之间的词语组成关系、句子组成关系等等来确定,同时在区域之内用同样的方法识别出每一个相对独立的文字块。识别出了文字块之后,然后再进行每一个文字块中文字排列方式的判断。对于现有的识别算法,对于文字排列方式的判断可以说是个弱点,很多算法在这方面功能都十分的弱。如上面图12的识别效果一样,甚至连当前文字的排列方式都弄不清楚。从人工智能的角度出发,人在确定当前文字的区域之后,首要的并非立刻从行或者从列进行阅读,而是找到当前文字排列的规律。在具体的特征处理方面我认为按照某一个方向进行投影的方式是不会有非常好的效果的,要想得到更高的识别率,可以从文字本身的二维性出发。首先我认为应该通过密度和空格等判断确定每一个汉字所在的位置。然后用现有的方法进行一个初步的汉字识别,同时记录下当前所有的汉字以及它们具有的位置r
好听全球资料 返回顶部