的识别,例如汉字的识别。1966年,IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字,到了1977年,东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。我国在OCR的研究方面起步相对较晚,70年代开始进行数字、英文及符号的识别研究,70年代末开始进行汉字的研究,到1986年,汉字的识别进入了一个具有成果性的阶段,不少单位推出了中文OCR产品。到目前为止,印刷体汉字的识别率达到了98以上,手写体的识别率也在70以上,并且可对多种字体、不同字号混排识别,国家“863”计划对该方面的研究给予了很大的资助。目前,我国正在争取实现OCR产品识别精度更高、识别速度更快,能同时支持单机和网络操作,使得使用更方便,应用更广泛,达到不同用户的使用要求。二、汉字的识别方法对于文字的识别,从文字类型上划分,通常分为印刷体文字的识别和手写体文字的识别;从识别的方式划分,通常分为在线识别和脱机识别。由于印刷体与手写体的文字特征差异较大,所以在软件识别上,其处理方法是不同的。下图描述了文字识别系统的组成
预处理特征抽取特征选取特征匹配
模式输入
输出结果
模型字符特征
图1文字识别系统组成图字识别的特征提取通常有两类特征,一是将汉字图像进行统计计算后得到的数量特征,比如将图像向多个方向投影,以投影后的像素密度作为特征;二是将汉字的笔画分解,根据对汉字结构的认识提取有效的特征点,再编码成数字特征。在提取特征以后,每个字就成了一个由特征向量代表的样本,识别一个字就是要
2
f在所有可能的字中判断当前的样本是哪个字,属多类分类问题。分类器的建立除了要利用样本训练,还需要结合对文字结构的认识(比如旋转和尺度不变性)才能得到更好的识别效果。与语音识别类似,OCR在单字识别后往往还需要根据语言模型进行上下文匹配等后处理,才能达到更理想的效果。而在单字识别前,对扫描稿件的版面分析、字符分隔等是重要的预处理步骤。与离线的手写文稿识别相比,联机的手写文字识别能有效地提取和利用笔画信息,因而可以取得更好的识别效果,目前已经发展为很多手机和掌上计算机的基本配置。这两种提取特征的方法衍生出了许多的算法,并且它们发展至今已经有较好的识字率。三、从人工智能角度看手写体汉字识别从人工智能的角度出发,我们首先不必不应该纠结于每一个字的识别。应该从人识别汉字的思路来加强现有的算法。本文重点就从人识别汉字时候,从整体到r