全球旧事资料 分类
从人工智能角度看手写汉字识别
姓名:王刚班级:计算机学院2011级创新班学号:111101003邮箱:1935590190qqcom摘要模式识别发展至今已有数年,计算机文字识别是模式识别的一个重要领域。文字识别发展至今,在印刷体识别、仅有数字和英文字符的识别方面已经有足够高的识别率。然后在手写的汉字识别方面识别率却一直不高,为了提高手写体汉字的识别率可以从人工智能的角度结合现有的识别算法来做一定改进,以提高汉字的识别率。关键词文字识别识别率人工智能
引言计算机文字识别,俗称光学文字识别,其英文术语为OpticalCharacterRecog
itio
缩写为OCR,是指通过计算机技术及光学技术对印刷或书写的文字进行自动的识别,达到认知的目的,是实现文字高速自动录入的一项关键技术。到目前为止,汉字OCR是模式识别技术的一个分支,其主要目的是将汉字(手写体与印刷体)自动读入计算机。而手写文字识别技术,是指通过计算机来识别手写文字的一种识别文字的技术。近年来脱机手写体汉字的识别已经有了很大的发展。但是由于受手写体汉字书写风格因人而异等因素的影响使得脱机手写体汉字识别难以接近人类识别汉字的准确性、灵活性和容错性。现有的算法各有各的优势,但是多数算法集中于单个汉字的识别,对于全局的掌控较弱。从人工智能的角度出发,研究人们识别手写体汉字时候的思路,然后就这种思路来改进现有的算法,提高手写体汉字的识别率是很好的一个方向。一、OCR技术的发展OCR概念的诞生,要早于计算机的问世。早期的OCR多以文字的识别方法研究为主,识别的文字当时仅为09这几个数字。后来随着计算机的出现和发展,OCR研究才在全球范围内广泛研究和发展。OCR发展至今,可分为三个阶段:1、第一代OCR产品出现于60年代初期,在此期间,IBM公司、NCR等公司
1
f分别研制出了自己的OCR软件,最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字,英文字母及部分符号,而且都是指定的字体。60年代末,日立公司和富士通公司也研制出了各自的OCR产品。2、第二代OCR系统是基于手写体字符的识别,前期只限于手写体数字,从时间上来看,是60年代中期到70年代初期。1965年IBM公司研发出IBM1287,并在纽约世界博览会上展出,开始能识别印刷体数字、英文字母及部分简单的符号。第一个实现信函自动分拣系统的是东芝公司,两年后NEC公司也推出了这样的系统,到1974年,分拣率达到9293。3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集r
好听全球资料 返回顶部