《中文信息处理》复习提纲
第一章汉字信息处理
一、填空:汉字的属性信息包括字量、字频、字序、字形、字音。二、现代汉语用字排列的顺序1、义序法2、音序法3、形序法三、GB2312-80:中国《信息交换用汉字编码字符集基本集》四、什么是汉字字形识别输入?也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。(1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。(2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。一般限制为楷书,笔画数要正确,要写于方格中。六、汉字识别的基本思想与步骤。1、汉字识别的基本思想是匹配识别。2、步骤:第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。七、汉字语音识别输入的定义。
1
汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语言特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。八、语音识别的类型1、按使用人分类,有特定人语音识别和非特定人语音识别(1)特定人语音识别指使用前由使用者对r