些研究需要赋码语料库。
当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。
词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如E
glishma
,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD代表动词的过去式,如wrote、saw,以VBG代表动词的现在分词形式,如readi
g、eati
g,以VBN代表动词的过去分词形式,如writte
、see
,等等。目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在9697左右。
句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。
词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,为进一步的语义、语法和语用分析等打下了基础。
4、语料库引擎
通常意义上的计算机语料库一般包括语料库本体(即语料库电子文本)和语料库引擎(即
语料库索引程序)两个部分。
索引工具的基本功能包括词频统计、词表生成、语篇统计、关键词索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、词图统计等等。
网上提供了一些可以利用的工具软件,包括MicroCo
cord、WordsmithTools、TACT、Co
corda
ce113、TECCo
corda
ci
gTools具有提供词
f语索引、搭配词表以及各词语索引行的扩展语境的功能,允许用户把索引结果存储在自己的硬盘上。
MicroCo
cord可进行带语境的关键词索引。利用它可以观察关键词所在语篇,获得左右搭配词表。
WordsmithTools具有下列功能:1)生成词表、可按词频、字母顺序分别排列,并提供各种统计信息;2)关键词提取。可进一步统计分析关键词在语篇中的分布,再生成该语料库的主要关键词,还可以查出某一关键词的联想词汇。3)提供词汇词语型式表和搭配词位置分布等极有价值的信息,使研究者可以从多种角度对词汇运用进行分析。4)查询结果可以很方便地转换为表格形r