式,并读入到MSAccess、Excel等数据库中进行相关的分析统计。
TACT是一个语料库索引软件包,它具有全文索引、语境中的关键词索引、词表生成、词频统计、搭配词自动提取、语料比较等强大的功能。
Co
corda
ce除了一般文本索引软件所具有的功能外,其独特之处是能够把索引结果自动生成HTML网页,供在线浏览。它是一个独立软件,可利用它对任何语料库文本进行索引分析。
四、目前语料库发展中存在的问题
1、书面语语料库和口语语料库发展不平衡。
大量在线电子语料以及各种以电子媒介发行的电子文本为书面语语料库提供了丰富的语
料资源,使得书面语语料库的建设变得便利起来。相比较起来,口语语料库要落后许多。原因之一是自然语言的口头运用形式需通过一定的技术手段才能够获得,其转写与存储需耗费大量的人力物力。
2、语料库的标注和赋码系统在适用性和统一性方面需要进一步的探讨
现行的赋码系统一般是基于传统语法中对于词类的分析成果,不同研究者的分析结果存
在一定的分歧,采用任何一种分类方案都可能存在偏颇。理想的赋码应是基于语料库自身的统计信息。在赋码格式上各语料库也缺乏标准化和统一化。
3、语料库资源共享困难重重
一个语料库的价值应当是与其被利用的程度成正比的关系。而目前除了有限的几个语料
库能够提供在线索引外,绝大多数已经建成的语料库只在语料库研究者这个小群体中使用,圈外人只闻其名,难见其形,使得花费了大量时间与财力的语料库不能真正实现其价值。许多语言研究者只得自己动手建语料库,这种重复建设造成人力物力资源的极大浪费。而且语料库只有在使用过程中才能发现问题,不断地加以改进。
4、语料库工具软件和文本分析软件的开发与语料库的发展不相适应
语料库工具软件包括词类自动赋码和句法分析软件,文本分析软件指与语料库本体相对
独立的索引软件。目前存在的问题是,各种索引软件重复开发,功能单一,软件的升级速度慢,自由软件少。其原因主要是,1)语料库软件开发不像其它计算
f机软件那样有巨大的商业利益驱动,缺少专业的软件开发人员。目前的语料库软件基本上是靠精通计算机编程技术的语言学家研发的,其技术难以跟上计算机技术发展的步伐。2)大多数语料库软件研究是靠单独作战,缺少团队合作,所以研发周期长,研发的产品难免滞后。
解决这些问题需要语言学和计算机等学科之间的密切合作。
主要参考文献
1.《语料库语言学导论》年
杨惠中主编
上海外语教育出版社2002
2.《语料库语言学》
r