【语料库与语料库建设】-全球旧事资料库

语料库与语料库建设

的。
语料库的内容。如果说规模是针对量的问题，那么，内容就是要解决质的问题。对于内容，最根本的是要真实，它包括两个方面，1、要收集实际使用中的文本，而不能是研究者杜撰的；2、要收集符合条件的文本。如要建立的是学习者语料库，要分析的是学生的真实语言能力，就不能把学生抄袭书本的东西收进来。
（二）具体实施
1、语料的搜集
现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的语料库建设，
语料输入工作极为浩繁，基本上靠手工键盘输入和扫描输入，费时费力，且容易出现错误，需要校对。如今大量的在线语料资源、光盘资料、因特网资源，包括新闻、邮件列表、电子邮件等，使语料库的建设和扩充变得非常快捷方便。
当然，用于不同研究目的的语料库对其语料来源可能要求不同，会影响到语料的采集。
2、抽样
语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡，要考虑每一文类、体裁、
语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性。目前，计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围，再就是确定语料的分层结构，进行分层抽样，如把语料按文类（如小说、新闻报道、科学论文、法律文书、诗歌、散文等）和信道（如书面语和口语）进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。
3、语料库的加工
f文本输入计算机后，一般需要进行一些加工，主要包括语料的标识和语料的赋码。
1）语料库的标识
标识主要分两类：一类是对文本的性质和特征进行标识，另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息，包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的，因为它们可以用来对文本进行必要的分类，为灵活提取文本进行各类目的研究提供便利，而且它们可以标注在文本开头或者作为另一个文件保存，丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应用的目的而定。但不管怎样，保存一份未标识的原文本是很有必要的。
2）赋码
一些研究不需要赋码语料库，而有r