【生物信息学第二章GenBank序列数据库】-全球旧事资料库

生物信息学第二章GenBank序列数据库

第二章Ge
Ba
k序列数据库简介
一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯，以致于我们很少会去考虑这些普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的，这将有助于我们加深对生物学的理解，并且能够更加充分地发掘这些记录中蕴藏的信息。Ge
Ba
k是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组：有些按照系统发生学划分，另外一些则按照生成这些序列数据的技术方法划分。目前Ge
Ba
k中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。Ge
Ba
k由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立，与日本DNA数据库（DDBJ）以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库（EMBL）一起，都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交，而三个中心之间则逐日交换信息，并制作相同的充分详细的数据库向公众开放（虽然格式上有细微的差别，并且所使用的信息系统也略有不同）。这一章描述Ge
Ba
k数据库是如何构成的，它如何与蛋白质数据库相衔接，以及如何解释其中的数据成分。关于序列数据库，前人已经作了大量的工作，具体可参见（Schuleretal1996Bairocha
dApweiller1997Be
so
etal1997Georgeetal1997Stoesseretal1997Tate
oetal1997）。所有这些论文都指出了数据库快速增长的趋势，并对如何利用这些生物学资源提出了建议。出于科学研究的考虑，以及由于历史的原因，序列数据被分别存放在核苷酸和蛋白质数据库中。核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点，并且目前有一种趋势，将核苷酸数据库介入到蛋白质数据库的管理之中（正如我们下面将要看到的那样）。这并不奇怪，因为数据库维护者与数据提交者之
f间的直接通讯将有利于保证数据的真实性与准确性（提交者需要一个检索号，并且他们想要得到他们添加到数据库中的新记录）。在很多情况下，这种对数据的关注意味着提供适当的信息来注释CDS（codi
gseque
ce：编码序列），并告诉我们如何得到翻译产物。这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的E
trez之中，在Ge
Ba
k的管理之中，以及在Ge
Pept格式记录的生成过程之中。在欧洲，EBI的工作人员统一维护r