1参赛队选择的题号信息与编号
A选题阅卷编号
B
∨
C
注:选题在对应的题号下打∨。阅卷编号由阅卷组老师在阅卷前填写。2参赛队员信息
队员1姓名学号学院专业年级签名陈英豪2012211192经济管理学院
队员2张彦军2012211046经济管理学院
队员3杨哲2012211050经济管理学院工程管理2012级
信息管理与信息工程管理系统2012级2012级
注:学院填写学校规定统一的各个简称(如通信学院、理学院、自动化学院等)。年级为入学年级(如2013级等),队员签名(签名一定要手写)表示遵守下面的承诺书。
承
诺
书
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、
f基于beBruij
图的基因组装算法
摘要快速和准确地或其生物提的遗传信息对生命科学研究具有重要的意义。测序技术从第一代到现在普遍应用的第二代以及正在兴起的第三代,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获得整个DNA片段,需要把这些片段利用重合部分信息组装连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。新型测序技术使以往的基于重叠图的拼接算法不能胜任,本文中,提出了一种新的重叠群生成算法。该算法基于debruij
图,将从多头测序转化成在debruij
图的欧拉路径问题,并采用启发式搜索,能够快速地处理海量测序数据,而且能得到质量较高的重叠群。本文详细叙述了算法的逻辑原理以及实现过程。确定kmer长度后,将这些kmer存入debruij
图中。debruij
图用哈希表储存,发现重叠关系式并不需要所有read之间进行两两比对,只要寻找debruij
图或子图中的一条欧拉路径就可以找到co
tig。以初始kmer为节点,采用贪婪策略获得质量较高的后继kmer,保证了co
tig的高质量拼接,从而还原基因组。本算法较为成功的弥补了新一代测序方法带来的一些弊端,在有限时间内对大数据的处理存在较大优势。但由于一些客观原因,对一些测序误差没有做到有效控制。最终在第二问的实践中也获得了质量较高的co
r