转录组ref流程工作手册
一、Refere
ce流程生物学原理
11实验流程
图一转录组实验流程
当我们得到样品时必须对其测序才能得到分析所需的数据。测序基本过程提取样品总RNA后用带有OligodT的磁珠富集真核生物mRNA若为原核生物则用试剂盒去除rRNA后进入下一步。加入fragme
tatio
buffer将mRNA打断成短片段以mRNA为模板用六碱基随机引物ra
domhexamers合成第一条cDNA链然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成第二条cDNA链在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复并连接测序接头然后用琼脂糖凝胶电泳进行片段大小选择最后进行PCR扩增使用建好的测序文库进行测序。
得到RNA的序列后又可以找到它的参考序列物种本身的基因、基因组
f时可以用refere
ce流程对数据进行详细的分析。Refere
ce后面所有的流程都是基于参考序列进行的所以选择正确的参考序列十分重要。
12信息分析流程
得到测序序列后即可利用比对软件将所测序列比对到参考基因或基因组上并进行后续分析信息分析流程图如下
图二转录组信息流程
121原始fq序列简介
测序得到的原始图像数据经basecalli
g转化为序列数据我们称之为rawdata或rawreads结果以fastq文件格式存储fastq文件为用户得到的最原始文件里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述
readID
TGGCGGAGGGATTTGAACCC
f
bbbbbbbbabbbbbbbbbbb
每个序列共有4行第1行和第3行是序列名称有的fq文件为了节省存储空间会省略第三行“”后面的序列名称由测序仪产生第2行是序列第4行是序列的测序质量每个字符对应第2行每个碱基第四行每个字符对应的ASCII值减去64即为该碱基的测序质量值比如h对应的ASCII值为104那么其对应的碱基质量值是40。碱基质量值范围为0到40。表1为Solexa测序错误率与测序质量值简明对应关系具体计算公式如下
Qphred10log10e
表1Solexa测序错误率与测序质量值简明对应关系
513M
120T
0130
00140h
122原始fq序列处理
某些原始序列带有adaptor序列或含有少量低质量序列。我们首先经过一系列数据处理以去除杂质数据得到Clea
reads。
按如下步骤进行处理
1去除含adaptor的reads
2去除N的比例大于10的reads
3去除低质量reads质量值Q5的碱基数占整个read的50以上
4获得Clea
reads
原始序列数据经过去除杂质后得到的数据称为Clea
reads后续分析都基于Clea
reads
123比对
使用短reads比对软件SOAP2SOAPalig
erLi2009155将clea
reads分别比对到参考基因组和参考基因序列允许两个碱基错配。
通过这一步骤我们可以将测序得到的reads对应到基因及基因组r