轻松学用生物软件1学用BLAST程序进行数据分析
主要内容
1基本概念2常用BLAST程序介绍3BLAST算法简介4BLAST常用参数设置5本地BLAST的安装步骤6本地BLAST的使用1、基本概念相似性Similarity是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。同源性Homology是指从某一共同祖先经趋异进化而形成的不同序列。只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。
相似性和同源性的关系当相似程度高于50时,比较容易推测检测序列和目标序列可能是同源序列;
f而当相似性程度低于20时,就难以确定或者根本无法确定其是否具有同源性。总之不能把相似性和同源性混为一谈。所谓“具有50同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。
序列相似性比较和同源性分析
序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有Phylip及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。常用算法如:Needlema
Wu
schalgorithmNeedle在线程序如:Needle局部比对寻找序列在局部区域的最高比对打分。常用算法如:SmithWaterma
algorithm,blastfasta等在线程序如:WaterNeedle及Water的在线程序
fhttpbioweb2pasteurfralig
me
ti
troe
html也可以本地安装Emboss执行以上程序
局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。通过以上两个基本概念我们应明白BLAST属于一种局部比对程序,最终比对出的结果是序列之间的相似性。BLAST程序常用的两个评价指标Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。Evalue:BLAST程序在搜索空间中可随机找到获得这样高分的序列的可能性期望值,因此Evalue越高,则代表结果越有可能是随机获得的,也就越不可信。搜寻空间大小约略等于查询序列的长度乘以全部database序r