具,是由AltschulSFetal1990提出的一种算法。BLAST的基本步骤将待检索序列分割成长度为w的连续子串快速找出数据库中所有与固定长度w完全配对的位置以此位置为起点进行延伸比对,并计算出最高分数将最高分标准化,并按此分数进行排序换算成期望值EVALUE显示出符合Score及Evalue的序列
f4、BLAST常用参数设置在NCBI进行BLAST的操作程序非常简单,只要将你的序列贴进去,点几下鼠标就会得到结果,但是如果能正确的修改一下BLAST的参数,可能你会得到更好的结果!以下我们一起讨论一下如何来修改BLAST的参数!BLAST的具体过程:登陆NCBI的BLAST主页httpwww
cbi
lm
ihgovBLAST根据序列类型及目的选择合适的程序填写表单信息提交任务查看和分析结果BLAST程序的选择在BLAST程序选择上,应尽可能地利用blastp从蛋白质水平进行检索,然后用blastx、tblast
、tblestx从DNA或蛋白质翻译水平进行检索,最后才用blast
进行DNA水平进行检索。当然如果为非编码序列只有采用blast
进行检索。Evalue的设置如果检索的序列较短,可适当的提高E值否则可能会找不到目的序列,反之如果序列较长可适当提高E值。通常无论是从DNA水平,还是蛋白质水平进行检索,E值设为1通常可满足要求。Wordsize的选择
fBLAST算法将查询序列分割成一系列具有字段长度的小的序列段进行因此当此值越小得到的搜索结果越多,但假阳性也越多,数据库搜索,服务器负担也越重。对于蛋白质搜索窗口大小可设置为3或2默认为3;对于核酸搜索,默认的字段长度是11,可选择7,11或15。因此如果你对搜索的结果不满意时可以试着降低Wordsize的值。打分矩阵的选择比对所选用的记分矩阵对最终结果影响也很大。一般高值BLOSUM矩阵和低值PAM矩阵最适合于研究近相关的蛋白质序列。低值BLOSUM矩阵和高值PAM矩阵最适合于研究远相关的蛋白质序列。一般情况BLOSUM62检测各种蛋白的效果比BLOSUM60和BLOSUM70稍好,比PAM矩阵好得多。在BLAST五个程序中只有BLASTN不需要这些矩阵,搜索时不必选定。空位罚分的选择严谨的罚分很难将本来很相似的序列对准;而松弛的罚分甚至可以使两个无关的序列达到100的相似性。一般情况下程序默认的空位罚分111基本能满足检索要求,但对具体的查询序列,采用不同的空位罚分方法会取得不同的检索效果。低复杂区域及重复区域的处理无论是DNA序列类似性检索,还是蛋白质序列类似性检索,一般都应该去除查询序列中的低复杂区域。
f就蛋白质序列检索而言,不必去除序列中r