blast结果如何分析

来源:学生作业帮助网 编辑:作业帮 时间:2024/04/27 23:58:58
blast结果如何分析

blast结果如何分析
blast结果如何分析

blast结果如何分析
Blast比对结果中,Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1588个碱基中只有3个不配,其他99%相同,同源性相当好几乎是一样的;Gaps是指多出或少的碱基或缺失的碱基数;Strand=plus/plus指两条序列方向相同,如果是plus/minus,即意味着一条是5'到3',一条是3'到5',或一条是正向,另一条是反向序列.具体的一些指标的定义或计算方法可以参考有关的生物信息学教材.|||因为Blast采用另一种统计方法,其典型的输出结果并不需要柱状圆,但仍包括相似序列的清单与并列分析的结果.在相似序列的清单中的Highscore是这一相似序列中最相似的区域之得分,这是一个与FastA非常不同之处.在FastA中,会插入空隙以连接数个相似区(对角线),因此在最後会列出「一个」最相似的区域.Blast并不试图连接各相似的片段,换言之它不允许空隙的存在,所以它会计算每一个相似区的得分,并将此序列中得分最高的片段的分数列出.HSP(High-scoringSegmentPair)仅代表一些分较高的片段,它们单独存在时或许无法通过统计上的测验,可是数个连在一起,则通过测验,在清单中的「Smallestsumprobability」就代表将数HSP连在一起之後之统计资料.其中N代表所参与的HSP的个数,P(N)代表在给定条件的搜寻中,找到与highscore得分相同或更高分的片段的机率.每一个蛋白质的长度不同,即使得分相同,其机率也不相同.在相似序列的排列顺序上,并不是根据得分排序,而是根据机率排序,所以有些得分较高的序列反而被排在後面,对蛋白质的比较来说,机率小於0.02就被认为是同源的.因为程式预设保留250个序列,若被认为有意义的序列超过此数字,程式会自动警告你.如果被认为有意义的序列总数超过1000,可能是在序列中有一些重覆序列,必须将其滤掉,以免干扰搜寻的结果.|||认为是同源的.因为程式预设保留250个序列,若被认为有意义的序列超过此数字,程式会自动警告你.如果被认为有意义的序列总数超过1000,可能是在序列中有一些重覆序列,必须将其滤掉,以免干扰搜寻的结果.|||Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1588个碱基中只有3个不配,其他99%相同,同源性相当好几乎是一样的;Gaps是指多出或少的碱基或缺失的碱基数;Strand=plus/plus指两条序列方向相同,如果是plus/minus,即意味着一条是5'到3',一条是3'到5',或一条是正向,另一条是反向序列.|||因为Blast采用另一种统计方法,其典型的输出结果并不需要柱状圆,但仍包括相似序列的清单与并列分析的结果.