构建系统进化树的方法步骤

构建系统进化树的方法步骤

ID:33178079

大小:67.50 KB

页数:11页

时间:2019-02-21

构建系统进化树的方法步骤_第1页
构建系统进化树的方法步骤_第2页
构建系统进化树的方法步骤_第3页
构建系统进化树的方法步骤_第4页
构建系统进化树的方法步骤_第5页
资源描述:

《构建系统进化树的方法步骤》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、构建系统进化树的方法步骤1.建树前的准备工作1.1相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”(Altschuletal.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DD

2、BJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST(blastn)-在Search文本框中粘贴检测序列-点击BL

3、AST!-点击Format-得到resultofBLAST。BLASTN结果如何分析(参数意义):>gi

4、28171832

5、gb

6、AY155203.1

7、Nocardiasp.ATCC4987216SribosomalRNAgene,completesequenceScore=2020bits(1019),Expect=0.0Identities=1382/1497(92%),Gaps=8/1497(0%)Strand=Plus/PlusQuery:1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcggggg

8、t60

9、

10、

11、

12、

13、

14、

15、

16、

17、

18、

19、

20、

21、

22、

23、

24、

25、

26、

27、

28、

29、

30、

31、

32、

33、

34、

35、

36、

37、

38、

39、

40、

41、

42、

43、

44、

45、

46、

47、

48、

49、

50、

51、

52、

53、

54、

55、

56、

57、

58、

59、

60、

61、

62、

63、

64、Sbjct:1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58Query:61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120

65、

66、

67、

68、

69、

70、

71、

72、

73、

74、

75、

76、

77、

78、

79、

80、

81、

82、

83、

84、

85、

86、

87、

88、

89、

90、

91、

92、

93、

94、

95、

96、

97、

98、

99、

100、

101、

102、

103、

104、

105、

106、

107、

108、

109、

110、

111、

112、

113、

114、

115、

116、

117、Sbjct:59acacgagcggcgaacgggtgagtaac

118、acgtgggtgatctgcctcgtactctgggataagc118Score:指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0;Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;Gaps:一般翻译成空位,指的是对不上的碱基数目;Strand:链的方向,Plus/Minus意味着提交的序列和参比序列是反向互补的,如果是Plus/Plus则二者皆为正向。1.2序列格式:

119、FASTA格式由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:>E.coli1aaattgaagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaa61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcg

120、gac……>AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc……其中的‘>’为ClustalX默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(AccessionNo.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。