dna序列的聚类问题

dna序列的聚类问题

ID:13002985

大小:1.01 MB

页数:17页

时间:2018-07-20

dna序列的聚类问题_第1页
dna序列的聚类问题_第2页
dna序列的聚类问题_第3页
dna序列的聚类问题_第4页
dna序列的聚类问题_第5页
资源描述:

《dna序列的聚类问题》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、DNA序列的聚类问题DNA序列分类问题不同于传统的聚类问题,它本身有其特殊性和复杂性[12]。特殊性是指DNA序列片断只是由4个字符A、T、C、G组成的串。复杂性是指已知分类的DNA序列数据不等长度。即使等长度,由于其作为字符串长度很大,也不能直接通过数学运算进行分类。如果采用数学方法研究DNA序列分类,首先要把DNA序列用一个向量数据表示,即进行DNA序列特征(聚类要素)提取。向量型数据对应着DNA序列特征。不同的特征提取方法有不同的特性,它将很大程度上影响聚类的结果,所以我们选取的方法必须符合实际要求的特点。已有的DNA序列特征提取方法有下面几种:

2、顾俊华等在《模糊聚类分析方法在DNA序列分类中的应用》[15]一文中使用的基于4种碱基的丰度[13]的方法,即采用序列中的碱基A、T、C、G的含量百分比作为该序列的特征,从而将DNA序列特征构造为四维向量,进而聚类分析。岳晓宁等在《基于聚类分析的DNA序列分类研究》[16]一文中利用生物学中密码子(三联子)的概念,以密码子的含量作为DNA序列的特征。具体作法:统计每个DNA序列中aaa、aat、aac、aag、……、ttt出现的个数,这样DNA序列由一个64()维的向量表示。这样64维序列又有三种解读方式:对于一个给定的DNA序列,分别从开始的1、2、

3、3号位置分别截取产生三种不同的表示。如序列aggcacggaaaa可分成(agg)(cac)(gga)(aaa)或(ggc)(acg)(gaa)或(gca)(cgg)(aaa)。这3种不同的截法所产生三种不同的密码信息,需要对其进行处理。周玉元等在《DNA序列分类的Fisher判别法》[17]一文中,由生物学和生物化学知识,用碱基互补配对原则,将64个密码子对应20种氨基酸和一类终止信息,这样DNA序列可用一个21维向量来表示,从而突出生物特征、降低了维数。采用碱基丰度提取特征的方法缺点很明显,即很可能出现不同类别的DNA序列有着相同的判别特征,也就是

4、说它们的各种碱基含量是相同的,导致标记它们的4维向量也是相同的,没有考虑到DNA序列中字符的顺序结构。根据生物工程理论,A、T、C、G看成四个独立结构单元,它们在DNA链上排列的顺序称为碱基序列。DNA根据碱基序列可以转录成RNA,RNA可翻译成蛋白质,所以用三个碱基为一组的碱基组(即密码子)出现频率作为分类的标准是可以反映生物学意义的。本文在已有的研究基础上,将基于密码子的DNA序列聚类方法应用于更大量的数据,从而进行验证,并对结果提出分析。其后,在基于密码子的DNA序列模糊聚类分析的基础上,提出另一种DNA序列判别特征的提取方法——基于向量距离的D

5、NA序列模糊聚类分析,进而考虑DNA序列的排序性,挖掘DNA序列中的更多性息,提高DNA序列分类的准确性和客观性。第一节基于密码子的DNA序列模糊聚类分析基于本章第一节的数据,现将先以三个碱基为一组(密码子),提取其百分含量构成64维向量,再由这64维向量作为一个DNA序列的数据表征(即聚类要素),然后用模糊聚类的一般方法进行聚类分析。一、基于密码子的DNA序列判别特征提取现在用数学的语言描述上述问题:A、T、C、G为DNA的四种碱基,将64种密码子按1,2,3,…,64依次编号,编号顺序为aaa,aat,aac,aag,ata,att,atc,atg

6、,…,aga,agt,agc,agg,taa,tat,tac,tag,tta,ttt,ttc,ttg,…,gga,ggt,ggc,ggg;三种不同解读DNA序列的方式是指分别从开始的1、2、3号位置分别截取连续的三个碱基,后面则依次截取密码子(3个连续的碱基),从而产生三种不同的表示。例如:人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa,三种不同解读为(agg)(cac)(gga)(aaa)和a(ggc)(acg)(gaa)aa和ag(gca)(cgg)(aaa)a;表示人工制造DNA序列的第号序列;表示按三种不同解读方式得到的第

7、号序列中含有第个密码子的个数;表示按三种不同解读方式得到的第个密码子在第号序列中平均百分含量,即第个密码子在第号序列中出现的频率;表示按三种不同解读方式得到的第号序列中含有密码子的总数。则有如下关系可以提取DNA序列的判别特征:,其中由于数据的庞大,本文借用了计算机作为辅助工具,从而处理复杂的数据。文中以VisualC++6.0软件为平台,在其上逻辑编程,实现数据处理。对于三种不同解读DNA序列的方式,本文提出了转化,这样可以便于计算机的实现。如上例,人工制造DNA序列的第1号序列前12个碱基为aggcacggaaaa,三种不同解读为(agg)(cac

8、)(gga)(aaa)和a(ggc)(acg)(gaa)aa和ag(gca)(cgg)(aaa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。