资源描述:
《Genscan的用途》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Genscan介绍刘玮2001.11.1Genscan的用途基因的识别外显子内含子基因间区域转录信号翻译信号剪接信号等等……基因结构基因识别的方法利用同源比对.(blast)基于基因中编码序列和非编码序列区域碱基的统计差异性.根据真核基因的生物结构,建立整体的基因预测模型.(Genscan)GenscanGenscan程序是通过设计基因序列模型来得到真核生物的基因.其编码区使用五阶的马可夫模型,而不使用来自同源信息的模型,使得Genscan的结果不依靠于目前的蛋白库中的相似基因,从而提供了于同源基因识
2、别不一样的方法.基因序列结构模型该模型本质是不完全的马可夫模型(semiMarkov),Genscan中使用statedurationHMM来说明.模型可以看成序列φ:顺序的状态集q={q1,q2,......,qn}状态相对应的长度集(持续时间)d={d1,d2,......,dn},对每一个状态,使用分别概率模型P形成长度为L=∑di(I=1...n)的DNA序列模型通过以下步骤形成的长度为L的序列:1.由初始状态集π得到初始状态q12.状态q1相对应的长度d1是由长度分配集ƒQ给出3.在q1,d
3、1的条件下,应用同q1相对应的概率模型,形成长度为d1的序列片断s14.后续状态q2是根据q1由状态转换矩阵T(一阶马可夫)得到这个过程一直重复直到长度达到或超过L。序列就是片断s的连接。模型的四个主要元素:初始概率向量π状态转移概率矩阵T长度分配集ƒ序列产生模型集P模型的使用由模型的四个参数,可求出长度为d,状态是q的序列片断为基因的概率(即是先得到一个基因的概率模型,之后给定一个序列,通过比较模型和序列的相似程度来预测基因.)使用到了向前算法和Viterbi算法.模型参数初始概率和转移概率根据CG
4、含量的不同,将训练集分成四类根据统计得到.模型的片断的长度有以下几点内含子和基因间的长度符合几何分布,根据CG的不同分别的由参数q来决定5UTR(从转录起始点到翻译起始点)长度为7693UTR(终止密码子到PloyA尾)长度为457外显子长度l=3c+I(c为生成的完整密码子个数,I为相对应的内含子状态(0,1,2,))。序列产生模型集P编码区(外显子)模型外显子使用3-periodic五阶马可夫模型.根据六聚体的结尾所处的密码子的位置使用不同的转移矩阵C1C2C3.非编码区模型(F,T,N,Ik)使
5、用五阶的马可夫模型信号模型一些信号使用WMM(重量矩阵方法)受体剪接位点中使用改进的WAM(重量队列模型)供体剪接位点中使用MDD(最大相关分解)转录和翻译信号PolyA信号是6bp的WMM模型翻译起始信号是12bp的WMM模型,其中开始的6bp是起始密码子.启动子由于30%的真核生物没有TATA信号,模型中以0.7的概率使用TATA-containing启动子,0.3的概率使用TATA-less启动子.Genscan的特点1.根据CG组分的不同使用不同的参数。2.可识别序列中的多个基因。3.新的受体
6、和供位点的统计学模型。模型的局限仅能处理相邻状态间的相互作用仅处理蛋白质编码基因(不用于tRNA,rRNA)翻译单元仅考虑了内含子(没有5`,3`不翻译的区域)重叠转录单元没有考虑一些调整元素没有考虑(增强子)于可选择剪切有关的信号没有包含.结束