基于串联质谱的蛋白质鉴定算法研究

基于串联质谱的蛋白质鉴定算法研究

ID:33101382

大小:5.05 MB

页数:144页

时间:2019-02-20

基于串联质谱的蛋白质鉴定算法研究_第1页
基于串联质谱的蛋白质鉴定算法研究_第2页
基于串联质谱的蛋白质鉴定算法研究_第3页
基于串联质谱的蛋白质鉴定算法研究_第4页
基于串联质谱的蛋白质鉴定算法研究_第5页
资源描述:

《基于串联质谱的蛋白质鉴定算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级l7365学位论文基于串联质谱的蛋白质鉴定算法研究作者姓名:于长永指导教师:王国仁教授申请学位级别:博士学科类别:工学学科专业名称:计算机软件与理论■/A∥ADissertationfortheDegreeofDoctorinComputerSoftwareandTheoryStudyonProteinIdentificationAlgorithmsBasedonTandemMassSpectrometrybyYUChangyongSupervisor:WANGGuorenNortheas

2、ternUniversityMay2009J√’心^I‘▲‘0^H。A,刍1独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:孑承刁£日期:删歹,7、歹学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或

3、机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年函/一年半口两年口学位论文作者签名:音乐乎签字日期:伽’、)·7导师签名:土司乍-签字日期:加尸.7.厂一II一^▲一由k■^∥A‘·■东北大学博士学位论文摘要基于串联质谱的蛋白质鉴定算法研究摘要近年来,蛋白质组学以其重要的应用前景受到广泛的关注,成为了后基因组时代十分重要的研究课题之一。其中,蛋白质鉴定是蛋白质组学中尤为重要

4、的一步,是后续蛋白功能和相互协作分析的基本保障。目前,串联质谱技术以其高度的准确性和灵敏性成为了大规模、快速、准确的蛋白质鉴定的主要技术手段。然而,高分辨率的串联质谱数据的特点决定了其在计算上的困难,也给计算机算法提出了新的挑战。造成基于串联质谱蛋白质鉴定算法设计困难的主要因素有:(1)离子成分复杂。经过CID碎裂而形成的多肽串联质谱的离子成分非常复杂,包括噪音离子峰、多种己知类型离子峰(如N端的a,b,C和C端的x,Y,z等)、同位素离子峰和未知类型离子峰等等。串联质谱离子成分的复杂性增加了算法的计算复

5、杂度和离子峰的错误指认和匹配的概率,从而增加了鉴定结果的假阳性。(2)数据不完备。CID过程中,多肽主链的某些肽键及其周围的化学键发生的断裂较少,从而导致串联质谱数据中该处断裂信息的丢失。这使得计算机算法无法推断该处的序列信息或导致正确多肽序列因在该处打分极低而被剔除,增加了鉴定结果的假阴性。(3】翻译后修饰。多肽序列的突变及翻译后修饰能够造成其串联质谱中包含修饰或突变的离子以一定质量进行偏移,从而进一步增大了解释其串联质谱的难度。本文针对基于串联质谱的蛋白质鉴定问题的上述难点进行了详细的分析和深入的研究

6、。本文的贡献点可概括如下:(1)针对从头测序算法中图模型引进的噪音顶点多,计算复杂度高等问题,本文提出了一系列的算法,以达到减小质谱图的规模及降低计算复杂度的目的。首先,提出了PShifler算法,该算法能够将串联质谱中的其它类型离子转换为b离子。其次,应用SVM分类理论提出了Ion.Classifier算法,该算法用于串联质谱中点类型离子与非点类型离子的分类。最后,基于频繁模式挖掘和决策树方法提出了b/y.Classifier算法,该算法用于串联质谱中b和Y离子的分类。实验结果表明,这些算法对解决噪音离

7、子过滤,离子分·。·—III‘_——东北大学博士学位论文摘要类等问题取得了较好的结果,提高了从头测序的准确性。(21针对蛋白质数据库搜索算法中串联质谱和多肽序列匹配打分的问题,提出了一系列算法。首先,基于信息熵理论提出了ITPIA算法,该算法计算理论谱的每一个离子位点的信息熵来衡量该多肽序列在串联质谱中的表达信息,从而衡量匹配程度。其次,提出了基于kNN技术的匹配打分算法。该算法很好地利用了强度信息,在已知的高精度的数据集上建立了强度匹配知识集合,通过现有匹配对当前的匹配对打分。最后,提出了ReCheck

8、算法。该算法针对数据的不完备性提出了连续三元位点的概念,将对一个肽键位置的判断信息扩展为其周围三个位点的信息。实验结果表明,这些算法能够应用到蛋白质数据库搜索算法中,并且在一些数据集上可以取得较好的准确性。(3)提出了基于多肽序列标签的蛋白质数据库搜索鉴定算法,即PepCheck算法。首先,构建了质谱图(SpectrumGraph),将多肽序列标签的推导问题转化为质谱图中最长平行路径和互补路径的求解问题。其次,引进了枚举树作为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。