基于机器学习方法的基因和蛋白预测研究

基于机器学习方法的基因和蛋白预测研究

ID:36832434

大小:3.33 MB

页数:102页

时间:2019-05-16

基于机器学习方法的基因和蛋白预测研究_第1页
基于机器学习方法的基因和蛋白预测研究_第2页
基于机器学习方法的基因和蛋白预测研究_第3页
基于机器学习方法的基因和蛋白预测研究_第4页
基于机器学习方法的基因和蛋白预测研究_第5页
资源描述:

《基于机器学习方法的基因和蛋白预测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于机器学习方法的基因和蛋白预测研究摘要摘要生物信息学是综合运用数学、信息和计算机科学等学科的一个全新的、发展迅速的科学领域,主要处理和分析生物数据,并解决相关的生物学问题。随着现代生物技术的不断进步,生物序列和结构的信息呈爆发方式增长,亟需我们发展有效的计算方法去了解保存于公共数据库中的原始生物数据的生物特性,如其所行使的分子功能、生命活动以及在细胞中的构成等。相对于试验方法,基于机器学习理论的计算方法具有快速、自动的优点,尤其适用于高通量分析大规模序列数据分析,是当前生物信息学发展的热点方向之一。真核基因编码区的定位、蛋白质的结构和特性(如残基可溶性、亚细胞

2、定位等)都是目前基于机器学习的预测方法所研究的范畴。本文介绍了作者在以下几个方面所作的有特色的研究工作:1.对真核基因剪接位点进行建模和预测,建立了供体位点和受体位点贝叶斯网络模型,并根据两种位点的生物学特性,对模型的拓扑结构和上下游节点的选择进行了优化。通过贝叶斯网络的最大似然学习算法求出模型参数后,利用lO次交互验证方法对测试数据进行剪接位点预测。结果显示,受体位点的平均预测准确率为92.5%,伪受体位点的平均预测准确率为94.O%,供体位点的平均预测准确率为92.3%,伪供体位点的平均预测准确率为93.5%,整体效果要好于基于使用独立和条件概率矩阵以及隐M

3、arkov模型的预测方法。进一步从特征选择和提取的角度出发,分别使用了遗传算法和主分量分析技术,将这些节点对作为特征量进行选择,进一步提高了预测精度。2.研究了蛋白质亚细胞定位的预测方法,并提出了一种名为LOcsVMPsI的真核蛋白质亚定位的预测方法。该方法基于支持向量机技术,并使用PSI—BLAsT产生的profile中的位置特异性打分矩阵(position—specificscoring嘲trix,PssM)作为特征。对于Rl{-2427数据集的留一法测试表明,LOCSVMPsI的总预测精度达到了88.1%,好于包括Markov键、SubLoc和模糊k近邻在

4、内的多种预测方法。对于SwN—unique数据集,使用LOCSVMPSI方法获得了71.9%的总预测精度,好于已有方法中性能最好的LOcnet约7.7%。针对不基于机器学习方法的基因和蛋白预测研究摘要同数据集的结果分析表明,LOCsVMPSI方法是一种高效、鲁棒性强的真核蛋白质亚定位的预铡方法。使用该方法,我们构建了一个在线预测阿站提供服务(b!£&;』』&i!i!£!!里!!!!!:!§!!:141:!!』!!!!!!!Pii』』!!!!!!Q;i:pjQ)。3.使用支持向量回归技术对残基可溶性的真实值进行预测。对RS—126,Manesh一215和cB一51

5、3三个数据集进行了测试,通过比较不同的参数及窗宽模型来获得最佳结果,采用平均绝对误差、相关系数等参数来衡量预测效果,同时与多层反馈神经网络方法(RVP—Net)的实验结果比较,在3次交叉验证情况下三个数据集预测结果的平均绝对误差和相关系数参数均有提高。另外,该算法采用了多序列比对作为输入,效果比单序列有显著提高。采用该方法,对CB一513数据集平均绝对误差可以达到16.8%、相关系数为O.562,而用RVP—Net方法分别为18.8%和O.480。最后将PsI—BLAsT方法同支持向量回归相结合,提出了名为RSAPred的在线预测系统,可以同时对残基相对可溶性的

6、真实值以及可溶状态进行准确快速地预测。该预测系统的网址是堕!!卫;』』旦jQi!!!Q£里垦±i曼苎:婪曼羔璺:竺垒丛:生旦』基妄△乜!曼鱼Z!塑立垦基:!Ⅱ丛。本文的研究工作得到了中国科学技术大学高水平大学建设重点项目以及国家科技部重点科研项目(2004AA235ll0)的资助。U苎王垫竖堂翌互莲塑董里塑里垒堡型塑塑塑曼ABSTRACTBioinformaticsisanewjrapidly—growingareaofsciencewhichintegratesmattlematics,informatiOnandcomputersciencetoa11“yz

7、ebioIogicaIdataandsoIVebiologicalproblems.Wimtherapidprogressincurrentbiology'meexplosionofinformationaboutsequenceandstructuredemandsemcientcomputationalmethodstounderstandthecharacterizationoftherawbi0109icaIdatadepositedinthepublicdatabases,suchasm01ecularfLlnction,biologicalpmces

8、sandcellular

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。