基于本体与基因网络的致病基因预测研究

基于本体与基因网络的致病基因预测研究

ID:35066271

大小:3.12 MB

页数:61页

时间:2019-03-17

基于本体与基因网络的致病基因预测研究_第1页
基于本体与基因网络的致病基因预测研究_第2页
基于本体与基因网络的致病基因预测研究_第3页
基于本体与基因网络的致病基因预测研究_第4页
基于本体与基因网络的致病基因预测研究_第5页
资源描述:

《基于本体与基因网络的致病基因预测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于本体与基因网络的致病基因预测研究RESEARCHOFDISEASEGENEPREDICTIONBASEDONONTOLOGYANDGENENETWORK白坤哈尔滨工业大学2015年12月图内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文基于本体与基因网络的致病基因预测研究硕士研究生:白坤导师:王亚东教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2015年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.D.C:004.9Disse

2、rtationfortheMasterDegreeinEngineeringRESEARCHOFDISEASEGENEPREDICTIONBASEDONONTOLOGYANDGENENETWORKCandidate:BaiKunSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:

3、December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要随着人类基因组计划的顺利完成,出现了许多高通量技术预测基因功能的方法,但是从这些方法产生的大量的候选基因集合中检测致病基因仍是一个十分艰巨的挑战,如果直接使用生物学实验验证则需要消耗大量人力物力。随着数据的积累,人们逐渐发现致病基因具有模块性,功能相同或者相似的基因编码的蛋白质,在蛋白质相互作用网络中相互靠近。利用已被证实的疾病和基因的关系,使用计算方法来预测候选致病基因通常能起到很好的效果,如计算候选

4、基因和已知致病基因集合中的基因的相似性,然后根据相似性排名对候选基因进行排序,从而使生物学实验有针对的对基因进行实验验证,降低检测成本。本文主要以生物医学本体为中心,整合了九种不同生物医学数据库,构建了由78786个生物学实体或概念组成的一个双层异构网络,这个网络中包含本体术语之间的105875条有向边,以及术语到基因,基因和基因之间组成的398642条无向边。在构建网络时,使用超级叙词表等映射工具对九种数据库中不同类型的标识进行转换和去冗余;设计了一套整合不同关系证据类型的方案,根据边的关系证据集合的不同,为每条边赋予了不同的权值,最终构建的网络

5、为带权的双层异构网络。依据网络中边的端点的不同,将边分为了七个大类,并验证了每一类的权值改变对基因预测最终的效果有直接影响,为每大类属于的边设置了一个特征向量,使用有监督的随机游走训练每个大类的特征权值,使得组合的权值能够更准确的进行致病基因预测,同时基于有监督随机游走算法,提出了拉普拉斯正规化的有监督随机游走,并在多次试验后验证了正规化的有监督随机游走在预测权值上优于有监督随机游走,针对正规化算法复杂度过高的问题,提出了简化版的正规化有监督随机游走。在构建的双层异构网络上分别进行随机游走,有监督随机游走,简化正规化随机游走的验证,最终有监督随机游

6、走的AUC(AreaUnderrocCurve)比普通随机游走提高了0.8%,正规化随机游走AUC比普通随机游走提高了2.3%。关键词:本体;数据融合;致病因预测;随机游走;有监督随机游走;拉普拉斯正规化-I-AbstractAbstractAlthoughthehumangenomeprojecthasbeenaccomplishedandhasachievedgreatsuccess,andnewmethodsthatverifygenefunctionwithhigh-throughputhavebeenapplied,studyinggen

7、eticproblemsthatinducediseasesisstilloneofthemajorchallengesfacinghumanity.Usingthebiologicalexperimentmethodtoidentifygenesassociatedwithdiseaserequiresalargenumberofhumanresourcesandcapitalsupport.However,thestudyofcandidateassociationworkswellbyusingasetofknowfunctionalcand

8、idategenes,becausenewdiseasegenesclusterwiththesetofknowndise

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。