系统水平整合分子数据及表型数据重构罕见疾病分类体系

系统水平整合分子数据及表型数据重构罕见疾病分类体系

ID:78080836

大小:2.36 MB

页数:82页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第1页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第2页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第3页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第4页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第5页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第6页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第7页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第8页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第9页
系统水平整合分子数据及表型数据重构罕见疾病分类体系_第10页
资源描述:

《系统水平整合分子数据及表型数据重构罕见疾病分类体系》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

2018届研究生硕士学位论文分类号:学校代码:10269密级:学号:51151300212EastChinaNormalUniversity硕士学位论文MASTER’SDISSERTATION论文题目:系统水平整合分子数据及表型数据重构罕见疾病分类体系院系:生命科学学院专业:生命医学工程研究方向:生物信息学指导教师:石铁流教授学位申请人:潘霞2018年4月3日 2018年华东师范大学硕士学位毕业论文Dissertationformasterdegreein2018StudentID:51151300212Universitycode:10269EastChinaNormalUniversityTitle:Reconstructsrarediseaseclassificationwiththeintegrationofsystems-levelmoleculardataandphenotypicdataDepartment:SchoolofLifeScienceMajor:BiomedicalEngineeringResearchdirection:BioinformaticsSupervisor:Prof.TieliuShiCandidate:XiaPanApril,2018 2018年华东师范大学硕士学位毕业论文内容概要随着生物医学数据采集技术的进步,组学科学产生了越来越多的生物医学数据,可获得的生物实体(如基因、表型、疾病等)关系数据不断积累。Orphanet是目前相对完善的基于疾病的临床症状和体征观察而建立的。然而,它没有考虑基因组学等组学数据对疾病关系的影响。以前的研究表明,疾病的遗传学知识可以决定疾病分类,并且是预测疾病之间关系的最重要的因素,同时,研究疾病关系正从基于共享基因等单个实体向系统的整合多个分子水平的数据转变。在此,本文针对罕见疾病异构信息网络数据,利用图正则化的非负矩阵三分解(GNMTF)模型,它将所有网络数据以矩阵形式表示,同时对罕见疾病,表型,基因进行共聚类,从而推断新的罕见疾病关系,从结果来看,通过整合基因相互作用组,罕见疾病-表型关系,罕见疾病-基因关系,我们的方法得到的罕见疾病关系对与Orphanet中直接相连疾病关系对重合率达到91%。然后我们运用边聚类算法探究新得到的罕见疾病拓扑网络中的疾病模块,并生成罕见疾病分类树状图。相比较于Orphanet,新得到的疾病模块中,疾病间分子层面相似度更高。此外,我们评估本文所包含的11种关系类型对预测模型性能影响,结果进一步强调了系统整合疾病分子学数据的重要性。最后,运用矩阵填充来预测基因-疾病关系,并发现本文采用的方法在致病基因排序上的准确率明显优于之前的两种方法。关键词:罕见病分类;异构网络整合;基因型;表型;矩阵分解;基因优选I 2018年华东师范大学硕士学位毕业论文ABSTRACTWiththedevelopmentofbiomedicaldata-capturingtechnology,omicssciencesproducingmoreandmoremolecularandmedicaldata.Thenumberofdifferentbiologicalentities(e.g.genes,phenotypes,diseases,etc.)forwhichdatacanbecollectedisincreasingsignificantly.Orphanetiswellestablishedclassificationofrarediseases.Itrelatesandclassifiesrarediseasesbasedontheobservationofclinicalsymptomsandsigns.However,thegrowingnumberofheterogeneousgenomic,proteomicdatacurrentlyhasnotfullycontributedtothisclassificationyet.Previousstudieshaveindicatedthatgeneticknowledgeofdiseasecandeterminenosologyandbethemostimportantfactortopredictassociationsbetweendiseases.Inthemeantime,thestudyofdiseaserelationshipshasshiftedfromsimplesharingofsingleentities,suchasgenes,tofusesystems-levelmoleculardata.Motivatedbytheseworks,weintroduceacomputationalframeworktointegratevariousbiologicalnetworkusinganon-negativematrixtri-factorizationmodelwithgraph-regularized(GNMTF).Thismodeltakesallnetworkdatainamatrixformandperformssimultaneousclusteringofgenes,phenotypesandrarediseases,inferringnewrelationsbetweenrarediseases.Remarkably,byfusinggeneinteractome,raredisease-phenotypenetworkandraredisease-genenetwork,91%ofrarediseaserelationsclassifiedwithourmethodarethesameasthatinOrphanet.Then,wedetectrarediseasecommunitiesbasedonanewfoundtopologyofdiseasenetworkanduselinkclusteringtobuildadendrogram.Wefindrarediseasesincapturedcommunitiesexhibitsignificantmolecularrelations.Furthermore,weexaminethecontributionofeachincludeddatasourcetotheinferredmodel,furtheremphasizingtheimportanceintheshifttowardssystems-levelmoleculardataintegration.Finally,weusematrixcompletiontopredictgene-diseaseassociationsandfindtheperformanceoutperformsthepreviousmethodsincandidategeneprioritization.II 2018年华东师范大学硕士学位毕业论文KeyWords:rarediseaseclassification;heterogeneousnetworkfusion;genotype;phenotype;matrixfactorization;candidategeneprioritizationIII 2018年华东师范大学硕士学位毕业论文目录内容概要.............................................IABSTRACT............................................II1.引言............................................11.1.本文选题背景及意义........................................................................11.1.1.罕见疾病简介.............................................................................11.1.2.ORDO简介.................................................................................21.1.3.罕见疾病分类体系背景及意义.................................................31.2.疾病网络研究现状............................................................................41.2.1.疾病网络研究背景介绍.............................................................51.2.2.疾病模块简介.............................................................................71.2.3.疾病网络构建.............................................................................91.2.4.疾病网络的应用.......................................................................101.3.多视图生物数据整合简介..............................................................111.3.1.数据整合的基本原理及优势...................................................121.3.2.主流数据整合方法...................................................................131.4.本文的研究内容..............................................................................152.数据整合重构罕见疾病分类体系流程的探究.........172.1.复杂网络简介..................................................................................172.1.1.网络基本概念...........................................................................182.1.2.网络模型...................................................................................182.1.3.中心性分析...............................................................................202.1.4.模块分析...................................................................................212.2.罕见疾病异构信息网络..................................................................222.2.1.异构信息网络相关概念...........................................................222.2.2.本文罕见疾病异构信息网络框架图.......................................232.3.罕见疾病分类体系重构模型的设计..............................................24IV 2018年华东师范大学硕士学位毕业论文2.3.1.问题定义...................................................................................242.3.2.常用的异构信息网络聚类方法...............................................252.3.3.非负矩阵分解算法...................................................................272.3.4.图正则化非负矩阵三分解模型...............................................302.3.5.边聚类.......................................................................................302.4.本文重构罕见疾病分类体系流程小结..........................................323.结果的评估与讨论...............................333.1.多视图数据获取..............................................................................343.1.1.罕见疾病数据...........................................................................343.1.2.基因互作数据...........................................................................353.1.3.人类表型本体数据...................................................................363.2.算法实现细节及技术方法..............................................................373.2.1.参数设置...................................................................................373.2.2.技术实现...................................................................................383.3.结果与评估......................................................................................383.3.1.罕见疾病分类树状结果...........................................................383.3.2.各个数据源对整合模型的贡献...............................................393.3.3.罕见疾病类内疾病间分子层面相似性评估...........................403.3.4.案例讨论...................................................................................413.4.罕见疾病致病基因预测讨论..........................................................433.4.1.问题定义...................................................................................443.4.2.现有预测方法...........................................................................443.4.3.本文矩阵填充预测方法...........................................................453.4.4.罕见疾病致病基因预测性能评估...........................................463.5.本章小节..........................................................................................484.总结与展望.....................................494.1.总结..................................................................................................49V 2018年华东师范大学硕士学位毕业论文4.2.展望..................................................................................................50参考文献............................................51附录................................................59附录1:术语ID与其名称对应表............................................................59附录2:解析Orphanet的en_product6.xml获取疾病与其致病基因关系的核心代码展示..................................................................................................60附录3:部分罕见疾病模块类内疾病成员结果展示...............................60附录4:skfusion包使用说明....................................................................64附录5:linkcomm包使用说明.................................................................65硕士期间发表的相关学术论文..........................67后记................................................68VI 2018年华东师范大学硕士学位毕业论文图表目录图1-1在ORDO中查询raregeneticdisease类别得到的25个子类..............3图1-2基于共享基因的罕见疾病网络[12]........................................................6图1-3疾病模块[8]..............................................................................................8图1-43种疾病网络局部图[13][15][29]..........................................................10图1-5基于核的方法示意图[35]......................................................................14图1-6基于网络的方法示意图[35]..................................................................14图1-7矩阵分解示意图[36]..............................................................................15图2-1网络基本概念........................................................................................18图2-2三类常见网络模型[21]..........................................................................19图2-3随机网络与无标度网络强韧性[38]......................................................20图2-4复杂网络图例[44]..................................................................................23图2-5本文罕见疾病异构信息网络框架图....................................................24图2-6星状图示例............................................................................................26图2-7异构网络多视图聚类[49]......................................................................27图2-8图正则化非负矩阵三分解罕见疾病异构信息网络示意图................29图2-9ORPHA:46059在Orphanet数据库中的层级分类关系......................31图2-10边聚类算法在示例网络上的结果展示..............................................32图3-1罕见疾病分类研究流程图....................................................................33图3-2有已知基因信息的罕见病与有已知表型信息的罕见病的交集情况35图3-3参数K对RSS的影响..........................................................................37图3-4罕见疾病异构信息网络聚类树状图....................................................38图3-5罕见病对拓扑结构性与疾病相关基因集在GO(BP)相似性情况.40图3-6XD-score的分布情况.............................................................................41图3-7Orphanet未知分类的罕见疾病的案例分析.........................................42图3-8矩阵填充与RW、VS方法预测性能的比较.......................................46VII 2018年华东师范大学硕士学位毕业论文表2-1不同网络图对比....................................................................................22表3-1罕见病异构网络数据来源....................................................................34表3-2每一数据集对GNMTF模型的影响....................................................39表3-3本文所研究疾病中最新增加的已知疾病致病基因信息....................47表3-4矩阵填充算法对这3种疾病基因预测的情况....................................47VIII 2018年华东师范大学硕士学位毕业论文1.引言本文最开始,将全面介绍论文的选题背景及要解决的问题,同时概述针对该问题当前国内外研究现状。1.1.本文选题背景及意义1.1.1.罕见疾病简介发病率低的少见的疾病,被称为罕见疾病,简称为“罕见病”。罕见病在各国的定义不一样,如在美国每年患病人数少于20万人或患病率低于1/1500的疾病定义为罕见病,而在中国患病率低于1/500000(或新生儿发病率低于1/10000)的疾病定义为罕见病[1],不同定义现象可能的原因有以下3个:其一,同一疾病在不同国家发病率不同,其二,疾病的发病率不是恒定值,而是不断变化的,其三,国家间文化和经济水平的差异。在中国,如果以患病率1/500000的定义统计,按14亿人口基数计算,每种罕见病的患病数大约在2800人,以当前有7000多种罕见病(国际确认的罕见病有6000~7000多种)计算,那中国罕见病患者高到1960万人。基于这样的统计,仅从罕见病的患者数量上来看,罕见病影响的人口占有较高的比例,换句话说,罕见疾病对于个体来讲是罕见的,但从整个罕见病患者群体来看,罕见病并不罕见。尽管罕见病病种多而杂,它们却有着共同的特征。这些特征主要表现在:1)有近一半的罕见病在幼年时发病;2)大约80%的罕见病与基因缺陷相关的遗传疾病;3)常有伴发症,且多是致死性疾病;4)病程较长,易误诊;5)多数罕见病无药可医;6)罕见病在国际分类体系中几乎没有出现,因此在信息系统中常是不可见的[2]。据eRAM[3]对罕见疾病相关信息的统计,eRAM数据库中包含15942种罕见疾病,其中只有5593种疾病是目前已知致病基因的,也就是说,近乎三分之二的罕见疾病的潜在病因还没有被发现。正因为罕见病的这些特征,当下对罕见1 2018年华东师范大学硕士学位毕业论文病的研究主要围绕以下两个方面:其一,生物数据采集技术及组学科学的发展产生了越来越多的生物医学数据并积累了大量罕见病相关的分子数据,可获得的生物实体(如基因、表型、疾病等)关系数据不断积累,收集罕见疾病所有相关的信息,对其进行注释,探究其潜在遗传病因,将罕见疾病关联到相应的致病生物通路(pathway)上,后续提供精准的靶向治疗。另一方面,基于分子数据的罕见疾病关系研究得到了快速发展,如何系统的整合利用这些罕见病注释信息来找到罕见疾病间的关联性,将一种罕见病的治疗知识迁移用到相关罕见疾病的治疗及药物研发中以实现对疾病间这种协同效应的充分利用,最终提高病人的存活率并推动生物医学的发展已成为转化医学急需解决的问题之一。1.1.2.ORDO简介Orphanet(http://www.orpha.net/)[4]数据库是为所有用户提供罕见疾病和罕见疾病药物信息的开放门户,该数据库收集整理了罕见病及其致病基因、表型等注释信息,其数据信息来自于40多个国家的研究机构长期的合作收集,并经过领域专家的审核最终录入数据库。Orphanet的目的在于提高罕见病的诊断、护理和治疗效果。OrphanetRareDiseaseOntology(ORDO)(http://bioportal.bioontology.org/ontologies/ORDO/),是集成多种疾病术语库、罕见疾病流行病学等数据而构建的描述罕见病术语间关系的开源本体。ORDO整合了医学主题词(medicalsubjectheadings,MeSH)知识库、孟德尔人类遗传学数据库(onlinemendelianinheritanceinman,OMIM)、临床医学术语标准(systematizednomenclatureofmedicine-clinicalterms,SNOMED-CT)、统一医学语言系统(unifiedmedicallanguagesystem,UMLS)等知识库中的罕见病术语,定义了罕见病术语间的逻辑关系并对Orphanet中所包含的罕见疾病构建了罕见疾病树状分类图(如图1-1所示)。这为我们从ORDO的角度研究罕见疾病相关关系打下了基础。2 2018年华东师范大学硕士学位毕业论文图1-1在ORDO中查询raregeneticdisease类别得到的25个子类1.1.3.罕见疾病分类体系背景及意义罕见疾病分类的地位就好比是自然科学领域里的标准度量衡,不可或缺。罕见疾病分类不仅可供医护人员使用,还可作为评价卫生服务系统、公共卫生管理等的衡量指标。随着人们对罕见疾病的认识水平的提高,罕见疾病分类标准的制定需要与时俱进,需要科研人员不断修正完善。罕见病在国际疾病分类体系中几乎没有出现,因此在信息系统中是不可见的。然而健康信息系统和研究都需要一个可以分享并整合来自不同来源和不同参考术语集的罕见病分类体系。现有的疾病分类体系是根据奥卡姆剃刀原理归纳而来,依据疾病的病理分析与临床症状之间的关联而产生的。这种方式建立的疾病分类体系,有利于临床医生根据自身的观察技能和简单的实验工具对疾病进行快速诊断。如为了更好地描述罕见疾病之间的关系,ORDO根据罕见疾病的症状、临床表现及部位作为主要特征对罕见病进行划分,同时整合了其他医学知识库中,如ICD-10,MeSH、SNOMED-CT、OMIM等描述疾病关系的信息,是目前相对完善的罕见疾病分类体系,也是有效研究不同罕见疾病术语关系的高效方法。然而,3 2018年华东师范大学硕士学位毕业论文在没有明显临床症状的情况下,这种基于临床症状等特征来描述罕见病之间相似性的分类方法的弊端就出现了:由于疾病之间关系复杂,目前认为不相关的罕见病,可能共享相同的生物过程。也就是说,在当前没有考虑到组学等分子水平数据对疾病影响的疾病分类体系有一显著缺点,即在病人未被正确诊断前缺乏敏感性,且没有明确定义疾病的特异性。以前的研究表明,临床表型相关的信息是研究疾病基因的突破口,同时疾病的遗传学知识可以决定疾病的分类并且是预测疾病之间关系的最重要的因素。近几年,罕见病相关的基因组数据(基因、microRNA等)的快速增长,分子数据,临床表型数据,它们从不同的层面对罕见疾病发病机制进行注释,如何评价这些数据对罕见病的影响,仍然是亟待解决的大问题。基于分子数据、临床表型数据来重构罕见疾病分类体系,其实质是系统整合分子数据及临床表型数据研究罕见疾病关联问题。当前人们已经开始,从最初基于共享疾病基因层面去研究疾病间关联,转变到全面系统的整合疾病间的分子层面和临床表型等数据,这些数据都与罕见病的易感性,发生发展和分子机理相关,通常呈现高维、稀疏、异构等特性,整合多种特征研究罕见疾病关联性问题,难点在于众多的互补数据源如何进行有效整合,从而避免部分数据源的噪声数据。本文关注点在罕见疾病,借鉴多视图(multi-view)数据整合的思想,从异构疾病网络入手,研究罕见疾病间关联,下面着重介绍疾病网络(diseasome)及多视图数据整合相关内容及研究现状。1.2.疾病网络研究现状多个层面积累的大量组学数据的研究,几乎都可映射成某种意义上的生物分子相互作用网络的研究,可以说,我们正在进入“网络医学”(networkmedicine)时代。网络医学的研究范围自下而上可分成3个层次:分子相互作用网络(interactome)、疾病网络(diseasome)、药物网络(drugome),每一层都包含多个网络[5]。构建和解读疾病相关的生物学网络,成为疾病发生发展机制研究的前沿领域[6][7]。4 2018年华东师范大学硕士学位毕业论文1.2.1.疾病网络研究背景介绍细胞是一个由mRNA、基因、蛋白质及其代谢产物等多个层次内部及层次之间不同生物分子在不同水平上相互作用、相互调节的结构与功能体系,是生物功能的基本单位[8]。在系统水平上全面研究生物分子的功能及其相互联系是当前生物信息学研究一个极其重要的目标,急需一种新的分析方法来处理生物分子间的复杂的相互作用关系。80%的罕见病是与基因缺陷相关的遗传疾病。当前遗传疾病,可粗略分为单基因、多基因以及染色体遗传病三类。复杂疾病的致病基因需要依靠基因、蛋白质、细胞通路(pathway)等因素之间整体关系进行研究。所有的细胞单元(cellularcomponent)相互作用形成了一个交互网[9]。因此疾病可能不只是因为一个基因的变异决定的,也可能是网络中其它单元协作引起的[10][11]。而疾病的表型是多种病理学过程作用的结果,想要准确、全面的研究疾病,了解该复杂网络是必须的。随着高通量组学检测技术的不断发展和计算分析模型的不断创新,基于网络的研究方法被广泛应用在人类疾病相关研究中,产生了各种各样的生物网络,如代谢网络、蛋白质-蛋白质相互作用网络等。2011年,Zhang等人从Orphanet及Uniprot提取罕见病及其致病基因信息,建立如图1-2所示的罕见疾病网络,可见罕见疾病网络呈现高度模块化的特性[12]。同年,Barabasi等人对人类疾病网络的特征进行研究,并提出网络医学的概念,即将网络理论用于研究人类疾病、医学及相关领域的学科[8]。网络医学有助于人们从分子水平上对疾病的复杂性进行研究,也能帮助揭示不同疾病表型间的关系,为发现疾病的致病基因及靶向用药提供新的思路。5 2018年华东师范大学硕士学位毕业论文图1-2基于共享基因的罕见疾病网络[12]目前国内外大量的研究报告了从分子层面关联疾病的方法及好处。VanDriel等人提出了一种基于文献挖掘分析的方法,该方法针对OMIM可遗传疾病概要中的疾病表型描述文本进行建模,利用MeSH词表向量化疾病文本,得到每一疾病的特征向量,接着计算疾病特征向量间的余弦相似性作为疾病相似性分值[13];Loscalzo等人通过基于网络分析的方法,依据基因,蛋白质,代谢物,中介表型和影响病理类型的环境因素之间的关联来对疾病进行编码分类[14];Zhou等人利用MeSH词表对PubMed元数据进行处理,抽取疾病和症状关系对,然后借鉴VanDriel的方法,建立每个疾病的症状特征向量,运用余弦相似性对疾病间基于症状的相似性打分,得到疾病网络,最后基于统计显著性指标进一步过滤疾病网络,得到疾病间基于症状相似性的主干网[15];Caniza等人通过疾病相关蛋白的亚细胞共定位情况对疾病间相似性进行打分[16];这些网络分析方法为疾病研究提供了新的思路。6 2018年华东师范大学硕士学位毕业论文同时,多种生物信息数据库的涌现并不断更新也为疾病研究提供了宝贵资源。如BioGrid包含了模式生物蛋白质(基因)相互作用的信息[17];REACTOME收录了包括人类、果蝇、拟南芥等模式生物的反应组学数据[18];KEGG收录了关于基因、生物反应和代谢途径等信息[19];OMIM收录了表型与基因型之间的关系[20]。1.2.2.疾病模块简介模块是许多基础生物功能的核心,在一个生物医学网络中功能相关的节点通常是高度关联的,细胞的功能常常是以高度模块化的形式呈现,可以说模块化是生物医学网络的一个一般特性[21]。研究表明,罕见病通常不仅仅由单一生物分子的功能损坏所致,而是由多个生物分子构成的模块或者子图引起的[12]。基于网络的多组学数据分析技术的发展有助于我们能够从分子水平来系统研究疾病发生发展过程的基本机理,随着网络医学的不断发展,建立数学模型及算法来预测疾病的致病基因和识别重要的疾病模块已成为从网络层面研究疾病的热点[22]。如果一个细胞分子(如基因等)参与特定的生物化学过程或疾病,那么在网络中与该细胞分子直接相互作用的邻近节点,也可能对这一生物过程或疾病起作用,这称为网络的“局部”(local)假设[23]。此外,研究发现,有着相似表型的疾病,与这些疾病相关的基因之间也表现出更高的倾向相互作用[24]。这些研究表明,如果确定了疾病一部分相关生物分子(基因,表型等),那么与疾病相关的其他生物分子也可能存在于网络的邻近节点。也就是说,我们期望每一疾病与一明确界定的相互作用组相关联,这一相互作用组称为“疾病模块”。疾病基因的网络图谱,通常会呈现如图1-3这3种不同现象。一个拓扑模块(topologicalmodule)通常代表网络中一个局部高密度的子图,子图表现出内紧外松的特性,通常使用网络聚类算法识别这些拓扑模块。相比之下,功能模块(functionalmodule)通常代表着一个网络中功能相关或相似的节点的聚集,依据可检测的表型去识别这些功能模块。最终,一个疾病模块(diseasemodule)代7 2018年华东师范大学硕士学位毕业论文表一些网络组件组成一个小模块,这个小模块一起促成一个细胞功能或者出现问题而对应一个疾病表型[8]。图1-3疾病模块[8]识别疾病模块,也就是识别、抽取、分割疾病子网[25]。目前为止已经出现很多疾病模块的识别算法,这些方法主要是基于聚类算法来发现疾病网络中的高密度区域作为疾病模块。如MCODE(MolecularComplexDetection)方法先将每个节点的度设为该节点的权重,接下来用贪心算法搜索出高密度连接的区域,最后基于连通性准则在已经得到的区域中过滤或者增加节点[26]。随着多组学数据的指数增长,研究者更倾向于整合网络的拓扑结构、分子功能网络等多视图数据的方式来识别疾病模块。如Tan等人首先整合不同类型的蛋白质-蛋白质相互作用建立一个高可信的网络,然后根据这一网络用图聚类算法识别模块[27]。Gustafsson等人根据多层网络提出多层疾病模块的概念,多层疾病模块一方面更有助于发现多层疾病相关的不同类型的生物分子之间的关系,通过对这些生物分子致病机制的生物功能分析,找到最优的组合识别算法,另一方面,可以用来跟踪疾病的发展过程,对疑难杂症的早期干预提供可能。由于考虑的信息较多,多层疾病模块识别的难度也较大。当前,学术界也出现了一些多层疾病模块识别算法,如Li等人用张量(tensor)的形式表示一个多层网络,首先将识别多层疾病模块问题定义转化成整数规划问题,然后将该问题转化为一个带约束的连续优化问题[28]。如何改进现有数学模型,研究出更有效的疾病模块识别技术,发现疾病系统的内在发病机制依旧是当今生物医学领域的难点。8 2018年华东师范大学硕士学位毕业论文1.2.3.疾病网络构建人类疾病网络中,节点代表疾病,边表示疾病之间有共享的相关细胞成分(如蛋白质、基因、miRNA等)、生物过程(如代谢过程等)或其他疾病相关的因素(如表型、症状和环境因素等)。相应的,疾病网络的补充网络中,节点代表这些细胞成分、生物过程或其他疾病相关因素,边表示两个节点有相同的疾病。研究疾病之间的这种连接有利于了解不同表型在分子水平是相互关联的,同时有助于理解疾病聚集成模块的原因。依据构建基础的不同,可将人类疾病网络分为:共享基因、代谢、miRNA、表型、症状等。⚫共享基因的人类疾病网络(HumanDiseaseNetwork,HDN)生物假设:同一基因与不同疾病病理表型的关联往往暗含着这些疾病有着共同的基因起源,Goh等人从OMIM数据库中收集到的基因-疾病关系建立基于共享基因的人类疾病网络,其中节点表示疾病,边表示2个疾病共享至少一个基因[29]。与HDN互补的疾病基因网络(DiseaseGeneNetwork,DGN)中,节点表示疾病相关的基因,边表示2个基因与相同疾病相关,DGN反映的是基因所引起的共同疾病[29]。结合HDN和DGN两个网络有助于揭示已知疾病致病基因和表型的关联。⚫代谢疾病网络(MetabolicDiseaseNetwork,MDN)生物假设:影响一种生物反应通路的酶的缺陷可能会影响这种反应以及这一反应下游相关的通路,导致与这一下游通路相关的疾病表型的出现。因此,对于代谢疾病,由共享代谢通路形成的疾病关联比基于共享基因形成的关联性更强。Lee等人构建了一种代谢疾病网络,节点表示疾病,其中两种疾病若与它们相关的酶被催化,则两种疾病被关联[30]。⚫基于miRNA的疾病网络(miRNA-basedDiseaseNetwork)miRNA通常是作为转录后mRNA表达的负向调控器,能引起mRNA降解或翻译受抑制。Lu等人基于miRNA和HMDD(humanmiRNA-associateddisease9 2018年华东师范大学硕士学位毕业论文database)的人类疾病之间的关联建立一个疾病网络,节点是疾病,边表示疾病间共享至少一个相关miRNA[31]。⚫表型疾病网络(PhenotypicDiseaseNetwork,PDN)表型疾病网络是基于疾病间的共病现象而构建的。VanDriel等人利用文本挖掘从OMIM数据库中五千多种人类表型抽取一些MeSH词表组成特征集,建立基于表型信息的疾病网络,发现疾病对的分子特征与表型相似性呈现正相关关系[13]。⚫症状疾病网络(HumanSymptomsDiseaseNetwork,HSDN)疾病的相关的细胞成分和疾病的症状之间的关系一直是生物医学研究领域的一个关键任务。Zhou等人从PubMed文献数据库中建立一个基于症状的疾病网络,运用TF-IDF来量化疾病和症状之间的关系,建立基于症状的疾病网络[15]。如图1-4所示是分别是基于共享基因、表型、症状而构建的疾病网络局部图。图1-43种疾病网络局部图[13][15][29]1.2.4.疾病网络的应用疾病网络有助于我们系统地去研究疾病的致病因素,也有利于研究具有不同的表型的疾病之间的分子关系,进一步用来预测疾病的致病基因,指导靶向用药等,本文着重关注疾病网络在罕见疾病分类中的应用。⚫疾病分类10 2018年华东师范大学硕士学位毕业论文目前的疾病分类方法是综合考虑疾病的临床症状和病理分析这两者而得到的。然而,随着现代分子诊断工具的出现,这种分类方法的缺点就出现了。该分类的缺点主要体现在两点,其一,临床前对疾病的诊断缺乏敏感性,其二,对疾病没有明确的特异性划分界限。此外,目前的罕见疾病分类也往往忽略了许多疾病的相互关联的特性。为了改进这一不足,研究者提出一种基于网络的方法定义人类疾病的框架,在这一框架下,临床病理表型是一系列包含多个组件的连接网络的系统驱动得到的结果。首先,存在主要的致病基因,包含突变,突变基因是互作组(interactome)中的一个节点,它与许多疾病修饰基因相互作用,包括那些控制常见疾病的中间病理表型。中间病理表型包括炎症和其他免疫应答,血栓形成或出血,纤维化,异常细胞增殖,细胞凋亡或坏死。此外还有环境(和行为)等致病因素,包括调节基因表达水平的因素,在转录或表观遗传水平以及导致蛋白质翻译后修饰水平等。这些疾病的子网络决定因素共同产生高度特异性的临床表型,不仅适用于复杂疾病,而且适用于罕见疾病。这一框架暴露了基于网络的疾病分类的挑战:影响疾病模块的许多因素目前仍然未知,尽管如此,基于网络的罕见疾病分类不仅揭示了我们实验和理论知识的差距,也表明只有通过系统水平的整合才有可能提供一个可用的罕见疾病分类框架,通过定义罕见疾病的易感性,预测罕见疾病发展进程及确定个性化治疗方案[8]。1.3.多视图生物数据整合简介在当前的生物医学研究中,获得多方同意,得到大量来自病人的数据,诸如临床记录(年龄、性别、病史、病理学和治疗方案),高通量组学数据等并不难。本文中,我们运用术语“多视图(multi-view)”表示任何种类的异构(也可能是同质)数据,这些数据提供了从多个方面表示生物对象或系统的互补信息。基于这些方面考虑,我们怎样高效的利用计算机手段来分析这些大体量的数据得到对我们有用的信息变得非常重要。基于数据的机器学习,研究如何对样本建立模型,对数据进行分析挖掘出数据中潜在的规律和信息,从而对未知的数据进行预测和11 2018年华东师范大学硕士学位毕业论文判断。技术的发展,数据的沉积,我们表示生物分子的数据变得不再单一,对它的描述可以从多个方面进行,由此,表示一个生物问题的数据形态呈现出了多视图的特性[32],充分利用不同视图之间互补信息和相关信息,克服单视图片面及对噪声敏感等不足是具有挑战性的重要任务。在生物学领域,主要有以下4类多视图数据:1)同一特征集的不同样本集(multi-classdata);2)不同特征集同一样本集(multi-feature-setdata);3)同一样本集同一特征集在不同条件下的数据(tensordata);4)同一条件下不同样本集不同特征集(multi-relationaldata)。单组学数据通常有着这样的特点:高维、冗余、特征高度相关、非负,多组学数据往往能够相互补充,数据之间存在因果关系,呈现出异质性。基于此,一门新兴的学科——数据整合技术得到了迅速发展,并在生物医学领域得到了广泛的应用。现有的研究中,建立的疾病网络大多数是同构的,在这种同构的疾病网络中,网络中的对象是基于单一的数据源而被连接。然而,真实的疾病网络多数是异构的,在异构的疾病网络中,网络中的对象和连接可能是不同的类型。数据整合是一门针对多个视图的信息综合分析处理的技术,接下来首先对该方法的基本原理与优势做简单介绍,接着介绍目前主流的几种数据整合手段,从而对多视图数据整合理论有一个全面的认识。1.3.1.数据整合的基本原理及优势⚫基本原理多视图数据整合通过模拟人脑在处理复杂信息的过程,多个视图提供的信息具有各不相同的特征,这些特征是多样的,相互支持,互补的,有差异的,确定或模糊的,甚至可能是有冲突。通过有效的筛选方式,在时空上将多视图上互补和冗余的信息按照某种组合规则优化,多层次的对问题进行理解。⚫优势数据整合技术应用到生物医学领域中,能够极大地提升系统分析信息的能力,优势主要有:1)提高整个分析过程的可靠性,避免系统对某一种类型数据噪声的影响;12 2018年华东师范大学硕士学位毕业论文2)多角度分析,弥补单一数据的冗余,局限性等不足,提高性能,增加系统的精度。1.3.2.主流数据整合方法从机器学习视角来看,当前针对组学数据及临床数据整合进行各种分析(聚类,分类,预测,降维,关系识别等),主要有下面几种手段:⚫贝叶斯模型在一个领域里,可能存在与每个类相关的一些先验知识,这对于更好的表示被研究对象的预测模型往往是有很大作用的。从贝叶斯的角度来看,可以考虑将这些先验知识纳入学习模型,同时将感兴趣的特征作为常规输入特征。贝叶斯网络自然可以用混合分布对多视图数据进行建模,以进行分类和特征交互识别等任务。如Zhu等人结合基因表达数据(GExD)、基于表达数量性状位点(eQTL)、转录因子结合位点(TFBS)和PPI数据来构建酵母调控网络[33]。⚫基于树的方法决策树,可以视为一种整合模型,可同时集成离散特征和连续特征,并且不需要将特征标准化成一种形式。随机森林是一种集成学习方法,随机森林简言之就是对多个弱决策树模型的集成,最终得到一个强性能的集成模型。随机森林模型在预测能力和泛化能力上都优于单个模型。研究者,也将基于树的随机森林模型应用在解决生命科学领域的问题,如Sun等人利用SNP及基因的数据预测疾病类别[34]。⚫基于核的方法基于核的方法,运用核函数,将每一视图原始数据转换到同一特征空间,然后对特征空间进行建模分析。2013年,Napolitano,Francesco等人,运用基于核的方法,将基于PPI、遗传相互作用(geneticinteractions,GI)、分子相互作用(molecularinteractions,MI)、化学结构相似性4个方面的数据得到的药物相似矩阵,使用核函数将其转换到同一特征空间,然后进行加权聚类[35],方法示例图如图1-5所示。13 2018年华东师范大学硕士学位毕业论文图1-5基于核的方法示意图[35]⚫基于网络整合的方法大多数基于网络整合的方法使用非常简单的方式来整合,筛选不同类型的网络数据然后整合到一个网络中。图1-6基于网络的方法示意图[35]14 2018年华东师范大学硕士学位毕业论文如图1-6所示的示例图,2013年,DutkowskiJanusz等人整合不同方式建立的基因-基因相互作用网络,然后运用简单的合并,得到最终的整合网络[35]。⚫矩阵分解模型非负矩阵分解是机器学习常用的降维和聚类方法,它的目的是通过分解找到低维的、非负的矩阵因子。近年来多视图与非负矩阵分解相结合的方法在生命科学领域也出现了不少研究,如Shen等人通过同一批病人的DNA甲基化,DNA拷贝数变异,mRNA表达数据运用矩阵分解方法,如图1-7所示,分解后得到更低维度的矩阵因子,然后用该矩阵因子对病人进行聚类,得到肿瘤的亚型[36]。由此可见,数据整合方法经历了三个阶段,最早阶段,将每种数据集整合到一个单一数据集,然后基于这一单一数据集进行建模,某种程度上,这种方式导致的结果就是带来了很大的信息损失;第二阶段,分别处理每一数据集,建立单独的模型,然后基于这些独立模型进行整合;第三阶段,采用联合模型来整合数据,这一阶段采用的方法,不需要进行任何数据形式的转换,所以不会引起信息丢失。图1-7矩阵分解示意图[36]1.4.本文的研究内容研究表明遗传学相关的知识在疾病分类中起着至关重要的作用,然而疾病分类体系并没有随着生物捕获数据技术的发展,组学等遗传学相关的数据的积累而改变。针对现有罕见疾病分类的缺陷,本文聚焦于罕见疾病,对分子网络、ORDO15 2018年华东师范大学硕士学位毕业论文罕见病注释实体(基因和表型)、本体结构等多视图数据进行研究,运用图正则化的非负矩阵三分解(GNMTF)模型进行整合,然后构建罕见疾病网络并在此基础上使用边聚类算法建立罕见疾病层次树状图。经过验证,本文提出的方法得到的罕见疾病关系对与ORDO中罕见疾病关系对有较高的重合度,且新得到的罕见疾病模块中疾病关系对相比较ORDO中的关系对,在分子层面相似度更高。与此同时,我们评估了每个数据集在罕见疾病网络构建中起到的作用,发现本文整合的关系类型都对罕见疾病网络有着不同程度的贡献,如预期猜测的一样,罕见病相关的遗传学数据对罕见疾病网络影响最大,这也进一步说明系统的整合分子数据及表型数据重构罕见疾病分类体系的必要性,为罕见疾病分类研究提供了有益参考。16 2018年华东师范大学硕士学位毕业论文2.数据整合重构罕见疾病分类体系流程的探究生物数据捕获技术的发展,海量的生物数据给我们带来了机遇也带来了极大的挑战。为便于后续对问题进行建模,这些数据都是以矩阵的方式表示。如基因表达数据,其值以矩阵Xnxm的形式出现,矩阵每一行代表一个基因,每一列代表一个实验条件下得到的表达数据。当把海量的数据表示成计算机可以处理的数值型矩阵后,运用数学算法从矩阵X中挖掘出有用的信息,学习矩阵X的低秩矩阵,然后基于该低秩矩阵使用机器学习等手段,满足我们聚类、分类、降维、推荐等特定要求。本章会着重介绍基于图正则化的非负矩阵三分解这一低秩矩阵学习模型在罕见疾病异构信息网络场景下,重构罕见疾病分类的流程进行深入探究及设计。首先我们会简单介绍复杂网络研究相关的理论基础;接着给出异构信息网络相关概念及本文的罕见疾病异构信息网络框架图;基于此,着重介绍本文采用的图正则化非负矩阵三分解模型及重构罕见疾病树状分类体系流程的设计。2.1.复杂网络简介现实世界中很多自然存在的系统都可以抽象建模成对象之间相互作用的网络模式,称为复杂网络(complexnetworks)模型。生物网络即将复杂网络应用到生物学学科上,对生物过程或生物互作关系建模的网络,如蛋白质相互作用网络,基因调控网络,疾病网络等等。在生物网络中,节点代表一个生物分子,如基因,节点之间的边表示生物分子之间有相互作用。基于网络的拓扑结构分析在很大程度上与真实的生物网络的结构特性相同,包括节点度分析,聚集分布情况,中心节点及模块识别等。生物分子模块通常与一些功能过程相关,研究生物网络的拓扑结构,更有助于揭示复杂的生物过程,如对疾病网络进行模块化分析,有利于理解复杂疾病的病因等。17 2018年华东师范大学硕士学位毕业论文2.1.1.网络基本概念网络(也被称为图,graph),涉及到的相关概念如图2-1所示的思维导图。图2-1网络基本概念2.1.2.网络模型网络模型有助于理解复杂网络以及网络特性。如图2-2所示比较了生物医学网络中三种常见的网络模型(随机网络、无标度网络、层次网络)的节点度分布规律及节点的聚集系数[21]。⚫随机网络(randomnetworks)随机网络,也叫随机图,随机过程构建出的复杂网络。最经典的随机网络是阿尔费雷德·雷尼和保罗·埃尔德什提出的ER模型[37]。ER模型的构造方法:假设有N个节点,并假设每对节点之间有边相连的可能性是常数01或者|R|>1时,这一网络即为异构信息网络。⚫同质与异质异构信息网络若|X|=1,|R|>1,即只有一种对象类型,关系类型R有多种,则称网络为同质异构信息网络[43];其余的异构信息网络是异质的。如图2-4所示这样一个复杂网络中[44],包含3种对象类型,6种关系类型,所以整个复杂网络含有3种同构信息子网络,3种异构信息子网络。⚫不同信息网络对比几种网络图的异同,如表2-1所示:表2-1不同网络图对比网络名称网络定义网络特点同构网络对象类型和关系类型都只含有一种体现节点间某种关系多关系网络图一种对象类型,多种关系类型体现节点间多种关系多维网络图多种对象类型多种对象类型数据间的连接关系复杂网络图网络结构更一般性真实世界网络基本是复杂网络22 2018年华东师范大学硕士学位毕业论文图2-4复杂网络图例[44]⚫网络模式刻画一个异构信息网络的元结构称为网络模式。用元结构来描述复杂网络的结构,有助于我们更清楚的理解该网络每个对象类型以及他们的关系。数学化表示:若异构信息网络,有一无向连通图=(X,R),其中X代表中对象类型集合,R代表关系类型集合,则是的网络模式。⚫元路径,指网络模式中的一条路径,不同的元路径有着不同的语义信息。2.2.2.本文罕见疾病异构信息网络框架图要想全面了解罕见病相关的信息,仅从单一信息维度对其进行研究,结果的准确性以及对疾病发病机制诠释的完整性已明显不足。为此,我们需要引入多视图数据对其进行研究。本文选择从罕见病相关的基因和表型两个视角,构建出本文的罕见疾病异构信息网络框架图,如图2-5所示,网络中涉及3种对象类型,分别是罕见疾病、基因、HPO表型,含有11种关系类型,其中包括9种同构子网络,2种异构子网络。23 2018年华东师范大学硕士学位毕业论文图2-5本文罕见疾病异构信息网络框架图本文罕见疾病异构信息网络模式可以表示成:无向连通图=(X,R),其中X={Orphaterm(1),Gene(2),HPOterm(3)},R={1-2,1-3,1-1,2-2,3-3}。元路径121,表示两个罕见病是否有共享基因关系,元路径131,表示两个罕见病是否有共享表型关系。对于一条元路径可能有多种不同的衡量方法来表示对象类型的之间的关系,如本文罕见疾病异构信息网络中,元路径22,我们采用了7种方式衡量基因-基因间的互作关系。2.3.罕见疾病分类体系重构模型的设计2.3.1.问题定义本文基于罕见疾病异构信息网络重构罕见疾病分类体系的问题,本质上是利用分子网络、ORDO罕见病注释实体(基因和表型)、本体结构等多视图数据组成的罕见疾病异构信息网络,运用计算模型,准确地计算罕见疾病之间的相关性,建立罕见疾病网络,然后基于这样的罕见疾病网络,获得有意义的簇(罕见疾病模块)以及簇之间的层级关系,重构得到罕见疾病分类体系,总结起来可以把罕见疾病分类体系重构问题归结为罕见疾病异构信息网络聚类问题。24 2018年华东师范大学硕士学位毕业论文传统的利用单一的特征空间或单一的关系,计算疾病之间的相似关系,建立的疾病网络,并分析网络的疾病模块,可视为同构网络聚类,而本文综合考虑罕见疾病、基因、表型三种对象类型,它们不在一个特征空间,表示着多种关系类型,异构信息网络聚类需要同时对网络中每一对象类型进行聚类。异构网络聚类与同构网络聚类最大的区别就是,需要同时对网络中不同对象类型同时聚类。异构网络聚类旨在为网络中的每一类型的对象识别出他们所属的簇类。针对本文的罕见疾病异构信息网络聚类,我们做出如下定义:罕见疾病异构信息网络=(V,E),=(X,R)代表的网络模式,簇类数设为kZ+,罕见疾病异构信息网络聚类的任务就是将X中的每一对象类型相对应的对象分配到k个簇中,使得簇内对象比簇外对象更相似。2.3.2.常用的异构信息网络聚类方法同构网络中有很多的分析方法,如:社区发现,排序,链路预测等,这些方法不能直接用在异构网络中,原因在于,异构网络比同构网络携带更多信息。由于异构网络含有的对象类型和关系类型的不同,也使得异构网络分析更为复杂。本文主要关注罕见疾病异构信息网络的聚类,下面就现有异构信息网络聚类算法进行对比。⚫基于概率生成模型聚类算法RankClus[42]、NetClus[45]、PathSelClus[46]、GenClus[47]都属于这一类聚类算法。RankClus将聚类和排名技术有机结合,仅用在二分的异构网络中,解决异构网络聚类问题。异构网络中,先对多个对象类型进行分类,然后对同一对象类型进行排序,排名最高的对象通常能够代表该类的特征,也就是说,利用聚类技术,得到更有意义的数据对象排名,这一排名可以更快速的了解该类别数据对象的特征,基于此又可以得到更正确的聚类效果,RankClus算法就是利用这一思想,实现聚类和排名相互强化,达到异构网络聚类目的。NetClus算法的出现是为了弥补RankClus只能处理二分图异构网络聚类,它能够在任意多种对象类型上进行异构网络聚类,尤其适合处理星状图的聚类。如图2-6所示,类似这样的25 2018年华东师范大学硕士学位毕业论文网络模式图可以视为星状图,其中绿色圆形是中心对象类型,周围的白色矩形是它的属性对象类型,依据它所连接的这些属性对象类型信息,实现中心对象类型的聚类。PathSelClus,它对异构网络中不同的元路径赋予不同的权值,运用概率模型对异构网络建模,仅从对象类型之间的链接关系出发,不考虑对象类型之间的属性信息,实现对异构网络聚类。GenClus在对象类型种引入权重,既考虑它们的直接链接关系,也考虑元路径确定的关系,也就是说,这一算法同时考虑了属性信息以及链接信息。总得来说,GenClus算法可扩展性是最好的,通常效果也是最好。图2-6星状图示例⚫主题传播的聚类算法异构网络中,对象类型的不同,包含的属性也不同,利用消息传递机制,从自身属性中提取特征,并传递给其他对象类型,使得整个聚类结果具有局部一致性。SI-Cluster[48]算法就是基于这一思想实现的。SI-Cluster算法可拓展性不够好,应用场景小,这里不详细介绍。⚫非负矩阵分解的聚类算法2013年,矩阵分解被提出来处理异构网络聚类问题。代表性的算法是HINMF[49],它可以处理如图2-6所示这样的星状网络模式,一个异构网络能被组织成星状图,那么这一异构网络也可以看成多视图(multi-view)数据,相对中心对象类型,每一属性对象类型可以看作是一个视图(view),对多个视图进行联合聚类,可以得到最终对中心对象类型的聚类。该算法的思想如图2-7所示,通过对每一个视图使用非负矩阵分解进行聚类,最终模型满足一个一致性约束即可,由此可见,这一方法的不足在于,没有考虑不同视图之间的一致性约束问题。26 2018年华东师范大学硕士学位毕业论文图2-7异构网络多视图聚类[49]2.3.3.非负矩阵分解算法2.1小节我们介绍了本文针对罕见疾病分类体系问题,整合分子网络、ORDO罕见病注释实体(基因和表型)、本体结构等数据设计出的罕见疾病异构信息网络框架图,从这一复杂罕见病网络图可知,它是典型的星状异构网络图,我们的目标是实现对中心对象类型——罕见病进行聚类,2.3.2小节我们比较了几种常用的异构信息网络图聚类算法。基于我们对罕见疾病异构信息网络的认识,我们提出图正则化的非负矩阵三分解模型来解决这一异构信息网络聚类问题,该模型是建立在非负矩阵分解(Non-negativeMatrixFactorization,NMF)的基础上,充分考虑每种对象类型内在的几何结构而设计得到的,也就是说,图正则化的非负矩阵分解在保证聚类的多视角性的同时,还考虑到了每一对象类型内部的局部关系信息,从而使得最终的聚类精确度优于上面提到的算法。下面简单介绍非负矩阵分解算法。非负矩阵分解算法最先是Lee和Seung提出的[50],该算法是基于人们对事物的认知是从部分开始的。原始数据矩阵被NMF算法分解成基矩阵U和系数矩阵V,并且U和V都是非负的,且U是基于部分表示的,这与经典的主成分分析(PCA)、矢量量化(VQ)、独立成分分析(ICA)、奇异值分解(SVD)等算法不同,它们分解后结果有负值,这样的负值结果没有实际意义。虽然NMF可解释性更强,符合人们对事物的认知,但是它在处理高维数据时,由于需要大27 2018年华东师范大学硕士学位毕业论文量的计算和迭代运算,这就使得算法的运行成本很高。Hoyer等人提出非负稀疏编码算法,进一步量化了稀疏度,加强了基矩阵U的局部化,也就是说,学习到的基矩阵基于部分表示更加突出[51]。上面提到的方法都是线性方法,忽略了原始数据的潜在关系结构,近年来,流形学习和非负矩阵分解相结合备受关注,在保证原始数据内在关系结构的基础上,Cai等人将NMF与流行学习相结合,提出了图正则化非负矩阵三分解模型(GNMTF)[52]。该模型的基本思想是在原始高维空间中两个数据对象映射到低维空间中,它们的低维表示依旧相近。鉴于我们罕见疾病异构信息网络中,基因、疾病、表型每一对象数据类型都有各自内在的关系结构,这对于罕见病这一中心对象类型的聚类来说,是宝贵的数据资源。2.3.3.1.非负矩阵二分解目标函数:数据矩阵n*m,的每一列代表一个样本的向量,值都是非负的,NMF的目标函数是找到两个非负矩阵Un*k和Vm*k最小化目标函数:2J=||−U𝑉𝑇||,其中||·||F指矩阵Frobenius泛数,k<<{m,n}。𝐹算法求解:每一轮迭代分解分别求U和V,由目标函数可知,当求U时,V不变,那么问题可以看成是局部最优化问题,具体迭代公式以及证明查阅此篇文献[53]。NMF本质上是用两个低维的小矩阵近似表示原始数据,U可以看出是的基的一个低秩矩阵因子。2.3.3.2.非负矩阵三分解NMF可以用来聚类,但非负矩阵二分解每次只对一种对象类型进行聚类,所以不适用于异构网络聚类,为了讨论方便,先简单介绍图正则化非负矩阵三分解模型的基础算法——非负矩阵三分解(Non-negativeMatrixTri-Factorization,NMTF)。如图2-8上方的A,展示了NMTF的分解示意图。28 2018年华东师范大学硕士学位毕业论文图2-8图正则化非负矩阵三分解罕见疾病异构信息网络示意图目标函数:数据矩阵Rn*m,矩阵中的值都是非负的,NMTF的目标函数:2min||R−𝐺S𝐺𝑇||,𝑠.𝑡.𝐺𝑇𝐺=𝐼,𝐺𝑇𝐺=𝐼.121122𝐺1≥0,𝐺2≥0,𝑆≥0𝐹其中,𝐺n*k,Sk*k,𝐺m*k,引入S矩阵,为矩阵三分解提供了更高12的自由度,保证分解后得到的低秩簇指示矩阵因子𝐺1和𝐺2可以很好的近似原始数据矩阵R。算法求解:NMTF和NMF的求解方法类似,也是根据迭代求解,具体迭代公式查阅此篇文献[54]。NMTF与NMF的区别在于,NMTF可以同时得到原始矩阵R行和列的簇指示矩阵因子,也就是说,可以同时得到R每一行,每一列的聚类结果,这样的聚类算法,也称为联合聚类(co-clustering)。NMTF算法进行聚类的优点在于:同时对行列进行聚类,行的聚类结果可以促进列的聚类,同理,列的聚类也可以促进行的聚类,相互提高。29 2018年华东师范大学硕士学位毕业论文2.3.4.图正则化非负矩阵三分解模型基于上面对非负矩阵分解算法的介绍,可知,虽然NMTF可以用来对异构网络进行聚类,但它是线性方法,未考虑原始网络图中对象类型内在固有的拓扑结构,如研究者发现,基因-基因间的互作网络可以被用来发现疾病-疾病间的关系[55]。基于此,我们采用图正则化非负矩阵三分解模型,充分考虑图2-5中,基因、表型对象类型网络内在固有拓扑结构对罕见病聚类的影响,提高整个罕见病聚类系统的准确性,下面将对本文采用的聚类算法框架——图正则化非负矩阵三分解(GNMTF)进行详细的介绍。对图2-5罕见病异构信息网络模式图,运用GNMTF算法求解,目标函数0𝑅12𝑅13为:J=min||𝑅−𝐺𝑆𝐺𝑇||2+∑7𝑡𝑟(𝐺𝑇𝐶𝑖𝐺),其中R=[𝑅2100],𝐶𝑖=𝑖=1𝐺≥0𝑅3100𝐶100[0𝐶2𝑖0],||·||表示Frobenius泛数,tr(·)表示矩阵的迹,R12与R21,R13与00𝐶3Ri31互为置换矩阵,R12、R13、C1、C2、C3块矩阵分别代表罕见病-基因关系、罕见病-表型关系、疾病-疾病关系、基因互作关系、表型-表型关系,如图2-8的B所示,GNMTF充分利用疾病、基因、表型各个对象类型同构网络先验的拓扑结构知识,对罕见病-基因和罕见病-表型两个关系矩阵进行共同矩阵三分解,得到罕见病簇指示因子G1、基因指示因子G2,表型指示因子G3。2.3.5.边聚类ORDO中一个疾病实体可能隶属于不同的疾病分类中,如图2-9所示,绿色矩形表示的实体‘ORPHA:46059’在ORDO中的层级分类关系,可发现其可被分到罕见遗传疾病大类(ORPHA:98053)中,也可以分到罕见的先天代谢异常大类(ORPHA:68367)中,也就是说一个疾病实体,可能属于不同的疾病类中,在罕见疾病网络中,疾病模块是存在着重叠区域的。由图正则化非负矩阵三分解得到罕见疾病簇指示矩阵因子G1,利用Spearman秩相关系数来度量罕见疾病之间相关程度,挑选P-value<0.05的罕见30 2018年华东师范大学硕士学位毕业论文疾病关系对,构建罕见疾病网络,由上面所述,一个罕见病实体可能属于不同的疾病模块(社区),想要基于罕见疾病网络,得到罕见疾病树状层次图,可以视为重叠社区结构发现问题。图2-9ORPHA:46059在Orphanet数据库中的层级分类关系重叠社区发现问题最开始的研究都是集中在基于节点的考虑上,2010年,Ahn等人提出了边社区发现问题[56],基于边来研究节点的重叠社区结构。他们将社区看成是由边构成的群组(group),利用边的相似性来对边聚类,进而实现兼顾节点层级关系和重叠关系的目标。下面简要介绍本文运用边聚类这一经典算法(LinkClusering,LC)解决罕见疾病网络聚类问题。LC算法思想是使用Jaccard相似度计算边之间的相似值,得到边的相似度矩阵,然后用层次聚类对相似度矩阵进行聚类,最后用分割密度评价指标确定最佳划分层次。如图2-10所示,LC算法在A图这样的网络拓扑上得到的相应树状图(B所示)及红色分割密度虚线,由A可看到4个边社区,4和7是重叠节点。综上所述,在数据整合重构罕见疾病分类体系问题上,本文采用的算法流程如下:31 2018年华东师范大学硕士学位毕业论文数据整合重构罕见疾病分类体系的算法流程输入:Ri12、R13、C1、C2、C3、聚类数目K输出:G1、G2、G3、D、T(罕见病树状图)、S(罕见病模块类)𝒋𝒋𝒋步骤1:GNMTF算法重复1000次得到𝑮、𝑮、𝑮;𝟏𝟐𝟑̅̅̅̅=𝟏𝒋步骤2:求均值𝑮𝟏∑𝑮𝟏;𝟏𝟎𝟎𝟎步骤3:Spearman秩相关系数计算罕见病对的相关程度,构建罕见疾病网络D;步骤4:LC算法对罕见疾病网络D进行边聚类得到树状图T,及新的罕见病模块类S。图2-10边聚类算法在示例网络上的结果展示2.4.本文重构罕见疾病分类体系流程小结本章的论述,可知本文针对罕见疾病分类体系的研究中,不仅整合了分子数据、ORDO罕见疾病相关实体注释等多视图数据,而且第一次引入基于矩阵分解的方式研究罕见疾病异构信息网络,形成了一套基于数据整合方式重构罕见疾病分类体系流程。本文提出的图正则化的非负矩阵三分解的数据整合方式的优势在于,它能够整合不同的层面的数据,这些数据彼此互补,从不同角度对罕见疾病发病机制进行注释,弥补单一特征集对罕见病片面的注释,相比于现在的罕见疾病分类体系,考虑了更多罕见疾病遗传学知识,为罕见疾病的分类研究提供新的思路。32 2018年华东师范大学硕士学位毕业论文3.结果的评估与讨论这一章首先介绍构建罕见疾病异构信息网络,多视图数据的来源;接着将我们提出的图正则化非负矩阵三分解(GNMTF)模型解决罕见疾病异构信息网络聚类问题时,讨论具体数据整合方法的设计以及模型参数等的设置问题,分析每一数据源对整合模型的贡献情况,发现基因互作数据对疾病关系影响最大;随后对罕见病聚类结果以及罕见病树状图结果进行展示;最后从不同的角度,如分别比较聚类后疾病模块类内疾病之间与Orphanet原有层级关系中疾病之间的相关基因集,在GO注释的生物学过程方面的相似性,对聚类结果在疾病分子机制层面进一步验证评估,同时,我们运用矩阵填充的方法,预测罕见疾病-基因关系,并与其它两种预测方法进行比较,发现矩阵填补方法性能显著优于其它两种算法。本文罕见疾病分类研究的流程图如下图3-1所示。图3-1罕见疾病分类研究流程图33 2018年华东师范大学硕士学位毕业论文3.1.多视图数据获取Orphanet中包含多种实体,且同类、不同类实体间存在大量的相互作用关系。提取Orphanet中的实体及交互关系。通过对Orphanet中多实体交互关系的分析可知,疾病D、基因G和表型P是Orphanet中最重要的3类实体。疾病D和基因G之间的交互关系可以构建关系矩阵R12,疾病D和表型P之间的交互关系可以构建关系矩阵R13,疾病之间的关系通过矩阵C1表示,基因之间的互作关系(i)通过矩阵C表示,表型之间的语义关系通过矩阵C3表示。Orphanet中罕见疾2病间的关系及分类问题转换成基于疾病-基因和疾病-表型关系矩阵R的联合聚类分析。挖掘出罕见疾病的潜在关系,为疾病诊断、治疗、筛查等等提供基础。2.2.2小节已经给出本文罕见疾病异构信息网络模式框架图,可见,本文异构信息网络涉及3种对象类型,11种关系类型,表2给出了,这11种关系类型的描述和关系矩阵中涉及到的节点个数以及它们的来源。下面详细介绍这11种关系类型如何得到的。表3-1罕见病异构网络数据来源数据矩阵数据描述节点数据来源R12疾病-基因关系矩阵3569/3641Orphanet[1]R13疾病-表型关系矩阵2592/4543OrphanetC1疾病-疾病约束矩阵4926Orphanet基因间互作关系矩阵13406SharmaA,etal.[55](i)C(1i7)2C3表型-表型约束矩阵11850HPO[57]3.1.1.罕见疾病数据Orphanet数据库堪称目前世界上最为权威和丰富的罕见病知识库,通过对这一数据库中实体及实体关系的抽取,然后,将实体间的相互作用关系用关系矩阵表示。依据下面的计算公式,可得到罕见病-基因二元关系矩阵R12、罕见病-表型二元关系矩阵R13。34 2018年华东师范大学硕士学位毕业论文1,实体𝑖与实体𝑗存在交互关系𝑅𝑖,𝑗={0,其他这里罕见病相关基因及罕见病相关表型数据可以从http://www.orphadata.org/cgi-bin/index.php/免费下载,我们下载的版本时间节点是2017年5月1日,解析en_product6.xml和en_product4_HPO.xml文件(解析方法见附录2),得到3569个罕见病有已知相关致病基因信息,涉及到3641个基因,6806对罕见病-基因关系对;2592个罕见病有已知相关注释的表型信息,涉及到4543个表型,52496对罕见病-表型关系对。此外,我们提取Orphanet罕见病本体库(OrphanetRareDiseaseOntology,ORDO)中罕见病实体间“is_a”这样的层级关系,参考Žitnik等人[58]提出的方法量化本体中术语间的拓扑关系远近程度。使用-0.8L计算两个疾病实体间约束关系,得到疾病-疾病约束矩阵C1,这里的L代表ORDO拓扑网络中,两个疾病实体之间最短路径长度,这里的参数0.8是借鉴Žitnik他们实验研究得出的经验值设置的。在真实的Orphanet数据库中,疾病-基因和疾病-表型的关系矩阵是非常稀疏,如图3-2所示,左边的圆代表有已知基因信息的罕见病,右边的圆代表有已知表型信息的罕见病,由图可知,有基因和表型信息的罕见疾病数量并不多,这一版本中只有1235个疾病。图3-2有已知基因信息的罕见病与有已知表型信息的罕见病的交集情况3.1.2.基因互作数据为收集尽可能全面准确的基因互作数据,这里我们只考虑有实验验证的物理上的蛋白质相互作用,不考虑基因表达数据等提取的蛋白质相互作用,此外,为35 2018年华东师范大学硕士学位毕业论文了获得尽可能完整的互作组数据,我们整合了几个数据库中的直接相连的蛋白质相互作用数据。主要包括:⚫调控相互作用(regulatoryinteractions):收集自TRANSFAC数据库[59],含有564个蛋白质,1335条相互作用;⚫二元相互作用(binaryinteractions):收集自IntAct[60]、MINT[61]中的二元相互作用,含有8120个蛋白质28653条相互作用;⚫文献加工获得的相互作用:收集自IntAct[60]、MINT[61]、BioGRID[17]、HPRD[62],含有11798个蛋白质88349条相互作用;⚫依赖代谢酶获得的相互作用:若两个酶在KEGG和BIGG数据库中共享相邻反应,则假定它们之间有相互作用,含有921个蛋白质(酶),5325条相互作用[30];⚫蛋白复合物:收集自CORUM数据库[63],含有2069个蛋白质,31276条相互作用;⚫激酶-底物对:蛋白激酶是不同生物过程的重要调节因子,收集自PhosphositePlus[64],含有1843种蛋白质6066条相互作用;⚫信号相互作用(signalinginteractions):收集自这一数据库[65],含有6339种蛋白质,32706条相互作用。以上7类相互作用的交集网络中包含13460个蛋白质,141296条相互作用。(i)对上面每一种相互作用建立一个基因间的约束矩阵C。23.1.3.人类表型本体数据本文是基于人类表型本体(HumanPhenotypeOntology,HPO)作为标准的表型描述词,对于表型-表型之间的约束关系矩阵C3的计算方法与C1的计算方法类似,依据实验验证,选择参数0.9,也就是提取HPO中表型间的“is_a”层级关系,依据这一拓扑图谱,根据-0.9L计算两个表型实体的约束关系值填充C3。36 2018年华东师范大学硕士学位毕业论文3.2.算法实现细节及技术方法3.2.1.参数设置本文,我们主要使用图正则化的非负矩阵三分解(GNMTF)算法分析罕见疾病异构信息网络,整个算法流程详见第二章,算法涉及到的参数有聚类数目K。⚫聚类数目K聚类数目K的设置,决定了GNMTF在异构疾病网络聚类中对3类对象类型的降维程度,在本文中,我们在一组预先设定的可能值中选择K,通过重建基因-疾病矩阵R12的能力,挑选确定聚类数目K,其中重建基因-疾病矩阵R12的𝑇2能力,通过残差平方和RSS这一评价指标量化,RSS(𝑅𝑖𝑗)=∑[(𝑅𝑖𝑗−𝐺𝑖𝑆𝑖𝑗𝐺𝑗)]。我们设定K在30到100区间上步长为5,增加,计算模型在R12上RSS的变化图3-3参数K对RSS的影响情况,结果如图3-3所示,我们可以清楚的看到,随着K的增加,RSS值先降低、后增加,但K超过某一阈值后,增加K反而会降低模型性能,原因在于当K达到某一阈值时,分解后的指示矩阵已经能够很好地刻画数据类型的特征,继续增加K,反而会引入噪声,降低模型性能,当K在55到70这一区间时,RSS变化不大,模型获得结果相似。一般来说,如果数据包含有意义的信息(相比较于随机输入),则K取的值比原始数据维度越小,模型性能越好,因为这些原始37 2018年华东师范大学硕士学位毕业论文数据能够被有效压缩,低维表示,具有更好地局部特性。由实验结果来看,本文我们设定的K为60。3.2.2.技术实现本文所有实验都在Linux环境下运行,所有的程序脚本都是使用Python编写实现的,GNMTF算法的实现是基于Python中的工具包skfusion(使用说明见附录4)而改进的。边聚类算法是基于R中的工具包linkcomm实现的(工具包使用说明见附录5)。相比于Windows系统,Linux系统的可拓展性,高可靠性、支持多用户多任务工作,稳定性较好,可移植性强等优势而广泛被使用。Python语言可在Linux环境下高效运行,并且Python中有很多库用于科学计算,如Numpy、Scipy、Pandas等,同时还含有可视化工具包,如Matplotlib、Seaborn等,方便科研人员进行数据分析、数据挖掘等工作。3.3.结果与评估3.3.1.罕见疾病分类树状结果图3-4罕见疾病异构信息网络聚类树状图38 2018年华东师范大学硕士学位毕业论文在2.3.5小节中,我们给出了本文处理罕见疾病异构信息网络共聚类问题的算法流程,如图3-4所示,LC算法最终在含有4926个罕见病节点,85302条罕见疾病关系对构成的罕见病相似网络中,得到1641个罕见疾病模块(附录3展示了部分罕见疾病模块类内疾病成员),这其中最大的模块类中含有157种罕见病。这1641个罕见疾病模块中有:853个模块含有2个罕见病、235个模块含有3-4个罕见病、110个模块中含有5-8个罕见病等等。其中85302条罕见疾病关系对与Orphanet中“is_a”相连的疾病对重合率达到91%。与Orphanet相比,我们发现1036个模块中罕见疾病间的关系对在Orphanet中是“is_a”的关系。3.3.2.各个数据源对整合模型的贡献我们通过整合罕见病、基因、表型三类对象类型的11种关系类型,分析了每一份数据集对GNMTF模型影响,通过残差平方和(ResidualSumofSquares,RSS)和方差(Explainedvariance,Evar)这一组指标量化,去除某一数据集对模型的影响,当RSS增大和Evar变小时,说明模型性能在变差,反之,模型性能(i)在变好。分析表3-2结果可发现,去除C相关的数据,RSS升高和Evar下降2的幅度最大,由此可见去除基因互作相关的数据,模型的性能大大降低。也就是说,对于整个罕见疾病异构信息网络共聚类问题中,基因互作数据是最重要的,其次重要的是表型本体及罕见病与相关表型的信息,再其次是罕见病本体的拓扑结构信息。每一数据集对整合模型都有不同程度的贡献,这也侧面反映出,从多视图数据整合角度研究罕见疾病的必要性及重要性。表3-2每一数据集对GNMTF模型的影响数据源C2(i)C1C3C3+R13RSS上升率,%13.3%3.8%2.2%6.3%Evar下降率,%9.5%4.6%1.3%4.5%39 2018年华东师范大学硕士学位毕业论文3.3.3.罕见疾病类内疾病间分子层面相似性评估在3.3.1小节,我们介绍了最终边聚类得到1641个罕见疾病模块类,我们想知道被划分到同一模块类中的疾病之间在分子层面是否有着某种关联。下面我们从两个层面对本文整合后的结果与Orphanet进行对比分析评估。3.3.3.1.基于GO的生物学过程相似性对比本文所得罕见疾病分类网络与Orphanet分类网络,计算两个疾病在拓扑结构上的邻近程度,与它们相对应的基因集基于GO的生物学过程(BiologicalProcess)方面的相似性,结果如图3-5所示,横轴代表疾病对在拓扑结构上的邻近程度,也就是疾病关系对属于同一类别的置信水平,纵轴代表疾病关系对相应基因集在GO(BP)上的相似值,绿色线代表本文罕见疾病分类网络中疾病关系对的相关基因集在GO的生物学过程上的相似情况,蓝色代表Orphanet的情况,绿色线同等情况明显高与蓝色线,表明本文提出的算法,在相同的拓扑邻近水平上,我们数据整合的方式,最终罕见疾病分类网络中疾病之间,它们相对应的基因集的生物学过程相似性显著高于Orphanet,也就可以推断出,本文设计的方法,得到的罕见疾病分类树状网络,类内疾病间分子层面相似性更高。图3-5罕见病对拓扑结构性与疾病相关基因集在GO(BP)相似性情况40 2018年华东师范大学硕士学位毕业论文3.3.3.2.XD-score疾病分子组件(molecularcomponents)间相互作用,对疾病病因研究非常重要。XD-score使用随机漫步方式量化两个疾病相对应的基因集在分子相互网络中的功能相关性,XD-score值越大,疾病间相关基因集的功能越相似[66],也就是说,XD-score可以量化两个疾病的分子机理(病因)的一致性。我们通过计算本文得到的疾病模块内疾病关系对的XD-score,与Orphanet对比,结果如图3-6所示,本文数据整合过后得到的罕见疾病分类中疾病对的XD-score显著高于Orphanet,也就是说罕见疾病模块类内疾病分子机理一致性更强。图3-6XD-score的分布情况综上所述,由GO(BP)相似性、XD-score两个角度,对罕见疾病分类后类内疾病间在分子层面的相似性进行评估,得到的一致性结果就是,本文数据整合处理后的罕见疾病模块类,类内疾病之间的分子机理更相似。3.3.4.案例讨论⚫糙皮病型皮疹-神经表现综合征糙皮病型皮疹-神经表现综合征(Pellagra-likeskinrash-neurologicalmanifestationssyndrome,ORPHA:2837),在Orphanet中目前并没有被分类,且尚未有已知相关的基因信息。如图3-7的A所示,ORPHA:2837周围的矩形方框代表,已知与其相关的表型,分别指:HP:0000958(干肤)、HP:0004337(氨41 2018年华东师范大学硕士学位毕业论文基酸代谢异常)、HP:0001263(发育迟缓)、HP:0000988(皮疹)、HP:0001315(肌腱反射下降)、HP:0001252(肌肉张力减退)、HP:0100022(运动异常)、HP:0001522(婴儿死亡)。术语ID与英文名称的对应详见附录1。如图3-7的B所示,在利用本研究方法建立的分类体系中,ORPHA:2837与ORPHA:289829(色氨酸代谢病)同属于一个罕见病模块类,且这一模块类又属于ORPHA:68367(先天性代谢疾病)这一大模块,ORPHA:289829、ORPHA:68367都是代谢相关的疾病,Salih等人[67]、Freundlich等人[68]和Kremer等人[69]研究表明,ORPHA:2837是色氨酸代谢紊乱引起的,由此可见,对ORPHA:2837的分类是合理。图3-7Orphanet未知分类的罕见疾病的案例分析⚫发育不全胫骨-多指趾综合征发育不全胫骨-多指趾综合征(Hypoplastictibiae-postaxialpolydactylysyndrome,ORPHA:3332),在Orphanet中目前并没有被分类,且尚未有已知相关的基因信息。已知与罕见病ORPHA:3332相关的表型如图3-7的C矩形所示,ORPHA:3332的表型有腓骨直径增加、长骨弯曲、拇指不发育或发育低下、身材矮小、手并指、腓骨异常等等。如图3-7的D所示,在利用本研究方法建立的分类体系中,ORPHA:3332与ORPHA:139012(罕见骨发育疾病)属于一个罕见疾病模块类,该模块类属于ORPHA:93890(胚胎发生过程中罕见的发育缺陷)这一大的模块类,Cenitre研究表明[70],ORPHA:3332是一种罕见的先天性畸形综合征,由胚胎期母体受环42 2018年华东师范大学硕士学位毕业论文境因素等影响所致,产前检查会有轴后多指趾等迹象。也就是说,本文建立的罕见疾病分类体系将ORPHA:3332归类于胚胎发生过程的发育缺陷是合理的。⚫先天性上睑下垂先天性上睑下垂(Congenitalptosis,ORPHA:91411),在Orphanet中被分在ORPHA:97966(罕见眼科疾病)类中,有已知致病基因COL25A1,未有相关表型信息报道。在利用本研究方法建立的分类体系中,ORPHA:91411与ORPHA:101435(罕见遗传眼科疾病)同属一个疾病类中,Marenco等人研究表明[71],先天性上睑下垂是上睑下垂在婴幼儿中较常见的形式,且研究认为遗传是其重要的发病因素,多为常染色体显性遗传。可见,本文建立的罕见疾病分类体系将ORPHA:91411与ORPHA:101435划分到一个疾病模块类,更精准的考虑到了先天性上睑下垂的发病因素,这样的分类也是合理的。⚫卵巢小细胞癌卵巢小细胞癌(Smallcellcarcinomaoftheovary,ORPHA:370396),在Orphanet中被分在ORPHA:250908(罕见肿瘤疾病)类中,有已知致病基因SMARCA4,未有相关表型信息报道。本文建立的罕见疾病分类体系将ORPHA:370396与ORPHA:398934(卵巢恶性上皮性肿瘤)同属一个疾病类中,Stewart等人研究表明[72],卵巢小细胞癌是罕见的恶性卵巢肿瘤的一种特殊类型,由单一的小细胞组成,且细胞具有上皮特征,与上皮性卵巢癌相似。也就是说,本文基于疾病分子数据及表型数据整合重构的罕见疾病分类的粒度更细。以上4个案例的分析,可知基于分子水平的信息及罕见疾病表型相关信息的整合,重构的罕见疾病分类体系比基于解剖学和人工加工得到疾病分类体系的粒度更细,且能够将目前Orphanet中未分类的罕见疾病,在有疾病相应致病基因或者表型的信息前提下,进行自动化合理归类,提高疾病诊断效率。3.4.罕见疾病致病基因预测讨论上一小节的分析可知,本文重构的罕见疾病分类体系与Orphanet相比,类内疾病间在分子层面相似性更高,也就是说本文罕见疾病异构信息网络共聚类的43 2018年华东师范大学硕士学位毕业论文处理方式比较好的整合了罕见疾病相关的分子学数据和表型数据,从多个维度对罕见疾病进行关联与分类,基于此,本文尝试应用分解后得到的因子矩阵,重新填充罕见疾病-基因关系矩阵,预测罕见疾病相关致病基因。3.4.1.问题定义疾病致病基因预测问题,相当于给定疾病和一个候选基因列表,依据疾病与候选基因之间的相关性进行降序排列这些候选基因集,来预测疾病与基因的相关性。也就是说,疾病致病基因预测问题,实质是对候选基因集进行排名的问题。3.4.2.现有预测方法针对这一预测问题,提出了多种基于计算的解决方法,这些方法依据这一疾病现有的生物信息学知识和已知的、得到验证的致病基因。经常被用来预测疾病致病基因的方法中使用的生物数据有:PPI网络、序列信息、基因表达数据、分子通路和生物医学文献等[73]。3.4.2.1.基于近邻方法生物假设:相比网络中其它基因,与已知致病基因直接相连的近邻基因,更可能与疾病有关。基于这一假设,Jegga等人结合PPI和罕见疾病已知致病基因运用基于近邻的方法(vertexsimilarity,VS)对疾病致病基因进行预测[74]。这一方法不足在于,使用的PPI数据当前不够完整,包含很多假阳性信息,此外,这样的方法不能用来预测那些未知遗传信息的疾病。3.4.2.2.基于网络传播方法基于网络传播方法通过从被查询疾病的已知致病基因出发,利用随机漫步(Randomwalk,RW)等方式沿着网络连接进行传播,最后得到候选基因与已知基因的打分,依据打分结果对候选基因集进行排序。DIGNiFi方法就是利用PPI网络对罕见疾病相关的基因采用随机漫步的方式对候选基因进行排序[75]。44 2018年华东师范大学硕士学位毕业论文3.4.3.本文矩阵填充预测方法PPI、基因序列等生物特征是基因预测的主要生物数据来源,然而这些数据集的不完整和假阳性,仅凭单一数据对疾病致病基因做出预测,得到的结果准确性是有限的,为解决该问题,多视图数据整合方法充分利用不同类型数据互补特性,提高了可用信息质量。目前已知的罕见病-基因关系相对较少,对于罕见病-基因关系预测的研究非常有必要。也就是说,罕见病基因预测问题可以抽象为这样的问题:假定对于一个未知矩阵n*m,只知道其中极少的元素值,现在我们希望运用这部分信息去预测那些还没有被观测到的元素的值。将问题抽象化后,我们发现这一问题可以类比于推荐系统中的用户-物品偏好程度预测等问题。在推荐系统中,希望通过历史数据中的小部分用户偏好数据,来对缺失的绝大部分未知偏好数据进行恢复预测,如Netflix电影推荐就是这样的问题,在Netflix的用户-电影评分矩阵中只有1%的值是已知的,99%的信息是缺失的,在该问题中,影响用户对电影的喜好因素是有限的,也就是说这一评分矩阵是近似低秩的,而矩阵中未知的数据的恢复可以通过求解矩阵填充问题得到。类似的,针对罕见病-基因关系预测问题,我们可以认为是罕见病(用户)对基因(物品)的“偏好”程度预测问题,借鉴上述推荐系统问题的解决方法,本文我们运用矩阵填充算法尝试预测罕见病-基因关系。下面是本文基于GNMTF的矩阵填充方法解决罕见病-基因关系预测问题的算法流程。罕见病致病基因预测问题——基于GNMTF的矩阵填充算法流程输入:R12、R13、C1、Ci2、C3𝒋输出:𝑹、每一罕见病-基因对的P-value𝟏𝟐𝒋𝒋𝒋步骤1:GNMTF算法重复1000次得到𝑮、𝑮、𝑺;𝟏𝟐𝟏𝟐𝒋𝒋𝒋𝒋𝒋𝑻步骤2:求解1000次矩阵填充的𝑹(𝑹≈𝑮𝑺𝑮);𝟏𝟐𝟏𝟐𝟏𝟏𝟐𝟐步骤3:置换检验计算罕见病-基因对的P-value(<0.05)。𝑗𝑗𝑗在步骤1中,GNMTF分解后得到的𝐺、𝐺、𝑆,都是低秩矩阵,接着步1212骤2,运用这些低秩矩阵来拟合原来的R12关系矩阵,基于这样的非负矩阵分解45 2018年华东师范大学硕士学位毕业论文的低秩矩阵填充模型,降低了算法的时间复杂度,加快算法的运行速度,而且能保持原始数据的局部特征。步骤3中由前两步得到每一对罕见病-基因对都有1000个预测值,使用置换检验(Permutationtest)计算每一罕见病-基因关系对的P-value,挑选P-value<0.05的作为最终的预测出的罕见病-基因关系对。置换检验,是Fisher提出的一种基于大量计算,利用样本数据的随机(全)排列的统计推断的方法,特别适合总体分布未知的小样本资料。对样本进行顺序上的变换,然后重新计算统计检验量,最后在此基础上求出P-value进行推断。3.4.4.罕见疾病致病基因预测性能评估3.4.4.1.与其他预测方法对比本小节评估和比较基于近邻的VS方法和基于网络传播的RW方法,以及本文提出的矩阵填充方法在预测罕见疾病致病基因方面的性能,评价指标是真阳性率(TPR),已知的基因排在前10位中的比例,值越高越好。本文选取了DIGNiFi文章中用到的128个罕见疾病,1184个罕见疾病致病基因,运用3种方法对罕见疾病致病基因进行预测,由图3-8所示,横轴代表预测罕见疾病致病基因的排位(我们只选取了前10位),纵轴代表真阳性率TPR(百分比),对比可知,本文的矩阵填充方法在罕见疾病致病基因预测方面性能更好。图3-8矩阵填充与RW、VS方法预测性能的比较46 2018年华东师范大学硕士学位毕业论文3.4.4.2.未知的罕见疾病致病基因预测准确性在3.1小节,我们介绍了本文是基于Orphanet数据库中2017年5月1日的版本数据进行实验的,由于Orphanet数据库是不断更新的,我们解析最近的版本(2017/12/01),发现新增加的罕见病-基因关系对中,有三个罕见病在我们研究的4926种疾病中,新版本增加的这三种疾病已知致病基因信息如表3-3所示。表3-4是本文的矩阵填充模型预测出的这3种疾病致病基因的前10位结果,发现数据库新更新的这3种疾病已知致病基因在本文的预测结果中都排在前10位。通过不同版本的对比,分析预测结果表明可以用矩阵填充的方式进一步预测罕见病致病基因。表3-3本文所研究疾病中最新增加的已知疾病致病基因信息疾病ID疾病名称新增基因2151Hirschsprungdisease-ganglioneuroblastomasyndromePHOX2B50943KeratolyticwintererythemaCTSB79094GrangesyndromeYY1AP1表3-4矩阵填充算法对这3种疾病基因预测的情况排位疾病ID预测基因疾病ID预测基因疾病ID预测基因12151PHOX2B50943KRT579094LMNA22151INPP5E50943KRT1479094FBN132151PEX150943MEN179094MYH1142151RET50943FERMT179094YY1AP152151MKKS50943KRT1679094ELN62151PEX650943KRT179094COL5A172151CPT250943KCNJ1179094CLIP282151CEP12050943ABCC879094BAZ1B92151PEX150943CTSB79094GTF2IRD1102151PEX550943GJA179094RFC247 2018年华东师范大学硕士学位毕业论文3.5.本章小节本章首先介绍了本文罕见疾病异构信息网络中各部分数据的来源,接着概述了本文算法实现的细节,包括参数的选取以及程序编写语言和运行平台的介绍,随后对本文得到的罕见疾病分类树状图进行展示,分析不同数据源对整合模型的影响程度,并从不同角度评估疾病模块类内疾病分子层面的相似性,结合案例讨论,说明本文的处理方法能够对Orphanet中未分类的罕见疾病进行分类,最后讨论了将图正则化非负矩阵三分解后得到的疾病因子和基因因子矩阵利用矩阵填充方式,用于疾病基因预测,并分析其可行性及准确性。48 2018年华东师范大学硕士学位毕业论文4.总结与展望4.1.总结罕见疾病,个体罕见,但整个罕见病群体不罕见,正如前文提到的,当前的疾病分类体系并没有充分利用基因组学、蛋白质组学等遗传学知识,但研究表明,这些遗传知识能够决定疾病分类,需要研究人员不断地更新,以便更好地了解罕见病的分子机制,提高疾病的诊疗以及药物研发等。不断积累的组学数据,这些数据彼此之间互补的提供疾病某方面的特征,而且单方面的数据,本身可能含有噪音,这就可能降低后续分析的准确性,那么如何充分发挥这些组学数据对疾病研究的价值,进一步降低单个数据集噪声的影响,从各个方面互补信息中更好的阐释疾病的发病机制,成为网络生物医学中非常重要的课题。本文首先对罕见疾病异构信息网络共聚类问题提出了具体的计算解决方法。针对这一问题,我们首先介绍了当前疾病网络的研究方法,并提出一种基于图正则化的非负矩阵三分解的异构网络整合方法,结合边聚类算法,对罕见疾病异构信息网络进行研究,经过评估,利用本研究方法得到的罕见疾病分类体系,疾病模块类内疾病间在分子层面上比原有Orphanet疾病间生物学相似性更高,为后续进一步研究罕见疾病病因提供帮助。此外,本文讨论了矩阵填充方法应用于罕见疾病致病基因预测的问题,我们首先介绍了当前罕见疾病基因预测的方法,并提出矩阵填充的方法进一步预测罕见疾病候选基因的排名,并将本文的矩阵填充方法与RW、VS这两种方法预测性能进行比较,发现本文的矩阵填充方法预测性能显著高于其他两种方法,同时评估了矩阵填充方法在罕见疾病致病基因预测中的准确性,发现矩阵填充方法能够较好的处理罕见疾病致病基因的预测问题。基于此,我们可以说,好的模型对疾病网络研究起到事半功倍的作用,本文的分析流程在对罕见疾病异构信息网络的潜在模式挖掘研究中有重要的参考价值。49 2018年华东师范大学硕士学位毕业论文4.2.展望本文最大的创新点在于,虽然之前有研究将矩阵分解方法成功的用于重构基因本体(GeneOntology)[76]等问题,但目前还没有研究者,将该方法应用在罕见疾病异构信息网络研究中,此外,本文的罕见疾病异构信息网络整合了基因互作数据,疾病、表型各自本体中拓扑结构数据,罕见疾病-基因数据,罕见疾病-表型数据,这些多视图的数据整合,给罕见病研究提供了互补信息。本文提出图正则化非负矩阵三分解方法对罕见疾病异构信息网络聚类的处理结果上来看,表现良好,能够将Orphanet未分类的罕见疾病依据分子数据或表型信息进行自动化分类,对已知分类的罕见疾病分类的粒度相对更细,但是本文这样的处理流程也有一定局限性:其一,这样整合方法非常依赖网络中基因互作数据,所以基因互作数据的质量及完整性是非常重要的,如果基因互作数据质量不够,那么结果是由很大偏差的;其二,当网络中实体关系不断增多时,在进行矩阵分解时,运算复杂度会大大提高,计算时间成本变高;基于这二个问题,可尝试的改进方法是:第一,收集最新的高质量基因互作数据来不断地扩充和完善基因互作网络。第二,继续改进算法,调整参数K,必要的时候重新设计矩阵分解时的更新策略等,让算法在可控的时间内完成。考虑到以上两个问题,此外,目前有确切的基因、表型相关信息的罕见病数目较少,所以,基于本文的方法重构的罕见疾病分类体系不能涵盖所有罕见病,因而现阶段,本文提出的处理流程不能根本代替Orphanet本体库的分类体系,但它可进一步补充说明罕见疾病之间分子机制的相似性,且能对有基因或表型信息的未分类罕见疾病进行分类,可应用于罕见疾病致病基因预测中,为罕见病诊疗、药物设计提供帮助。50 2018年华东师范大学硕士学位毕业论文参考文献[1]K.M.Boycottetal.,“InternationalCooperationtoEnabletheDiagnosisofAllRareGeneticDiseases,”AmJHumGenet,vol.100,no.5,pp.695–705,2017.[2]E.Tambuyzer,“Rarediseases,orphandrugsandtheirregulation:questionsandmisconceptions.,”NatRevDrugDiscov,vol.9,no.12,pp.921–9,2010.[3]J.Jiaetal.,“ERAM:Encyclopediaofrarediseaseannotationsforprecisionmedicine,”NucleicAcidsRes,vol.46,no.D1,pp.D937–D943,2018.[4]A.Rath,A.Olry,F.Dhombres,M.M.Brandt,B.Urbero,andS.Ayme,“Representationofrarediseasesinhealthinformationsystems:Theorphanetapproachtoserveawiderangeofendusers,”HumMutat,vol.33,no.5,pp.803–808,2012.[5]黎英,黄文聪,“网络医学的架构及其研究进展”,中国组织工程研究,2017.[6]A.delaFuente,“From‘differentialexpression’to‘differentialnetworking’-identificationofdysfunctionalregulatorynetworksindiseases,”TrendsinGenetics,vol.26,no.7.pp.326–333,2010.[7]A.L.Barabási,N.Gulbahce,andJ.Loscalzo,“Networkmedicine:Anetwork-basedapproachtohumandisease,”NatRevGenet,vol.12,no.1,pp.56–68,2011.[8]A.L.Barabási,N.Gulbahce,andJ.Loscalzo,“Networkmedicine:Anetwork-basedapproachtohumandisease,”NatRevGenet,vol.12,no.1,pp.56–68,2011.[9]K.Venkatesanetal.,“Anempiricalframeworkforbinaryinteractomemapping,”NatMethods,vol.6,no.1,pp.83–90,2009.[10]T.IdekerandR.Sharan,“Proteinnetworksindisease,”GenomeResearch,vol.18,no.4.pp.644–652,2008.[11]J.F.Rualetal.,“Towardsaproteome-scalemapofthehumanprotein-proteininteractionnetwork,”Nature,vol.437,no.7062,pp.1173–1178,2005.51 2018年华东师范大学硕士学位毕业论文[12]M.Zhang,C.Zhu,A.Jacomy,L.J.Lu,andA.G.Jegga,“Theorphandiseasenetworks,”AmJHumGenet,vol.88,no.6,pp.755–766,2011.[13]M.A.vanDriel,J.Bruggeman,G.Vriend,H.G.Brunner,andJ.A.M.Leunissen,“Atext-mininganalysisofthehumanphenome,”EurJHumGenet,vol.14,no.5,pp.535–542,2006.[14]J.Loscalzo,I.Kohane,andA.-L.Barabási,“Humandiseaseclassificationinthepostgenomicera:acomplexsystemsapproachtohumanpathobiology.,”MolSystBiol,vol.3,no.124,p.124,2007.[15]X.Zhou,J.Menche,A.-L.Barabási,andA.Sharma,“Humansymptoms-diseasenetwork.,”NatCommun,vol.5,no.May,p.4212,2014.[16]H.Caniza,A.E.Romero,andA.Paccanaro,“Anetworkmedicineapproachtoquantifydistancebetweenhereditarydiseasemodulesontheinteractome.,”SciRep,vol.5,no.October,p.17658,2015.[17]A.Chatr-Aryamontrietal.,“TheBioGRIDinteractiondatabase:2017update,”NucleicAcidsRes,vol.45,no.D1,pp.D369–D379,2017.[18]L.Matthewsetal.,“Reactomeknowledgebaseofhumanbiologicalpathwaysandprocesses,”NucleicAcidsRes,vol.37,no.SUPPL.1,2009.[19]L.Marisaetal.,“KEGG:Kyotoencyclopediaofgenesandgenomes,”Nature,vol.10,no.3,pp.1350–1356,2013.[20]J.S.Amberger,C.A.Bocchini,F.Schiettecatte,A.F.Scott,andA.Hamosh,“OMIM.org:OnlineMendelianInheritanceinMan(OMIM??),anOnlinecatalogofhumangenesandgeneticdisorders,”NucleicAcidsRes,vol.43,no.D1,pp.D789–D798,2015.[21]A.-L.BarabásiandZ.N.Oltvai,“Networkbiology:understandingthecell’sfunctionalorganization,”NatRevGenet,vol.5,no.2,pp.101–113,2004.[22]M.Gustafssonetal.,“Modules,networksandsystemsmedicineforunderstandingdiseaseandaidingdiagnosis.,”GenomeMed,vol.6,no.10,p.82,2014.52 2018年华东师范大学硕士学位毕业论文[23]L.H.Hartwell,J.J.Hopfield,S.Leibler,andA.W.Murray,“Frommoleculartomodularcellbiology,”Nature,vol.402,no.6761supp,pp.C47–C52,1999.[24]T.K.B.Gandhietal.,“Analysisofthehumanproteininteractomeandcomparisonwithyeast,wormandflyinteractiondatasets,”NatGenet,vol.38,no.3,pp.285–293,2006.[25]I.A.Kovács,R.Palotai,M.S.Szalay,andP.Csermely,“Communitylandscapes:Anintegrativeapproachtodetermineoverlappingnetworkmodulehierarchy,identifykeynodesandpredictnetworkdynamics,”PLoSOne,vol.5,no.9,pp.1–14,2010.[26]G.D.BaderandC.W.VHogue,“Anautomatedmethodforfindingmolecularcomplexesinlargeproteininteractionnetworks.,”BMCBioinformatics,vol.4,p.2,2003.[27]P.P.C.Tan,D.Dargahi,andF.Pio,“Predictingproteincomplexesbydataintegrationofdifferenttypesofinteractions,”IntJComputBiolDrugDes,pp.40–51,2010.[28]W.Li,C.Dai,C.-C.Liu,andX.J.Zhou,“AlgorithmtoIdentifyFrequentCoupledModulesfromTwo-LayeredNetworkSeries:ApplicationtoStudyTranscriptionandSplicingCoupling,”JComputBiol,vol.19,no.6,pp.710–730,2012.[29]K.Goh,M.E.Cusick,D.Valle,B.Childs,andM.Vidal,“Thehumandiseasenetwork,”ProcNatlAcadSci,vol.104,no.21,pp.8685–8690,2007.[30]D.-S.Lee,J.Park,K.aKay,N.aChristakis,Z.N.Oltvai,anda-L.Barabási,“Theimplicationsofhumanmetabolicnetworktopologyfordiseasecomorbidity.,”PNAS,vol.105,no.29,pp.9880–5,2008.[31]M.Luetal.,“AnanalysisofhumanmicroRNAanddiseaseassociations,”PLoSOne,vol.3,no.10,2008.53 2018年华东师范大学硕士学位毕业论文[32]Y.Li,C.yuChen,A.M.Kaye,andW.W.Wasserman,“Theidentificationofcis-regulatoryelements:Areviewfromamachinelearningperspective,”BioSystems,vol.138.pp.6–17,2015.[33]J.Zhuetal.,“Integratinglarge-scalefunctionalgenomicdatatodissectthecomplexityofyeastregulatorynetworks,”NatGenet,vol.40,no.7,pp.854–861,2008.[34]D.F.Schwarz,S.Szymczak,A.Ziegler,andI.R.Konig,“Pickingsingle-nucleotidepolymorphismsinforests,”BMCProc,vol.1Suppl1,p.S59,2007.[35]V.GligorijevićandN.Pržulj,“Methodsforbiologicaldataintegration:perspectivesandchallenges.,”JRSocInterface,vol.12,no.112,p.20150571-,2015.[36]V.Gligorijević,N.Malod-Dognin,andN.Pržulj,“Integrativemethodsforanalyzingbigdatainprecisionmedicine,”Proteomics,vol.16,no.5,pp.741–758,2016.[37]P.ErdösandaRényi,“Onrandomgraphs,”PublMath,vol.6,pp.290–297,1959.[38]A.BarabásiandE.Bonabeau,“Scale-freenetworks,”SciAm,vol.3,no.1,pp.50–59,2003.[39]E.EstradaandJ.A.Rodríguez-Velázquez,“Subgraphcentralityincomplexnetworks,”PhysRevE,vol.71,no.5,p.56103,2005.[40]敖其,“基于分子网络的疾病演化分析”,西安电子科技大学,2014.[41]X.Wang,N.Gulbahce,andH.Yu,“Network-basedmethodsforhumandiseasegeneprediction,”BriefFunctGenomics,vol.10,no.5,pp.280–293,2011.[42]Y.Sun,J.Han,P.Zhao,Z.Yin,H.Cheng,andT.Wu,“RankClus:IntegratingClusteringwithRankingforHeterogeneousInformationNetworkAnalysis,”Proc12thIntConfExtendingDatabaseTechnolAdvDatabaseTechnol-EDBT’09,p.565,2009.54 2018年华东师范大学硕士学位毕业论文[43]C.Shi,Y.Li,J.Zhang,Y.Sun,andP.S.Yu,“ASurveyofHeterogeneousInformationNetworkAnalysis,”arXivPreprarXiv151104854,pp.1–45,2015.[44]T.HwangandR.Kuang,“AHeterogeneousLabelPropagationAlgorithmforDiseaseGeneDiscovery,”inProceedingofthe2010Societyforindustrialandappliedmathematics,2010,pp.583–594.[45]Y.Sun,Y.Yu,andJ.Han,“Ranking-basedclusteringofheterogeneousinformationnetworkswithstarnetworkschema,”inProceedingsofthe15thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining-KDD’09,2009,p.797.[46]Y.Sun,B.Norick,andJ.Han,“PathSelClus :IntegratingMeta-PathSelectionwithUser-Guided,”Tkdd,vol.7,no.3,2013.[47]J.Han,“Miningheterogeneousinformationnetworks:Thenextfrontier,”ProcACMSIGKDDIntConfKnowlDiscovDataMin,p.1,2012.[48]Y.ZhouandL.Liu,“Socialinfluencebasedclusteringofheterogeneousinformationnetworks,”inProceedingsofthe19thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining-KDD’13,2013,p.338.[49]J.LiuandJ.Han,“HINMF :AMatrixFactorizationMethodforClusteringinHeterogeneousInformationNetworks,”pp.1–3.[50]D.D.LeeandH.S.Seung,“Learningthepartsofobjectsbynon-negativematrixfactorization.,”Nature,vol.401,no.6755,pp.788–91,1999.[51]P.O.Hoyer,“Non-negativesparsecoding,”inNeuralNetworksforSignalProcessing-ProceedingsoftheIEEEWorkshop,2002,vol.2002–Janua,pp.557–565.[52]D.Cai,X.He,andJ.Han,“GraphRegularizedNon-negativeMatrixFactorizationforData,”Pami,vol.33,no.8,pp.1–17,2008.55 2018年华东师范大学硕士学位毕业论文[53]D.Cai,X.He,X.Wu,andJ.Han,“Non-negativeMatrixFactorizationonManifold,”in2008EighthIEEEInternationalConferenceonDataMining,2008,pp.63–72.[54]C.Ding,T.Li,W.Peng,andH.Park,“Orthogonalnonnegativematrixt-factorizationsforclustering,”inProceedingsofthe12thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining-KDD’06,2006,p.126.[55]J.Mencheetal.,“Diseasenetworks.Uncoveringdisease-diseaserelationshipsthroughtheincompleteinteractome.,”Science(80-),vol.347,no.6224,p.1257601,2015.[56]Y.-Y.Y.Ahn,J.P.Bagrow,andS.Lehmann,“Linkcommunitiesrevealmultiscalecomplexityinnetworks,”Nature,vol.466,no.7307,pp.761–764,2010.[57]S.Köhleretal.,“TheHumanPhenotypeOntologyproject:Linkingmolecularbiologyanddiseasethroughphenotypedata,”NucleicAcidsRes,vol.42,no.D1,pp.966–974,2014.[58]M.Zitnik,V.Janjic,C.Larminie,B.Zupan,andN.Przulj,“Discoveringdisease-diseaseassociationsbyfusingsystems-levelmoleculardata.,”SciRep,vol.3,no.November,p.3202,2013.[59]V.Matysetal.,“TRANSFAC®:Transcriptionalregulation,frompatternstoprofiles,”NucleicAcidsResearch,vol.31,no.1.pp.374–378,2003.[60]S.Kerrienetal.,“TheIntActmolecularinteractiondatabasein2012,”NucleicAcidsRes,vol.40,no.D1,2012.[61]L.Licataetal.,“MINT,themolecularinteractiondatabase:2012Update,”NucleicAcidsRes,vol.40,no.D1,2012.[62]T.S.KeshavaPrasadetal.,“HumanProteinReferenceDatabase--2009update.,”NucleicAcidsRes,vol.37,no.Databaseissue,pp.D767-72,2009.56 2018年华东师范大学硕士学位毕业论文[63]A.Rueppetal.,“CORUM:Thecomprehensiveresourceofmammalianproteincomplexes-2009,”NucleicAcidsRes,vol.38,no.SUPPL.1,2009.[64]P.V.Hornbecketal.,“PhosphoSitePlus:Acomprehensiveresourceforinvestigatingthestructureandfunctionofexperimentallydeterminedpost-translationalmodificationsinmanandmouse,”NucleicAcidsRes,vol.40,no.D1,2012.[65]A.Vinayagametal.,“Adirectedproteininteractionnetworkforinvestigatingintracellularsignaltransduction,”SciSignal,vol.4,no.189,2011.[66]Y.Ko,M.Cho,J.-S.Lee,J.Kim,andM.Norgaard,“Identificationofdiseasecomorbiditythroughhiddenmolecularmechanisms,”SciRep,vol.6,no.1,p.39433,2016.[67]M.A.Salih,D.A.Bender,andG.M.McCreanor,“Lethalfamilialpellagra-likeskinlesionassociatedwithneurologicanddevelopmentalimpairmentandthedevelopmentofcataracts.,”Pediatrics,vol.76,no.5.pp.787–93,1985.[68]E.Freundlich,M.Statter,andS.Yatziv,“Familialpellagra-likeskinrashwithneurologicalmanifestations,”ArchDisChild,vol.56,no.2,pp.146–148,1981.[69]L.S.Kremeretal.,“NAXEMutationsDisrupttheCellularNAD(P)HXRepairSystemandCauseaLethalNeurometabolicDisorderofEarlyChildhood,”AmJHumGenet,vol.99,no.4,pp.894–902,2016.[70]G.Cenitre,“Hypoplastictibiaewithpostaxialpolysyndactyly :anewdominantsyndrome ?,”pp.369–372,1986.[71]M.Marenco,I.Macchi,I.Macchi,E.Galassi,M.Massaro-Giordano,andA.Lambiase,“Clinicalpresentationandmanagementofcongenitalptosis,”ClinicalOphthalmology,vol.11.pp.453–463,2017.[72]L.Stewart,R.Garg,R.Garcia,andE.Swisher,“Smallcellovariancarcinoma:Longtermsurvivalinjuvenilecasewithpoorprognosticfeatures,”GynecolOncolReports,vol.18,pp.45–48,2016.57 2018年华东师范大学硕士学位毕业论文[73]M.G.Kann,“Advancesintranslationalbioinformatics:Computationalapproachesforthehuntingofdiseasegenes,”BriefBioinform,vol.11,no.1,pp.96–110,2009.[74]C.Zhu,A.Kushwaha,K.Berman,andA.G.Jegga,“Avertexsimilarity-basedframeworktodiscoverandrankorphandisease-relatedgenes,”BMCSystBiol,vol.6,no.SUPPL3,2012.[75]X.Liu,Z.Yang,H.Lin,M.Simmons,andZ.Lu,“DIGNiFI:Discoveringcausativegenesfororphandiseasesusingprotein-proteininteractionnetworks,”BMCSystBiol,vol.11,2017.[76]V.Gligorijević,V.Janjić,andN.Pržulj,“IntegrationofmolecularnetworkdatareconstructsGeneOntology,”inBioinformatics,2014,vol.30,no.17.58 2018年华东师范大学硕士学位毕业论文附录附录1:术语ID与其名称对应表ID名称HP:0004337AbnormalityofaminoacidmetabolismHP:0001252MuscularhypotoniaHP:0001263GlobaldevelopmentaldelayHP:0001315ReducedtendonreflexesHP:0000958DryskinHP:0100022AbnormalityofmovementHP:0001522DeathininfancyHP:0000988SkinrashHP:0012107IncreasedfibulardiameterHP:0006487BowingofthelongbonesHP:0009601Aplasia/HypoplasiaofthethumbHP:0004322ShortstatureHP:0006101FingersyndactylyHP:0010503FibularduplicationHP:0100490CamptodactylyoffingerHP:0000437DepressednasaltipHP:0001162PostaxialhandpolydactylyHP:0001199TriphalangealthumbHP:0001376LimitationofjointmobilityHP:0001177PreaxialhandpolydactylyHP:0002991AbnormalityofthefibulaHP:0004209Clinodactylyofthe5thfingerHP:0005736ShorttibiaORPHA:2837Pellagra-likeskinrash-neurologicalmanifestationssyndromeORPHA:289829DisorderoftryptophanmetabolismORPHA:68367RareinbornerrorsofmetabolismORPHA:3332Hypoplastictibiae-postaxialpolydactylysyndromeORPHA:139012RarebonedevelopmentdisorderORPHA:93890RaredevelopmentaldefectduringembryogenesisORPHA:91411CongenitalptosisORPHA:97966RareeyediseaseORPHA:101435RaregeneticeyediseaseORPHA:370396SmallcellcarcinomaoftheovaryORPHA:250908RareneoplasticdiseaseORPHA:398934Malignantepithelialtumorofovary59 2018年华东师范大学硕士学位毕业论文附录2:解析Orphanet的en_product6.xml获取疾病与其致病基因关系的核心代码展示附录3:部分罕见疾病模块类内疾病成员结果展示疾病模块类号模块类内所含罕见疾病(ORPHA)1268384268392268388268397268377268369268740298628854483137628156532411715614053067273067156791884379870910143581834226489324930797109342290654114116294116349359312980612895961379374793761436453662860 2018年华东师范大学硕士学位毕业论文154044632850141679200791721732563819931018464857966919226928123817185120903189030928721979451089672244319779278738280379234444901814252435272320701525108987534269974942738271820763710542886198578291390123332301574108985311636376966532512487207018333153507966934269528439897359342925136527596836237636987013837095397242399099871240766254746419030890307234661 2018年华东师范大学硕士学位毕业论文42477794275729433005732084444488132554645986834671764692264704479546398721481837317321749591352066505098873309526511672848115224724524724253876252006542069767910255297332510956209298702579802256958973469734543925459281928211716172826320365101009100979609908895493990869908799090990899908561101957955026216982632732532863443909440437144642176102065546530057936238663311931013516733364281222689940830405562 2018年华东师范大学硕士学位毕业论文693632031020207018358020247116363190972932969329793421734313201009817432563275475690773394767921118142277792131390097826268726298679230309830357088095484105498725819866989982542793868310202210202184294959100385980069801086283728982987986401836079863988289347900772283798993429791069037118879319793259198715280886923703963989349323718212443536561732294231230275749951993299724263 2018年华东师范大学硕士学位毕业论文9698643986469711831020059831460335696254343994018542895731008683652688附录4:skfusion包使用说明⚫Linux环境下安装skfusion是Python中的包,主要用来处理异构信息网络。官方源代码存储库位于http://github.com/marinkaz/scikit-fusion,通过执行如下命令完成linux平台下的包安装:⚫导入本文罕见疾病异构信息网络数据64 2018年华东师范大学硕士学位毕业论文dataset目录下文件如下图所示:⚫设置罕见疾病异构信息网络中对象类型及关系类型⚫执行如下代码检验我们导入的对象类型及关系类型是否正确:由第一条命令:fusion_graph.object_types,输出本文罕见疾病异构信息网络中3种对象类型,由fusion_graph.relations,输出该网络中所有关系类型。附录5:linkcomm包使用说明⚫linkcomm是一个执行LC算法的R包。通过执行如下命令完成包安装:⚫本文运用linkcomm包执行LC算法的过程如下:65 2018年华东师范大学硕士学位毕业论文⚫执行print(lc)后的结果如下:***Summary***Numberofnodes=4926Numberofedges=85302Numberofcommunities=1641Maximumpartitiondensity=0.6131073Numberofnodesinlargestcluster=157Directed:FALSEBi-partite:FALSEHclustmethod:single66 2018年华东师范大学硕士学位毕业论文硕士期间发表的相关学术论文QiLv,YihengLan,YanShi,HuanWang,XiaPan,PengLi,andTieliuShi,AtPID:Agenome-scaleresourceforgenotype-phenotypeassociationsinArabidopsis,NucleicAcidsRes,2017.67 2018年华东师范大学硕士学位毕业论文后记时间是有加速度的,随着年龄增长,觉得时间过得飞快,转眼间在华师大的研究生生活即将画上句号。记得费孝通曾说过,学习的学就是在出生之后用一套人为的行为方式作模型,将本能的那一套方法进行改造的过程,学的方法是“习”。习需要反复地做,而使人习惯于一种全新的做法。三年的学习生活带给我的不仅仅是“新的做法”,更重要的是时间磨炼出的这份坚强与自信。感谢我的导师石铁流教授,正是三年前,石老师选择了我,给我一个来上海继续读书的机会,才会有如今这份毕业论文。读研之前,虽然在北京实习时,有了解到生物信息学主要做什么,但仅仅停留在感性的层面,对科研的流程设计,算法实现的技术细节都不清楚。作为科研小白,从最开始完整看懂一篇英文文献都费劲的状态到如今能够读懂文献,提出自己的见解,并完成整个课题,这离不开石老师对我的耐心指导。石老师凭借他严谨的治学态度和永远保持好奇心的专注,深深的折服了我。由于生物知识的匮乏,在课题上走了不少弯路,每次与石老师汇报课题进展,他总能够,及时发现我的问题并给出合理建议,一次一次的沟通交流,石老师给我感觉就像是位严厉的慈父,虽然有的时候,不善言笑的你,会给人距离感,但你从来都是对事不对人,无私的给予我们课题上的帮助,希望我们都能在这里成长成才。此外,石老师开放的治学态度,也深深的感染着我,他对新知识,新技术,永远保持着敏锐的观察,都说一个学者,只有保持开放的态度,才能更客观,更加变通,在我看来,石老师正是这样一位值得尊敬的有态度的学者。在此,祝石老师身体健康,桃李满天下。感谢贾瑾萌师姐,师姐比我高一级,不过研二的时候师姐就转了博士,选择在科研路上继续砥砺奋进。罕见疾病分类研究最开始是一次组会后,师姐给我们文本挖掘课题组每个成员分配任务时,我的小任务,正是师姐的带领,让我对罕见疾病、本体库、网络医学有了深入的认识。每次课题上遇到问题,不知道如何解决的时候,只要与师姐讨论下,总能有新的启发,面对我一次次的请教,师姐都能极其高效的提供帮助。师姐在科研工作中堪称优秀,不断的参加国际会议,68 2018年华东师范大学硕士学位毕业论文作学术报告,写文章,此外在生活中她也是位苛求完美的,努力生活的好榜样,正如一句话所说的,“明明可以靠脸,却偏偏要靠才华”。在此,祝师姐科研的道路越来越顺利,越来越美丽。此外,非常感谢陪伴我三年的同级同学明月,虽然我们不在一个实验室,但这并不影响我们的沟通交流,还记得三年前刚刚认识你,你给我的第一印象就是那种乖乖女的形象,但深交下来,我觉得你很有主见,并不是那种随随便便被别人改变的人。在实验室,我们都被分在文本挖掘课题组,科研中,我们互帮互助,帮彼此出谋划策,生活中,我们也是交心的好朋友,当我遇到窘境的时候,你也会给我一些小建议,特别是秋招求职季,每当我面试不顺之时,你总会给我最大的鼓励与支持。三年我们见证了彼此从青涩到成熟,感谢你的陪伴,祝我们一切都好,未来再相见我们都活成自己想要成为的模样。感谢实验室所有的同学,特别是小实验室的小伙伴们,谢谢你们科研道路上的陪伴与鼓励。靠谱,热心肠的陈吉伟师兄,就像是我们的大哥哥一样,如果你在科研问题上遇到问题,那么你来找伟哥,他一定能给你思路,如果你在生活中遇到棘手的问题,跟他聊一聊,也定能帮你分析出个一二三来。幽默、八卦的金东师兄,要么不说话,要么一句话能把我们都逗乐,只要有你在,小实验室氛围就不在压抑,每次经过你那,看到厚厚一沓文献,总会给我科研更大的动力,所有的努力都会被看到,希望你在新的工作岗位继续努力。乐观豁达、内心无比倔强的张扬师姐,我们都叫她,“女神”,不了解她的人,都会觉得她是个小女生,实则不然,师姐可谓女中豪杰,上知天文下知地理,搞得了科研,写得了书法,文学素养还极高,从认识你到现在,你每天都很精致,处变不惊,正是你的乐观感染着我,让我能够直面压力,在科研挫败中自得其乐,更加坚强。耿直、高效的丁武斌同学,他跟我本是同年入校,但你目标明确,研一就转博了,所以我们都顺理成章的叫你丁博,从最初编程能力较薄弱,到现在的实验室“扛把子”,似乎也就用了不到一年的时间,在此,祝你早日发文章,实现科研梦……三年不长,感谢你们带给我的温暖与快乐,认识你们这帮非常友善的朋友,是我的幸运,愿我们未来一切美好!69 2018年华东师范大学硕士学位毕业论文一路求学,我要感谢我的父母。从小到大,你们并没有过多的拿别人家的孩子与我对比,对我始终没有过高的要求,给我足够的发展空间,感谢你们的开明,让我能够按照自己的节奏,不急不躁地前行。每当我遇到难题时,总会无条件的给予我鼓励与帮助,大大咧咧的我,有时候说话做事,不过脑子,你们也不会斤斤计较,能做你们的女儿,我很知足,我会继续努力,有一天,让你们引以为傲。其次,我要感谢我小姨她们一家人。你们待我视如己出,不求回报,正因为有你们在生活上无微不至的照顾,让我在大上海,无论开心难过,遇到困难,都有地方倾诉,特别温暖。每次回去,你们叫一声“小丫头”、“宝贝”……所有的烦恼都会烟消云散。三年,小姨对我的改变影响是最大的,你待人处事的得体,善待老人,不与人争一时之利等等,我都看在眼里,心里无数次,被你活的通透,“拎得清”给折服。在这里,得到你们的关爱,我很幸福。最后,我要感谢我的男友。认识你时间不算长,但你很懂我,是你让我相信生活中总会有机会使事情变好,你一次次的小惊喜,小浪漫,给我生活带来很多乐趣与感动。“你做任何决定,都会有我在你背后支持你”这是你的原话,感谢在我受挫时给我的理解与支持,让我更有勇气面对未知。对人对事的洞察,有自己的见解,这样认真生活的你,很帅,愿我们能携手奋进,一起终身学习。人生有很多种选择,很多时候这些选择无所谓优劣。善始善终,各得其所,便是个好的选择,本科毕业以后继续读研便是我给自己做的选择,这一选择现在看来,是个不算差的选择。回首整个求学生涯,在华师大读研这三年,是我成长最迅速,认知升级迭代最快的阶段,我会带着这份坚强与自信,继续前行。70

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭