基于粒计算的疾病差异表达基因研究

基于粒计算的疾病差异表达基因研究

ID:76124398

大小:1.27 MB

页数:42页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于粒计算的疾病差异表达基因研究_第1页
基于粒计算的疾病差异表达基因研究_第2页
基于粒计算的疾病差异表达基因研究_第3页
基于粒计算的疾病差异表达基因研究_第4页
基于粒计算的疾病差异表达基因研究_第5页
基于粒计算的疾病差异表达基因研究_第6页
基于粒计算的疾病差异表达基因研究_第7页
基于粒计算的疾病差异表达基因研究_第8页
基于粒计算的疾病差异表达基因研究_第9页
基于粒计算的疾病差异表达基因研究_第10页
资源描述:

《基于粒计算的疾病差异表达基因研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号密级硕士学位论文题目:基于粒计算的疾病差异表达基因研究英文并列题目:Theresearchofthedifferentiallyexpressedgenesindiseasebasedonthegranularcomputing研究生:孙梦梦专业:应用数学研究方向:生物信息学导师:唐旭清指导小组成员:学位授予日期:2018年6月19日答辩委员会主席:朱平江南大学地址:无锡市蠡湖大道1800号二○一八年六月 摘要摘要本文基于粒计算理论,结合已有的聚类算法以及LogisticRegression、RandomForest等数据挖掘算法,对其进行改进和优化,并建立优化模型。从NCBI以及GEO数据库中分别下载病毒蛋白质序列和基因芯片数据,通过对其进行预处理与数字特征化后,应用到模型中,结合实验结果,证实本文提出的模型能为生物信息大数据的处理提供新的有效的方法。文章的主要工作内容可以概括如下:第二章是准备知识,对各类聚类算法、粒度空间中的一些基本概念、最小生成树算法、LogisticRegression模型和RandomForest模型的原理进行了介绍。第三章在粒计算理论的基础上,进行了基于归一化距离的最小生成树分类算法研究。首先,根据统计学中类内偏差和类间偏差的性质,定义了新的最优聚类指标,然后在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了最小生成树分类算法并建立最优聚类模型。最后,将最优聚类模型应用于898条同时含有HA和NA并且能够感染人的禽流感病毒的蛋白质序列上,基于距离中心最近原则,先后两次运行最小生成树分类算法,得到了最优层次结构,相应地,选出了6条具有代表性的病毒序列。第四章的研究对象是癌症,通过将LogisticRegression算法和RandomForest算法进行组合,提出了一种新的混合模型——LR-RF模型,基于FWER错误测度的Bonferroni检验,将模型应用在两个乳腺癌DNA微阵列数据集上,筛选乳腺癌中差异表达的基因。通过十次重复随机试验,本文所提出的LR-RF模型的平均预测准确率达到93.11%,方差低至0.00045。当RandomForest算法中基因重要性评分进行排序时选取的阈值=0.2,预测准确率达到最大值95.57%,并且筛选出来的差异表达基因数量相对较少。另外,建立差异表达基因的相互作用网络,通过分析基因相互作用网络,可以发现本文选择的前20个基因中的大多数都涉及乳腺癌的发生与发展过程。这些结果都证明了LR-RF模型的可靠性和有效性。关键词:粒计算;最小生成树分类算法;LogisticRegression-RandomForest算法;差异表达基因;基因相互作用网络I AbstractAbstractBasedonthetheoryofgranularcomputing,thisthesiscombinedexistingclusteringalgorithmsanddataminingalgorithmssuchasLogisticRegressionandRandomForesttoimproveandoptimizethesealgorithmsandestablishanoptimizationmodel.ThevirusproteinsequenceandgenechipdataweredownloadedfromNCBIandGEOdatabasesrespectively.Andthenumbersdownloadedwerecharacterizedandpreprocessed.Themodelwasappliedtotheprocesseddataandtheresultswereanalyzedtoprovidenewandeffectiveinformationforthestudyofbiologicalinformation.Themainworkofthearticleissummarizedasfollows:Thesecondchapteristopreparetheknowledge,introducedtheprincipleofvariousclusteringalgorithms,somebasicconceptsinthegranularspace,minimumspanningtreealgorithm,LogisticRegressionmodelandRandomForestmodel.Inthethirdchapter,accordingtothegranularcomputingtheory,minimumspanningtreeclassificationalgorithmisproposedbasedonnormalizedmetric.Firstly,basedontheexistingrepresentationandgenerationalgorithmofgranularspace,byintroducingtheminimumspanningtreeandthenewoptimizationclusteringindexbasedontheintra-classdeviationandinter-classdeviation,anoptimalmodelwasestablished.Furthermore,898avianinfluenzavirusescontainingbothHAandNAproteinwereusedasanexperimentaldatabase.Basedonthecharacteristicsofavianinfluenzavirusdatasets,the898avianinfluenzavirusesweredividedintotwoclassesbyrunningthealgorithmfirsttime.Inordertofurtherstudythenatureofavianinfluenzavirus,thetwotypesofinfluenzaviruseswereanalyzedseparatelybythealgorithmagain.Basedonthenearestprinciple,6representativeviruseswereselectedandaphylogenetictreewasconstructed.Finally,comparingtheresultswiththoseintheliterature,wefoundthatthevariationofhumaninfluenzavirusiscloselyrelatedtotheregionandtheoutbreaktime.Theseresultsareconsistentwiththeresultsofpreviousstudies,indicatingthatthealgorithmiseffective.Theminimumspanningtreeclassificationalgorithmhaslowercomplexitythantheoriginalalgorithminfindingtheoptimizationclustering.Theobjectofthefourthchapteriscancer.Toscreendifferentiallyexpressedgenesquicklyandefficientlyontwogenemicroarraydatasetsofbreastcancer,bycombiningtheLogisticRegressionandRandomForestalgorithm,thisthesisproposedanovelmethodnamedLR-RFtoselectdifferentiallyexpressedgenesofbreastcanceronmicroarraydatabytheBonferronitestofFWERerrormeasure.ComparingwithLogisticRegressionandRandomForest,ourstudyshowsthatLR-FRhasagreatfacilityinselectingdifferentiallyexpressedgenes.TheaveragepredictionaccuracyoftheproposedLR-RFfromreplicatingrandomtesttentimessurprisinglyreaches93.11%withvarianceaslowas0.00045.Thepredictionaccuracyratereachesamaximum95.57%whenthresholdvalue=0.2intherandomforestalgorithmprocessofrankinggenes’importancescore,andthedifferentiallyexpressedgenesarerelativelyfewinnumber.Inaddition,throughanalyzingthegeneinteractionnetworks,mostofthetop20genesweselectedwerefoundtoinvolveinthedevelopmentofbreastcancer.AlloftheseresultsdemonstratethereliabilityandefficiencyofLR-RF.II AbstractKeywords:Granularcomputing;Minimumspanningtreeclassificationalgorithm;LR-RFalgorithm;Differentiallyexpressedgenes;GeneinteractionnetworkIII 目录目录摘要.........................................................................................................................................IAbstract......................................................................................................................................II目录......................................................................................................................................IV第一章绪论............................................................................................................................11.1生物信息学简介.............................................................................................................11.1.1生物信息学的产生与研究内容...............................................................................11.1.2生物信息学研究现状................................................................................................11.2粒计算的研究现状.........................................................................................................21.3差异表达基因的研究现状.............................................................................................31.4本文的主要研究内容及创新点.....................................................................................31.4.1主要研究内容...........................................................................................................31.4.2创新点.......................................................................................................................4第二章准备知识......................................................................................................................52.1聚类算法简介.................................................................................................................52.2.1基于划分的聚类........................................................................................................52.2.2基于层次的聚类........................................................................................................52.2.3基于密度的聚类........................................................................................................62.2.4基于网格的聚类........................................................................................................72.2.5谱聚类........................................................................................................................82.2粒度空间的基本概念.....................................................................................................82.3最小生成树算法.............................................................................................................92.4LogisticRegression模型...............................................................................................102.5基于FWER错误测度的Bonferroni检验..................................................................112.6RandomForest模型.......................................................................................................11第三章改进的最小生成树分类算法及其应用....................................................................133.1基于最小生成树的最佳聚类确定...............................................................................133.2改进的最小生成树分类算法及其应用.......................................................................163.2.1最小生成树分类算法的流程.................................................................................163.2.2禽流感病毒的最优聚类与签名病毒选取.............................................................173.2.3结果分析与讨论.....................................................................................................193.2.4算法复杂度分析.....................................................................................................193.3本章小结.......................................................................................................................20第四章基于LR-RF的筛选疾病差异表达基因的模型......................................................214.1乳腺癌差异表达基因研究现状...................................................................................214.2数据资源.......................................................................................................................21IV 目录4.3基于LR-RF的筛选差异表达基因的混合模型..........................................................224.4实验结果及分析...........................................................................................................234.4.1差异表达基因.........................................................................................................234.4.2稳定性分析.............................................................................................................234.4.3层次聚类分析.........................................................................................................254.4.4基因相互作用网络的分析.....................................................................................264.5本章小结.......................................................................................................................28第五章总结与展望................................................................................................................295.1全文总结.......................................................................................................................295.2工作展望.......................................................................................................................29致谢........................................................................................................................................31参考文献..................................................................................................................................32附录:作者在攻读硕士学位期间发表的论文及参加的学术活动......................................35V 第一章绪论第一章绪论1.1生物信息学简介1.1.1生物信息学的产生与研究内容二十一世纪是计算科学和信息科技的时代,同时也是生命科学的时代。近年来,现代分子生物学迅猛发展,人类基因组计划[1]也顺利实施并且提前完成计划,产生了海量的生物大数据,生物信息学也随之兴起。对于生物信息学的研究主要是在生命科学研究领域中进行的,它将数理科学和计算机科学有机地结合起来,对生物大数据进行处理和分析,从而来阐明和认识生物体代谢、发育、分化和进化的规律等等[2]。其中,数学作为一门基础的学科,在生物信息学的研究中发挥着至关重要的作用。运用数学的理论知识和数学建模的思想来分析生物大数据,进而从其中提取有价值的生物信息,是目前研究生物信息学的热门和重点。生物信息学的研究内容涵盖了许多方面,其中,基因芯片技术是生物信息学发展过程中的一个科学产物,基因芯片中的生物信息蕴含着生物学结构和功能之间的内在联系,具有重大的意义。实际上,基因芯片技术归根结底还是来自于人类基因组计划[3]。然而,海量数据的产生给研究人员带来了困难,目前我们所面临的问题是,如何从大量的基因中挖潜出有价值的信息并研究其相应生物学功能。众所周知,基因芯片技术是疾病差异表达基因分析的基础,而基因的差异表达分析在联系基因组计划和蛋白组计划中发挥着关键的作用,是二者之间的一个联系纽带。因此,基因芯片技术研究不仅可以为蛋白组计划的研究和开展提供大量的线索,而且能够对数量很大的生物样本同时进行基因表达分析,具有高速度、高集成、高通量的优点。鉴于基因芯片技术在很多领域中被广泛应用,包括发现新基因、基因测序、基因差异表达分析、疾病的诊断和预测、药物筛选等多个方面[3,4]。随着基因芯片技术的蓬勃发展,越来越多的网络公共数据库也建立起来,目前免费的公共生物信息数据库接近九百个,涵盖了核酸序列数据库、蛋白质序列数据库等各个方面的生物信息,比如GenBank、Uniport等,与此同时,数据库中基因芯片的表达数据也在日益增长。这些海量的生物学数据,为我们进行某种特定疾病基因表达情况的综合分析提供了信息来源和数据基础。通过初步分析疾病的差异表达基因、致病基因、基因相互作用网络以及这些基因可能涉及的信号通路,对于深入研究某种特定疾病的发病机制、指导患者的个体化用药和治疗、改善患者的预后等具有现实的意义。1.1.2生物信息学研究现状随着生物大数据的急剧性增长,利用生物信息学找到与疾病相关的致病基因为生物医学、医学制药等研究提供了指导方向。大量的生物医学、制药等公司与研究机构投身于生物信息学的研究中,致力于揭示人类遗传信息、开发基因药物等[5]。为此,1988年美国首先成立了国家生物技术中心(NCBI)[6-8],随后欧洲与日本也相继成立了自己的1 江南大学硕士学位论文生物信息学中心(EuropeanBioinformaticsInstitute,CenterforInformationBiology,简称EBI、CIB)[9,10]。这些生物信息学数据库为日后的计算分子生物学的发展提供了极大的便利。目前全世界范围内大量的基因数据包括核苷酸序列、蛋白质序列等,大部分都是出自NCBI、EBI、CIB这三个数据库系统,其中,NCBI的应用最为广泛。在建立生物信息数据库时,各国之间联系紧密、加强合作,成立了许多国际性的数据库,比如国际核苷酸序列数据库就是美国、欧洲以及日本共同建立的,欧洲分子生物学网络组织是由西欧各国为主建立的。各国在建立这些共享生物信息资源的同时,也不断完善与发展自己国家的生物信息学数据库并进行相关的研究。目前,我国生物信息学的研究还处于初期发展的阶段。最早的生物信息数据库是北京大学于1997年3月成立的生物信息学中心(CBI)[11]。近年来,CBI组织了多次国内和地区的培训班及会议,与国际上有着较为广泛的联系。在北京大学的带领下,重多高校纷纷参与到生物信息学的研究中来,许多高校都成立了生物信息学专业,开设了生物信息学相关的课程,比如清华大学、复旦大学等,这些高校的研究人员为我国生物信息学的发展起到了很大的推动作用。1.2粒计算的研究现状在求解不同问题的时候,往往需要不同的粒度世界来对其进行描述;有时候解决同一个问题,也可能需要若干个不同的粒度世界同时来进行描述[12]。粒计算是人类日常生活中常用的一种处理问题的方法。但有专文来论述粒的概念还是应该追溯到1979年,Zadeh发表了《Fuzzysetsandinformationgranularity》一文,基于模糊集的理论,Zadeh在文章中首次提出了信息粒度的概念,这就是Zadah对粒的概念的论述[13]。加拿大的Yao教授在《GranularComputing:BasicIssuesandPossibleSolutions》一文中对粒计算的基本问题进行了讨论,同时也对粒的建构以及粒的计算进行了详细地阐述[14]。随后,对粒计算的研究快速地发展了起来,在国际上掀起了研究热潮,并且已经形成了专门的研究团队和群体。而国内对于粒计算的研究才刚刚起步。1990年,中国科学院院士张钹和安徽大学计算机学院张铃教授出版了《问题求解理论及应用》一书,在书中引入了“粒度”的概念[12];2003年他们又把原有的粒度世界模型理论推广到模糊商空间理论,提出了模糊粒度的计算方法,将原来的商空间理论推广成模糊商空间理论。在这些研究学者的带领下,国内也逐渐展开了对粒度理论和粒计算的深入研究,取得了令人可喜的成绩。基于模糊逻辑的粒计算理论[15]、粗糙集的粒计算理论[16]以及商空间的粒计算理论[17]是目前粒计算的最主要的三大理论。计算机科学与技术都在不断地发展,大量的数据随之产生,数据维度和复杂度增加并且呈现出多样化,这些都给粒计算带来了极大的挑战。在大数据时代,如何充分挖掘出蕴藏于海量数据中的信息价值成为各行各业的焦点,而利用粒计算的方法可以完美地解决这类问题。面对海量的数据,粒计算的方法主要是先将大数据进行粒化,找出最相容的两个粒,合并成一个,一直重复这个步骤,直到达到一个满意的标准为止。在使用2 第一章绪论粒计算的方法处理大规模数据集方面,国内外都取得了一些研究成果,不断完善着粒计算的理论。此外,粒计算作为一种计算范式已经在智能信息处理领域中扮演着重要的角色,发挥着举足轻重的作用,但是将粒计算应用于生物大数据的分析中还处于起步阶段,有很多值得研究人员深入探讨和挖掘的内容。1.3差异表达基因的研究现状随着人类基因组计划的完成以及随后的生物基因组的测序工程的快速发展,各种各样的生物数据库迅速发展建立起来。随着后基因组时代的快速发展,基因序列数据井喷式增长,包括DNA微阵列(或称DNA芯片、基因芯片),microRNA数据等。众所周知,DNA是遗传物质的基础,决定了蛋白质和RNA的合成,能够控制人类的各种生理活动。据报道,由单基因变异导致的遗传性疾病达到6500多种,但是更多的疾病的发生、发展是由众多基因共同作用的结果,例如心血管疾病、恶性肿瘤、糖尿病等疾病都属于多基因病。基于DNA微阵列数据的疾病基因差异表达分析,能够利用DNA微阵列技术同时分析数千个乃至数万个基因的优点,从众多基因中筛选出差异表达的基因和致病基因,为进一步探索疾病的发病机制、患者的治疗和预后以及相关致病基因的生物学功能的研究提供了一种全新的快速而准确的诊断方法。在分析癌症DNA微阵列实验数据时,面对海量的基因数目,研究人员常常需要对这些数据进行预处理,再对这些去噪后的基因数据进行差异表达分析,筛选与疾病相关的基因。目前,基因表达数据分析主要集中在:(1)单基因水平:分析单个基因在疾病个体和正常个体中的表达水平,通过统计它们的差异以及变化的显著性来筛选差异表达的基因;(2)多基因水平:通过组合多个基因,研究多个基因的共同调控机制来筛选致病基因;(3)基因调控网络:根据基因的表达情况,推断出潜在的基因调控网络机制,解释网络中的基因表达数据以此来确定疾病的致病基因。到目前为止,基因表达数据的差异表达分析已经被广泛地应用在生物信息学和医学的相关研究中,成为当前热点研究之一。1.4本文的主要研究内容及创新点1.4.1主要研究内容本文在粒度空间理论的基础上,结合已有的聚类算法以及LogisticRegression、RandomForest等数据挖掘算法,对其进行改进和优化,并将改进和优化后的模型应用到从NCBI以及基因表达汇编(GEO)数据库中下载的病毒蛋白质序列和基因芯片数据上,主要包含以下研究内容:(1)第一章是绪论,主要介绍了生物学背景、主要研究内容以及当前国内外的研究现状,然后对粒计算一些概念和现状进行了简单的总结,最后简述了疾病差异表达基因的研究进展。3 江南大学硕士学位论文(2)第二章是准备知识,首先是对各类聚类算法的介绍,然后给出了粒度空间中的一些基本概念和最小生成树算法的定义和流程;最后介绍了LogisticRegression模型和RandomForest模型的原理。(3)第三章节中基于粒度空间理论,进行了基于归一化距离的最小生成树分类算法研究。首先根据类内偏差和类间偏差的性质,定义了新的最优聚类指标,然后在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法,并建立了最优聚类模型。将模型应用于研究从NCBI下载的1902-2015年间的898条现在已经确认能够感染人的禽流感病毒蛋白质序列HA与NA蛋白,共有8种,包括H5N1,H5N2,H7N2,H7N3,H7N7,H9N2,H10N7,以及最近的H7N9。在距离中心最近的基础上,通过运行最小生成树分类算法,选出了6个代表病毒序列,并且得到了最优层次结构。最后,对实验结果进行分析,结果表明病毒爆发地域差异、病毒爆发时间等因素对禽流感病毒的变异产生了重要影响。(4)在第四章中,为了在乳腺癌中快速而有效地筛选差异表达的基因,从GEO下载了两个乳腺癌基因芯片数据集GSE15852和GSE45255。通过结合LogisticRegression和RandomForest算法,本章提出了一种新的方法——LR-RF模型,通过FWER错误测度的Bonferroni检验,在DNA微阵列数据上选择乳腺癌差异表达基因,并对筛选出来的差异表达基因建立基因相互作用网络,通过分析基因相互作用网络来挖掘差异表达基因对乳腺癌发生以及发展的影响。1.4.2创新点本文的主要创新点有以下几点:(1)基于粒度空间理论,在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法,建立了最优聚类模型,并将模型应用于流感病毒蛋白质序列上。(2)为了在疾病中快速而有效地筛选差异表达的基因,将LogisticRegression算法与RandomForest算法相结合,通过基于FWER错误测度的Bonferroni检验,将混合模型应用于乳腺癌DNA微阵列上,筛选疾病差异表达基因。(3)在RandomForest算法中,通常要对基因的重要性得分进行排序,被选出来的基因的个数是主观决定的,而在本文中,在挑选差异表达基因时,通过设置不同的阈值来筛选不同数量的差异表达基因,并计算各个数量差异表达基因下模型预测的准确率,在差异表达基因数量相对少的情况下,使得算法的准确率相对较高,进而确定一个合适的阈值。4 第二章准备知识第二章准备知识2.1聚类算法简介聚类算法与粒计算有着密切的联系,聚类算法是将数据样本进行分类,而粒计算是将数据样本进行粒化。因此,聚类算法将粒计算思想进行具体的实现,而粒计算是将聚类算法的思想进行了抽象的描述。下面介绍一些常用的聚类算法。2.1.1基于划分的聚类K-means算法是数据挖掘中最常用的一种划分聚类算法[18]。K-means算法是在给定一个聚类数n之后,能够将数据集分成n个簇,算法需要使得平方误差达到最小化,最小化的目的是找到我们想要的n个簇,并且使得每个簇内所有的样本点之间的相似度达到最高。K-means算法简单,并且运行速度快,适用于大数据集,但是算法本身也有一些缺点,由于初始值选择的不同,会导致最终的分类结果也不同,而且K-means算法对于特殊分布的数据集也不能得到合理的分类结果。K-means算法的流程图如图2-1所示:图2-1K-means聚类算法的步骤2.1.2基于层次的聚类基于层次的聚类算法一般分为凝聚算法与分裂算法[19],主要区别在于前者是自下而上的,后者是自上而下。自下而上的意思指的是对于数据集中的每一个训练样本,都将其作为一个类(簇),通过不断的合并整合成越来越大的类。重复迭代此步骤,直到数据集中所有的训练样本都在此类中或者迭代次数达到设定的阈值,终止迭代。基于分裂5 江南大学硕士学位论文算法的层次聚类算法在原理上与凝聚聚类相反。目前基于层次的聚类算法中使用比较多的是自下而上的凝聚层次聚类。图2-2层次聚类算法流程图层次聚类算法形成的类一般通过树状图来表示。层次聚类算法具有不需要预先给定聚类数目、容易发现类与类之间的层次关系等优点,但是层次聚类算法的计算复杂度太高而且很可能将数据样本聚类成链状。2.1.3基于密度的聚类密度聚类的思想不同于K-means算法的思想,但是密度聚类的思想更符合人类的思维,密度聚类的基本思想是通过是否紧密相连来判断数据样本点是否属于一个簇。在基于密度聚类的算法中,比较有代表性的算法是Density-BasedSpatialClusteringofApplicationswithNoise(DBSCAN)[20],它基于一组邻域(,MinPts)来表征整个数据样本中某处的样本是否是紧密的,下面是DBSCAN的基本算法步骤:6 第二章准备知识图2-3DBSCAN算法的过程DBSCAN具有速度快、适用于特殊分布数据、对噪声不敏感、不需要预先给定聚类数目等优点。2.1.4基于网格的聚类网格方法是空间中进行数据处理常用的一种方法,主要的思想就是将空间数据进行离散化处理。随着数据挖掘技术的发展,出现了大量的基于网格的聚类算法。比如基于网格多分辨率的StatisticalInformationGrid(STING)[21]算法、将网格和密度相结合的ClusteringInQuest(CLIQUE)算法[22]等。虽然基于网格的聚类算法有很多,但是这些算法的核心思想都是相同的,大致可以分为以下三步:(1)使用网格单元内数据的统计信息对数据进行压缩;(2)在这些统计信息的基础上,找出高密度的网格单元;(3)将这些相连的高密度的网格单元划分为一个簇。从网格聚类算法的核心思想可以看出,网格方法是要利用网格单元内数据的统计信息来对数据进行压缩,然后基于密度距离算法,将高密度的网格单元归为一类。而密度聚类算法常常需要通过将空间数据网格化(离散化)来降低计算量。因此,在实际的数据聚类分析中,密度聚类和网格聚类是紧紧联系在一起的。基于网格的聚类算法得到的聚类的结果虽然不是很精确,但是具有计算速度快的优点,在实际问题中也有着广泛的应用。7 江南大学硕士学位论文2.1.5谱聚类上述聚类算法都属于传统的聚类算法,这些算法都要求数据集必须建立在凸球形的空间上,当样本空间非凸时,传统的聚类算法很容易陷入局部最优,而谱聚类算法可以克服这个缺点[23]。谱聚类算法将样本数据组织成图的形式,其本质上是把聚类的问题转化成了对图的划分问题[24]。处理步骤如下:(1)计算图的顶点与顶点之间的矩阵;(2)对矩阵进行拉普拉斯变换并将拉普拉斯矩阵进行标准化;(3)计算矩阵的特征值和特征向量;(4)将矩阵所有的特征值进行降序排列,根据需求选取前k个最大的特征值。则这k个特征值所对应的特征向量就构成了数据的低维空间,将样本数据在这些特征向量进行投影。谱聚类过程如图2-4所示。图2-4谱聚类过程谱聚类算法具有能在任意形状的样本空间上进行聚类、算法能收敛于全局最优解、适用性强等优点。2.2粒度空间的基本概念近年来,粒计算及其应用已经成为人工智能研究中的一个新热点,引起了众多学者的关注。随着20世纪70年代初期粒计算理论的形成,学者们逐渐将其应用于粗糙集、商空间、模糊集、以及人工智能、机器学习与数据挖掘等领域。Yao[25]在粗糙集粒计算模型的基础上对分类规则进行学习。蒙祖强和周石泉[26]基于粒度计算提出了一种可以降低空间开销并且提高计算效率的决策规则获取方法。Panoutsos和Mahfouf[27]用粒计算来提取关系信息和数据特征的最初数据库。Skowron[28]等在粒计算的基础上,在近似空间上进行数据挖掘和机器学习建模研究。Pedrycz[29,30]在模糊数学和粒计算的基础上进行了大量聚类分析的研究。这些研究均促进了粒计算理论的发展与完善。下面介绍一些粒度空间中的一些基本概念:定义2-1给定有限集X上的一个距离d,如果距离d满足:x,yX,0d(x,y)1,则称距离d为有限集X上的一个归一化距离[31]。8 第二章准备知识++定义2-2给定论域X,设d:X→XR,其中R表示非负实数集,若满足xX:(1)xX,d(x,x)=0;(2)x,yX,dxy(,)=dyx(,);(3)x,y,zX,d(x,y)d(x,z)+d(z,y)则称d为X上的一个伪距离。如果d是X上的一个伪距离,并且满足定义2-1中的归一化条件,则称d是X上的一个归一化伪距离。记X上的归一化距离的集合为NDX(),归一化伪距离的集合为WNDX()[32]。定义2-3给定dNDX()或dWD(X)及]1,0[,定义一个关系:R:x,yX,(x,y)Rd(x,y),则称R是X上关于的一个截等价关系,其中R是X上的一个普通等价关系[32]。在定义2-3中,若记R的等价类[x]={y|d(x,y),yX},X()={[x]|xX},则称X()为归一化距离d在X上关于的粒度(或商空间)。而X上所有可能的集合{X(0|)}1就称为由d引导的X的粒度空间,记为Xd(X)。定义2-4给定X上的2个粒度X(1)、X(2):(1)若满足:xX,都有[x]1[x]2,则称粒度X(2)不比X(1)细,记为X()X();21(2)若X(2)X(1),且存在xX0,使得[x0]1[x0]2,则称X(1)比X(2)细,记为X()X()[32]。21引理2-1若dD(X)若或dWD(X),则其相应的粒度空间X(X)就可以构成一d个有序集,且,0[,]1,,有X()X()。特别地,,D,,1212211212有X()X(),其中D={(,)|,dxyxyX}。212.3最小生成树算法最小生成树在解决实际问题中有着广泛的应用。目前如何来构造最小生成树,常用的算法主要有:Prim(普里姆)算法和Kruskal(克鲁斯卡尔)算法[33-35]。Prim算法是在加权连通图里搜索最小生成树的一种算法,该算法能够得到权值最小的连通图。最小生成树具有如果删除最小生成树的k-1条边,则可以得到k个簇的性质。Prim算法的详细步骤如下:(1)输入一个加权连通图,图中的权重代表顶点与顶点之间的距离,其中顶点的集合为V,边的集合为E;(2)对顶点的集合进行初始化,令Vx=,其中x为顶点集合V中的任意一点,new同时对边的集合进行初始化,令E=;new9 江南大学硕士学位论文(3)在边集合E中选取权重最小的边u,v,其中u为集合V中的元素,而v不在newV集合当中,并且vV;将v加入集合V中,将uv,边加入集合E中;newnewnew(4)重复步骤(3),直到VV=:new(5)用V和E来描述所得到的最小生成树,并输出得到的最小生成树。newnewKruskal算法的详细步骤如下:(1)输入一个加权连通图,其中顶点的集合为V,边的集合为E;(2)将输入的加权连通图看作是一个森林,每个顶点都是相互独立的一棵树。对边的集合进行初始化,令E=;new(3)从边的集合E中选取权重最小的边u,v,如果u,v不在同一棵树内,将u和v合并成一棵树,将uv,边加入集合E中;new(4)重复步骤(3),直到所有的顶点都在同一棵树中;(5)输出最小生成树。在本文的研究中选用的是Prim算法。2.4LogisticRegression模型LogisticRegression模型[36]是广义线性模型族中应用最广泛的模型。当响应变量Y是一个二元变量时,在使用LogisticRegression模型进行分析的时候,响应变量Y只取两个可能的值,例如本文中选取的正常人的乳腺组织和乳腺癌患者的乳腺组织就只能有两个分类。由于因变量Y本身只能取0和1两个离散的值,因此不适合直接作为回归模型中的因变量,对此,LogisticRegression的基本思想是,不直接对Y进行回归分析,而是先定义一个概率函数:=Pr(Y=1|X=xX,=x,,X=x)(2.1)1122ii其中,式子(2.1)要求01。而直接求的表达式是一件比较困难的事情,于是,将式子(2.1)转化为以下形式:1−PY(1)==k(2.2)PY(=1)在式子(2.2)中,一般地,0+k,然后,令=Pr(Y=1|X=xX,=x,...,X=x)1122ii1(2.3)=1+ae−bX11−−...bXni是一个Logistic形式的函数,其中ab0,0。于是我们将其进行变形,得到如n下公式:1−lg=b−bx−...−bx(2.4)011niLogistic函数lg的形式为:10 第二章准备知识xefx()=(2.5)x1+e其中fx()为限制在[0,1]区间内的连续曲线。对于本文而言,由于是逐列比较,因此概率方程为:1=Pr(Y=1|X=x)=(2.6)1i−bX1+ae11其中X是第i个基因的数值信息,是患病的概率,ab0,0。i12.5基于FWER错误测度的Bonferroni检验单一假设的回归分析通常对测试结果有一个直接的解释,但如果基于回归模型的分析中有多个假设,这可能会变得非常复杂。虽然多个假设的每个测试对于推断结果都有可能出现两类错误,即第I类错误和第II类错误,但是我们无法测量数据样本总体的错误率。在多重假设检验中,常用的适用于第Ⅰ类错误的测度有FWER错误测度和FDR错误测度,FWER错误测度[37,38]是指所有假设中发生一个或多个I类错误的可能性,适用于有多个假设的回归分析。在本文中,选择基于FWER错误测度的Bonferroni检验[39]来筛选差异表达的基因。Bonferroni不等式[40]通常用于进行多重显著性检验以设定总体显著性水平的上限。如果在同一数据集TT,...,上同时检验n个独立假设HH,...,,其相应的p值为1n1nPP,...,,则经典的Bonferroni多重检验通过设定一个阈值n,如果任意一个检验的p1n值小于这个阈值,则拒绝原假设H={H,...,H}。Bonferroni不等式如下:01nFWER=Pr(V1)=PrHP=0,iiinn(2.7)PrPi|Hi=0Pr(Hi=0)i=1nn=n由(2.7)式可知,当全部的真值不大于的时候,Bonferroni不等式可以确保拒绝至少一个假设的概率。2.6RandomForest模型RandomForest算法是由Breiman[41]提出的一种用于分类的算法,是一个包含多个决策树的分类器。每个分类树都是使用数据的自助法(bootstrap)重采样构建的,也就是从训练集中随机抽取一部分的样本来生成决策树的方法。因此,RandomForest算法使用Bagging(bootstrapaggregation)以及用于树木构建的随机变量选择方法。对于每棵决策树而言,都是未修剪的,令其充分成长,生成最大树。同时,Bagging和随机变量11 江南大学硕士学位论文选择使得单个决策树之间的相关性较低。因此该算法产生的分类可以实现低偏差和低方差。RandomForest算法的主要步骤如下所示:(1)选取训练集数据样本;(2)生成决策树;(3)对决策树进行组合;(4)用余下的测试集数据样本对RandomForest模型进行有效性验证。图2-5RandomForest算法过程12 第三章改进的最小生成树分类算法及其应用第三章改进的最小生成树分类算法及其应用3.1基于最小生成树的最佳聚类确定给定归一化距离d及其引导的粒度空间(X),有限集X上的粒度TdCX()=aa12,,,aCTd(X),其中ak=xk12,xk,,xkJk,kC=1,2,,;k=1Jnk=;JknXn=。类ak的中心为ak=i=1xki/Jk,样本集X的中心为a=i=1xni/。在统计学理论的基础上,本文引入了类内偏差S(X())和类间偏差S(X()),intrainter类内偏差和类间偏差的具体数学表达形式如下:22CJJiix−−aCJxaijiijii22SXintra(())==(3.1)i=1nj=1Jii=1j=1n2CJ−aaii2SXinter(())=(3.2)i=1n关于类内偏差与类间偏差的性质有如下几个结论[42]:假设d是有限集X上的归一化距离,d引导的粒度空间为(X),则有以下性质Td成立:定理3-1类内偏差SX(())是关于的单调递增函数,即,0,1,如果intra12,那么S(X())S(X())。特别地,当XX()()时,12intra1intra212Sintra(X()1)Sintra(X(2))。定理3-2类间偏差SX(())是关于的单调递减函数。即,0,1,如果inter12,那么S(X())S(X())。特别地,当XX()()时,12inter1inter212Sinter(X()1)Sinter(X(2))。要证明定理3-1和3-2,首先需要证明下面的引理3-1,引理3-1表明,在不同的粒度下,类内偏差和类间偏差的和,也就是总的偏差,是一个恒定的值。引理3-1假设有限集X上存在归一化距离d,d引导的粒度空间为(X)。TdXX()d(),总的偏差SX(())为:SX(())=+Sintra(X())Sinter(X())1n2(3.3)=−xxin2i=1当=0时,也就是说有限集X中的所有元素自成一类,因此类内偏差的值为0,即2nxa−i2SXintra((0))=0,此时类间偏差为SXinter(()0)=;当=1时,有限集X中的i=1n13 江南大学硕士学位论文所有元素被划分在一个类中,类间偏差SX(()10)=,此时类内偏差为inter2nxa−i2SXintra(()1)=。i=1n引理3-1的证明如下:SX(())=+Sintra(X())Sinter(X())CJi22=x−a+a−a/n(3.4)iji2i2ij==11n12=−xain2i=1当=0时,所有的元素自成一类,因此有SX(()00)=,intra当=1时,所有的元素合并成一个大类,因此有2nxa−i2SXinter(()10)=,SXintra(()1)=(3.5)i=1n在引理3-1的基础上,定理3-1的证明如下:1):当12时,存在两个粒度相等的情况,即XX()12=(),那么两个粒度下的类内偏差也相等,即S(X())=S(X());intra1intra22):当12时,大部分情况下,两个粒度是不相等的,即XX()12()。当粒度X()比X()粗时,粒度X()可以表示为X()=aa,,,a,粒度X()可211112C21以表示为X(2)=bb1,,2,bC2,其中CC21。此时又可以分三种情况进行讨论:①:当粒度X()包含的元素比粒度X()包含的元素个数多一个,即CC=+11212时,此时除了aa,X()和bX()不同之外,粒度X()和粒度X()中的其他ik1s212粒子都是相同的,此时可以将类ai和ak(daa(ik,)2)合成类bs。这时两个粒度的类内偏差的差值为:Sintra=Sintra(X(1))−Sintra(X(2))nn1122=xii−a22−Sinter(X(1))−x−a−Sinter(X(2))(3.6)nnii==11=−1−22+−JabJabniis22kks其中J=+JJ。因为在aaa,,中不存在三个值完全相等的情况,所以S0成sikiksintra立。我们可以得到结论:SS()()。intra1intra2②:当CCk=+(k1),即存在mk=+1个类,aa,,,aX(),满足12l12llm1daa(ij,)2(ij,=ll12,,,lm),将其合并成类bXs(2),粒度X()1中剩余的粒子与X(2)中剩余的粒子的一致。此时两个粒度之间的类内偏差的差值为:14 第三章改进的最小生成树分类算法及其应用Sintra=Sintra(X(1))−Sintra(X(2))m+1JJis122=xljii−al2−xsj−bs2(3.7)ni=1j=1j=1m+112=−Jaii−bsn2i=1因为在aa,中两个值不完全相等,所以S0也成立。我们也可以得到结论:isintraSSintra()1intra(2)。③:把上述①和②推广到更一般的情况,即CC,也就是说粒度X()中的多121个类被合并成属于粒度X()中的几个类。2假设al11,al12,,al1m12;al21,al22,,al2m;alp1,alp2,,alpmp是粒度X()1中的若干个小类,即al11,al12,,al1m12;al21,al22,,al2m;alp1,alp2,,alpmp=aLX(1),这些小类被合并成粒度X()中的p个类b=bb,,,bX(),并且X()−a=X()−b,即2Ll12llp212LLali12,ali,,alimi(da(llik,aij)2)合并成bli。则不同粒度间的类内偏差的差值为:Sintra=Sintra(X(1))−Sintra(X(2))1pmi2(3.8)=−Ja−bnijiji2ij==11因为aaij,s不全相等,所以Sintra0,即SSintra()1intra(2)。综上①②③所述,定理3-1得证。根据定理3-1和引理3-1,在不同的粒度下,类内偏差和类间偏差的和是一个恒定的值,而SX(())是关于的单调递增函数,很显然,SX(())是一个关于的intrainter单调递减函数。一般来说,粒度X()越细,数据集被分成的类数就越多,类内元素之间的内聚性就越高,也就是说类内元素之间的相似性就越高。一个合理的分类,不仅要将数据集分成合理的类数,而且要满足以下条件[43]:S(X())S(X())(3.9)interintra则在类内偏差和类间偏差以及式子(3.3)的基础上,有限集X的粒化结果的层次评价指标被提出:HEIX(())=−Sinter(X())Sintra(X())22Ca−aJCJixa−(3.10)iiiji22=−i=1nni=1j=1分类的合理性和分类的粒度需要聚类优化标准来评价。在上述层次评价指标中,当HEIX(())取到最小值的时候,分类获得合理的粒度。因此可以得到如下优化模型:15 江南大学硕士学位论文minHEIX(())(3.11)XX()d()依据定理3-1和定理3-2可直接推得下列结论成立。定理3-3有限集X上的归一化距离dDX(),以及其相对应的粒度空间(X)。Td当XX()(),存在唯一的引导的粒度X()满足:TdooX(o)=argminHEIX(())(3.12)XX()Td()由引导的粒度X()的类内偏差与类间偏差变化如图3-1所示。DeviationSXinter(())HEIX(())SXintra(())O01图3-1误差和层次评价指标HEIX(())随的变化3.2改进的最小生成树分类算法及其应用3.2.1最小生成树分类算法的流程聚类算法基于距离对样本进行分类时,是从细粒度到粗粒度,起作用的是最小距离,计算样本两两之间的距离,距离最小时,两个样本就被分到一个类里面。而分类算法,是从粗粒度到细粒度,用最小生成树的方法,当生成树的权是最大的时候,将其“剪断”,这样就将一个大类分成了两个类。本文融合层次聚类的分裂和凝聚的思想,在原有的归一化距离粒度空间生成算法的基础上,利用最小生成树的理论,提出一种基于粒度空间的最小生成树分类算法。设d是有限论域X={x,x,,x}上的归一化距离,记:12nD={(,)|,dxyxyX}{,,=dd,d}01m其中d=0dd,则利用最小生成树求d引导的粒度空间(X)的算法步骤如01mTd下:输入:基数为n的有限集X上的一个归一化距离输出:粒度空间Td(X)a)i0,Xd()ic==C{,aa12,,a}(cn);16 第三章改进的最小生成树分类算法及其应用1C21cJi2b)Sinter(X())=−Jaiia2,Sintra(X())=−xijai,ni=1nij==112HEIXd(())=−S()Xd()S(())Xd;iinteriintraic)利用Prim算法生成最小生成树TX={};d)OutputXd()=T,w=dxx(,),并对最小生成树中的n-1条边的权重ijkjkw(iN=−1,2,,1)进行从大到小的排序;ie)AT,ii+1,T;f)B;g)TakenaA,BBa,AAa;jjjh)对于任意的xx,A,如果dxx(,)=max{,ww,,w},则断开边dxx(,),jkjk12N−1jk(,xx)称为关键点,w=dxx(,)称为关键值,对于任意的xA,jkjkjkidxx(,ij){,ww12,,wN−1},则ak={,}xxij,则BBak,AAak;i)T{}{}BA;j)如果Xd()Xd(),则HEIXd(())=−S()Xd()S(())Xd;ii−1iinteriintraik)如果HEIXd(())HEIXd(()),则转n);ii-1l)如果im或T{{},{},aa,{a}},则转e);12Nm)输出Xd(),HEIXd(());i−1i-1n)结束。注3-1:上述算法是从粗粒度到细粒度,所以算法的运行次数比已有算法的运行次数少。算法中j)的终止条件为“HEIXd(())HEIXd(())”,是因为:依据定理3-1和定ii-1理3-2,随着阈值d由0开始逐步增大,HEIXd(())的值由逐步递减向逐步增大变化。ii-1而算法中e)-l)是实现基于粒度空间的计算。通过运行上述算法,可获得数据系统X的最优聚类(或粒度)。3.2.2禽流感病毒的最优聚类与签名病毒选取为试验本文提出的最小生成树分类算法和最优模型,从NCBI数据库中下载了1902–2015年间的8种禽流感病毒,包括1363条HA蛋白序列和9401条NA蛋白序列。本文按照病毒发生的时间、地点和宿主进行简并,同时剔除掉部分标志模糊、蛋白序列不完整的流感病毒,获得了同时含有HA与NA蛋白的898条禽流感病毒蛋白序列作为实验数据库,通过禽流感病毒的数据处理,获取它的主干进化树。基于禽流感病毒特征数据集X,首先,运行最小生成树分类算法,将898条禽流感病毒序列分为两类,每一类中的病毒序列关系是相近的,但是数量不同,分别为842条和56条。考虑到进化树结构的复杂性,为了能有效地降低计算量、更有效地开展新方法的研究和讨论,本文采用系统代表法,在最优聚类的每个类中挑选出一条病毒蛋白序列来表示该类病毒的属性特征。挑选代表病毒蛋白序列的基本准则是基于中心最近原理,17 江南大学硕士学位论文即在最优聚类的每个类中挑选出距离该类中心最近的病毒蛋白序列,其具体数学模型如下公式所示:*x==argmin{(dxa,)|k1,2,,}J(3.13)iikii其中,iC=1,2,,,C为最优聚类数。相应地最优聚类记为a,a={,xx,,x},且iii12iiJiC1JiJaii=,iC=1,2,,,JNi=。记ai是类ai的中心,且axi=ik。基于上述模i=1Jik=1型,两个分类的代表病毒被挑选出来,如表3-1所示:表3-1两条代表病毒序列序号代表病毒序列1[InfluenzaAvirus(A/Pekinduck/Singapore/F59/04/98(H5N2))]2[InfluenzaAvirus(A/chicken/Tunisia/145/2012(H9N2))]表3-1中的每条代表序列代表一类病毒,每一类中均含有数量不等、关系相近的病毒序列,为了进一步研究禽流感病毒的性质,利用最小生成树分类算法对上述两类流感病毒分别进行层次聚类分析。当二次运行最小生成树分类算法时,第一类流感病毒序列被分为3类,第二类禽流感病毒也被分为3类。第1~6类流感病毒序列分别包含248,417,177,12,35及9条代表序列。6条代表病毒序列如表3-2所示。表3-2六条代表病毒序列序号代表病毒序列1(A/unknown/NY/117932-11/2001(H7N2))2(A/Duck/Anyang/AVL-1/2001(H5N1))3(A/chicken/Israel/184/2009(H9N2))4(A/swine/HongKong/2106/98(H9N2))5(A/chicken/Italy/330/1997(H5N2))6(A/chicken/Iran/261/01(H9N2))根据如上处理挑选出的6种代表病毒蛋白序列,可以建立898条同时含有HA与NA蛋白的禽流感病毒的分层结构,其中第一层包含2条代表病毒序列,第二层包含6条代表病毒序列,其进化树的构建如图3-2所示。18 第三章改进的最小生成树分类算法及其应用图3-2六条禽流感病毒蛋白序列的进化树3.2.3分析与讨论从禽流感病毒蛋白序列的进化树可以看到,在6条代表病毒蛋白序列中,有4条来自于亚洲,剩下的2条序列来自于欧洲和美洲。实际上,在禽流感疫情蔓延至中国上海、浙江、江苏等地之前,已经在欧亚大陆等地爆发,由欧亚大陆迁徙至东亚地区的野鸟所携带的禽流感病毒和中国的鸭群、鸡群所携带禽流感病毒发生基因重组,进而引起了严重的禽流感疫情。从图3-2还可以了解到,病毒的病发时间和分布地带的情况对不同的流感病毒之间的进化关系有着重要的影响。从构建的系统进化树中可以看到,被选出的6条代表序列中有3条序列为2001年的,因此可以充分说明禽流感病毒在2001年具有复杂的蛋白结构及较高的丰富度。而从图3-2中可以发现两个分支中,(A/chicken/Italy/330/1997(H5N2))和(A/swine/HongKong/2106/98(H9N2))首先聚为1类,后与(A/chicken/Iran/261/01(H9N2))聚到同一分支上,而且它们都属于N2亚型。实际上处于同一分支上的病毒,它们的发病时间是相同或相近的,这说明发病时间相同或相近的病毒在进化过程中有着紧密的亲缘关系,从这些可以推断出病毒的发病时间在病毒的进化过程中起着重要的作用。这些结论都和Liu[44]等的研究结论非常接近,进一步说明了算法分类的有效性。3.2.4算法复杂度分析通常来说,对于N个数据样本,运用聚类算法对其进行分类,最优聚类数不应该超过N[45]。最大的分类数为N,也就是每个数据样本各成一类,最小的分类数为1,也就是说所有的样本被分在一个类里面。19 江南大学硕士学位论文当所有的数据样本各成一类时,想要得到最优聚类,算法的运行次数为NN−,而当所有的数据样本都在一个类中,想要得到最优聚类,算法的运行次数为N−1。因此可以得到如下式子:N−N=N(N−1)(3.14)从式(3.14)可以看出,从N个类聚类到最优聚类数所需要的算法运行次数是从一个类分类到最优聚类数所需要的算法运行次数的N倍,所以当N特别大时,想要找到最优聚类数,聚类算法的复杂度很大,而聚类算法的逆过程,也就是分类算法,复杂度相对来说比较小,因此本文提出的基于最小生成树的分类算法的复杂度比原有的粒度空间的表示和生成算法的复杂度要低,使得算法运行速度得到了大大的提高。原有的归一化距离粒度空间生成算法,对禽流感病毒特征数据集X进行处理,得到最优聚类数6,需要运行的次数是898-6=892次,而本文提出的基于归一化距离的最小生成树分类算法,是从粗粒度到细粒度,只需要运行6次就可以得到最优聚类,也就是说对于同一数据集,基于归一化距离的最小生成树分类算法可以更快地找到数据集的最优聚类。当数据集N特别大时,想要找到最优的聚类数目,本文提出的基于最小生成树的分类算法的复杂度比原有的粒度空间的表示和生成算法的复杂度要低。3.3本章小结本章节基于粒度空间理论,根据类间偏差和类内偏差的性质,在已有的粒度空间的表示和生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法。通过建立最优聚类模型,并将构建的模型应用于发生在1902年到2015年的898条同时含有HA与NA蛋白的禽流感病毒上,基于距离中心最近的原则,通过运行提出的最小生成树分类算法,选出了6条代表病毒序列,得到了最优层次结构。实验分类结果与已有的研究结果一致,说明该算法具有可行性与有效性。在寻找基于粒度空间的最佳聚类问题上,和原有的传统聚类算法相比,本文提出的最小生成树分类算法具有更低的复杂度,这些结论为基于大数据的信息自动提取和结构分析提供了新的研究方向。20 第四章基于LR-RF的筛选疾病差异表达基因的模型第四章基于LR-RF的筛选疾病差异表达基因的模型4.1乳腺癌差异表达基因研究现状乳腺癌是全世界女性恶性肿瘤中最常见的一种。在全球范围内,乳腺癌是第二大最常见的癌症类型,也是女性患癌症后导致死亡的第二大原因。据最新统计,每26秒钟就有一位女性被诊断为乳腺癌。全球每年新发的乳腺癌患者的数量高达120万,平均每年增加约500000例[46]。对于预防乳腺癌以及乳腺癌的早期诊断和治疗,在生物医学,生物信息学等方面以不同方式鉴定疾病的致癌基因是迫切需要的。随着测序技术的迅速发展,大量的生物信息被存储在基因表达数据中。DNA微阵列是生命科学研究领域最重要的技术之一[47-49]。基因芯片数据分析的重要任务之一就是筛选出差异表达的基因。众所周知,多基因异常表达是乳腺癌发生、发展的关键生物学因素,对于乳腺癌的差异表达基因及其相互作用网络的分析对深入研究乳腺癌的发病机制,指导乳腺癌患者的个体化治疗和改善预后具有实际意义。目前,通过比较基因转录信息和表达信息在正常人的组织中和疾病状态下的差异来研究疾病的发病原因和机制,医生可以对疾病进行早期诊断和治疗。适用于不同研究设计和数据类型的基因表达谱来筛选基因表达谱差异表达基因的方法主要有微阵列显著性分析(SAM)[50],双样本t检验[51,52],贝叶斯t检验[53,54]等统计方法。然而,通过使用SAM和双样本t检验的方法来筛选差异表达基因的假阳性过高。实际上,早期的研究人员试图通过LogisticRegression[55-57]或RandomForest[58-]算法选择差异表达的基因。尽管LogisticRegression是经典方法之一并且已被广泛用于分类,但传统的LogisticRegression模型使用全部(或大部分)变量来筛选和预测差异表达的基因,因此过多的冗余基因也被其选择,从而大大增加了模型的运行时间。另一方面,一些研究人员尝试使用RandomForest算法对来自DNA微阵列数据中的基因进行分类,然而,由于没有预先选择基因,使得可用的基因数目巨大或数据的维度过高而导致模型过度拟合。虽然这些研究都为乳腺癌差异表达基因的分析提供了指导方向和极有力的工具,但是其各自的弊端也是不可调和的。因此本文提出基于LR-RF的筛选疾病差异表达基因的模型。4.2数据资源本文从GeneExpressionOmnibus(GEO)[61]上下载了两套乳腺癌数据集,登录号分别为GSE15852和GSE45255,芯片平台为GPL96。数据集GSE15852中包括43对配对的正常人的乳腺组织和乳腺癌患者的基因信息,而数据集GSE45255是由139名乳腺癌患者的基因信息组成的。通过整合数据,共有182位乳腺癌患者和43位正常人的乳腺组织的基因表达信息被用来进行分析,每个样本都含有22215个基因。一般来说,由于每个DNA微阵列数据都是由实验产生的,而不同的实验是有差异性的,这就导致了每个基因具有不同的表达水平,并且基因的表达值没有统一的标准。21 江南大学硕士学位论文因此,我们通过MATLAB中的MAPMINMAX函数来对DNA微阵列数据进行归一化数据的预处理。MAPMINMAX通过将数据矩阵的每一行的最小值和最大值归一化到[yy,]来对数据进行处理,具体公式如下:minmaxxx−miny=()y−y+y(4.1)maxminminxx−maxmin在本文中,将y设置为0、将y设置为1,将数据标准化在区间[0,1]内。minmax4.3基于LR-RF的筛选差异表达基因的混合模型在本节中,提出了LR-RF模型。该模型可以分为两步:步骤1:基于FWER错误测度的Bonferroni检验,通过LogisticRegression算法来预选基因,并粗略地获得一系列差异表达的基因。步骤2:使用RandomForest算法进行第二次筛选,获得与乳腺癌相关的潜在致病基因。事实上,RandomForest算法可以识别出哪些基因在构建决策树森林中是重要的,并获得基因的重要性评分,通过基因的重要性评分来确定它是否在模型中使用。因此,设定一个阈值并确定基因的重要性评分,这样就可以将重要性低于阈值的基因删除。通过这两步,可以获得乳腺癌的差异表达基因,其过程如图4-1所示。图4-1LR-RF模型的流程22 第四章基于LR-RF的筛选疾病差异表达基因的模型4.4实验结果及分析4.4.1差异表达基因对于LogisticRegression、RandomForest、LR-RF这三种方法,本文分别进行了10次随机试验,每次试验都随机选取数据样本的80%作为训练集,将剩余的20%的数据作为测试集。通过筛选,每种方法产生了不同数目的差异表达基因,如表4-1所示。表4-1三种方法筛选的差异表达基因的数目No.12345678910LR102240372143371629197257233288RF22331924271417252320LR-RF102188158133143107174142163137表4-1列出了三种方法选择的差异表达基因的数量。通过LogisticRegression方法选择的大量基因是冗余基因。尽管RandomForest算法可以筛选出很少差异表达的基因,但是由于DNA微阵列数据的高维度,该模型可能导致过度拟合,使得重要的基因丢失。相反,LR-RF模型可以从LogisticRegression方法预先选择的差异表达基因中选择比较显著的基因,并且依据RandomForest模型保证了筛选出的差异表达基因的准确性。4.4.2稳定性分析本文使用筛选出来的差异表达基因来预测测试集中的样本是否为乳腺癌患者。在LogisticRegression方法中,我们可以得到一系列接近0或1的回归值,其中0代表正常人,1代表乳腺癌患者。对于RandomForest算法和LR-RF模型,分类直接来自于RandomForest中的决策树。在本文中,用Rand指数[62]来计算预测的准确率。公式如下:ad+r=(4.2)abcd+++其中,a表示将乳腺癌患者预测为乳腺癌患者,b表示将乳腺癌患者预测为正常人,c表示将正常人预测为乳腺癌患者,d表示将正常人预测为正常人。通过对模型的验证和比较,可以得到三种方法的预测准确率,并利用预测准确率的方差来评估每种方法的稳定性。方差越小,说明该方法越稳定。表4-2列出了三种方法的预测准确率和稳定性。表4-2三种方法的预测准确率和稳定性No.12345678910平均准确率方差LR90.291.989.293.096.385.496.296.093.392.292.370.0011RF84.482.291.188.988.982.291.186.784.480.085.990.0014LR-RF95.693.391.191.193.395.693.393.395.688.993.110.00045从表4-2可以看出,LR-RF模型的平均预测准确率为93.11%,高于LogisticRegression算法和RandomForest算法。LR-RF模型的准确率方差为0.00045,LogisticRegression算法和RandomForest算法的准确率方差分别为0.0011和0.0014。LR-RF模23 江南大学硕士学位论文型的准确率方差明显小于其他两种方法的方差。显然,与其它两种方法相比,本文提出的LR-RF模型在有效选择差异表达基因的前提下更加地稳定。注4-1:在表4-1中,使用RandomForest算法和LR-RF模型来筛选差异表达基因的时候,将阈值设置为0.1。如何确定阈值是非常重要的。通常,阈值设置的越高,选择的基因的数量就越少。如果将阈值设置为0.15,0.2或者更大的值,那么RandomForest算法选择的差异表达基因将大大减少,并且可能进一步降低算法的预测准确率。为了控制变量来进行比较,在RandomForest算法和LR-RF模型中使用了相同的阈值。注4-2:RandomForest算法的平均预测准确率为85.99%,这是因为RandomForest算法选择的差异表达基因太少,其中包括一些真正的与疾病相关的基因也被删除了,而利用LogisticRegression算法选择的基因数目过多。LogisticRegression算法(92.37%)和LR-RF模型(93.11%)的平均预测准确率差别不大,但LR-RF模型选择的基因数量少于LogisticRegression算法。与LogisticRegression算法相比,LR-RF模型构建的差异表达基因的系统更简单。为了进一步改进本文提出的LR-RF模型并减少冗余基因产生的噪声,本文在LR-RF模型中设置不同的阈值。通过设置不同的阈值,运行LR-RF模型,可以得到不同数目的差异表达基因以及各个阈值下LR-RF模型的预测准确率,如表4-3和表4-4所示所示。表4-3不同阈值下差异表达基因的数目123456789100.11021881581331431071741421631370.159310989122896713383100980.2687662786137807167720.25564945514236545043510.344394344303337432940表4-4不同阈值下,LR-RF方法的预测准确率0.10.150.20.250.3No.195.6%93.3%95.6%95.6%95.6%No.293.3%97.8%100%91.1%93.3%No.391.1%93.3%91.1%91.1%95.6%No.491.1%95.6%91.1%95.6%95.6%No.593.3%93.3%97.8%91.1%91.1%No.695.6%95.6%95.6%95.6%93.3%No.793.3%93.3%97.8%97.8%88.9%No.893.3%91.1%100%91.1%95.6%No.995.6%88.9%91.1%91.1%86.7%No.1088.9%93.3%95.6%93.3%97.8%平均准确率93.11%93.33%95.57%93.33%93.35%24 第四章基于LR-RF的筛选疾病差异表达基因的模型从表4-3和4-4可以看出,随着阈值的增大,通过LR-RF模型筛选出来的差异表达的基因的数量会减少。当阈值从0.1增加到0.3时,LR-RF模型的平均预测准确率会先增加后减小。当预测的准确率达到最大值时,差异表达的基因的数量相对较少。因此,在LR-RF模型中,我们选择0.2作为阈值来筛选差异表达基因。注4-3:当从0.1增加到0.2时,LR-RF方法的预测准确率从93.11%增加到了95.57%,差异表达基因的数量减少。也就是说,当阈值=0.1时,筛选出的大量基因是冗余基因。当从0.2增加到0.3时,LR-RF方法的预测准确率从95.57%降低至93.35%,这是因为一些重要的差异表达的基因随着阈值的增大而被删除了。4.4.3层次聚类分析利用LR-RF方法筛选差异表达基因,并做十次重复随机试验,然后用R软件样本集进行聚类分析,得到的层次聚类图如图4-2所示。图4-2225个样本的层次聚类图通过LR-RF方法筛选的差异表达基因将225个样本分成了两组。图中139个样本是乳腺癌患者,其余样本是43个正常样本。可以看出,图4-2中的两组样本之间存在着显著的差异。这表明该方法筛选出的这些差异表达的基因是可以有效地区分正常样本和乳腺癌患者的。25 江南大学硕士学位论文4.4.4基因相互作用网络的分析表4-5列出了通过LR-RF方法筛选出的与乳腺癌最相关的20个差异表达基因。这20个差异表达的基因大部分已经在先前的与乳腺癌有关的研究中被描述。表4-5与乳腺癌最相关的20个差异表达基因No.GeneIDGeneSymbolAverageImportance1201650KRT191.162209493PDZD20.643209763CHRDL10.574206488CD360.565211696HBB0.546207092LEP0.497205478PPP1R1A0.478203548LPL0.449203853GAB20.4210209699AKR1C20.4111218168ADCK30.4012216379CD240.3813215695GYG20.3714214439BIN10.371543427ACACB0.3616218723RGCC0.3517210201BIN10.3418219140RBP40.3319221009ANGPTL40.3220204894AOC30.30之前的研究已经确定了重组人细胞角蛋白-19(KRT19)与乳腺癌的产生有着很大的关系。此外,KRT19基因的表达水平与乳腺肿瘤亚型有关,在雌激素受体(ER)和LuminalB中,KRT19表达与总体低生存率有关[63-67]。包含2(PDZD2)的PDZ结构域,通过与乳腺肿瘤抑制因子的许多直接和间接相互作用使其不具有内在的酶活性。PDZD2还能够抑制P53和PDZ蛋白的活性,或者增大端粒酶的活性,进而导致癌症的发生[68,69]。大量文献表明,位于染色体7q11.2上的CD36基因,能够编码产生CD36跨膜糖蛋白,主要表达在血小板以及多种肿瘤细胞表面[70-72]。Seewaldt[73]以及DeFilippis[74]等人于2000年发现,CD36基因在正常乳腺细胞中的抑制表达会减少脂肪细胞周围的细胞数量,与此同时脂肪细胞外的基质胶原的沉淀量也会有所增加。因此,CD36基因的缺乏将直接导致乳腺癌疾病的发生与发展。26 第四章基于LR-RF的筛选疾病差异表达基因的模型为了进一步证明LR-RF的预测能力,我们将LR-RF方法筛选的差异表达基因注释到GeneMANIA数据库中,发现这些基因中的大多数在与乳腺癌相关的途径中显著富集,例如脂肪细胞因子信号传导途径,神经营养素信号通路等。这表明本文筛选的差异表达基因在乳腺癌的发生和发展中发挥着重要作用。图4-3被筛选出的20个基因在GeneMANIA中形成的网络Fig.4.NetworkofthePDZD2geneconstructedbyGeneMANIA图4-4PDZD2基因在GeneMANIA中形成的网络27 江南大学硕士学位论文从图4-3和图4-4可以看出,这些差异表达的基因之间密切相关,PDZD2,LPL和CD36等几种基因已被证实与乳腺癌密切相关。在图4-4和图4-5中,差异表达的基因参与许多已知的与乳腺癌相关的途径并且具有许多物理相互作用。从图4-4和图4-5的基因相互作用网络可以清楚地看到,PDZD2基因与其他基因之间具有相互作用。图4-5PDZD2,LPL和CD36基因在GeneMANIA中形成的网络4.5本章小结众所周知,许多与乳腺癌相关的致病基因还不是很明确,所以,从大量的DNA微阵列数据中筛选差异表达基因的生物信息学方法至关重要。本章节基于DNA微阵列数据,提出了一种通过将LogisticRegression和RandomForest算法结合起来作为机器学习技术来筛选差异表达基因的方法,发现了与乳腺癌相关的差异表达的基因。从22215个乳腺癌基因中,预先选择了一系列差异表达的基因,然后从这些基因中再筛选与乳腺癌有关的差异表达基因。LR-RF方法不仅极大地提高了差异表达基因筛选的准确率,而且提高了模型运行的速度,大大节约了实验的时间与资源。通过重复做10次随机实验,将模型应用于与乳腺癌相关的两个DNA微阵列数据集上,同时运用方差来评价方法的稳定性。分析表明,所提出的混合模型可以有效地筛选与乳腺癌相关的差异表达基因。尽管结果中的一些基因尚未被鉴定,但LR-RF有可能在短时间内有效地筛选与乳腺癌相关的差异表达基因。预计LR-RF将为生物学家,医学科学家和认知计算研究人员提供新的知识和方法,以确定与众多疾病相关的致病基因。28 第五章总结与展望第五章总结与展望5.1全文总结随着生物信息学的快速发展,产生了海量的生物数据,各种蛋白质序列、氨基酸序列、基因表达数据等数据库也逐渐发展建立起来,如何从这些数据库中筛选出有价值的信息变得越来越重要。本文基于粒计算理论,根据统计学中类间偏差和类内偏差的性质,在已有的粒度空间的表示和生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法,通过建立最优聚类模型,将构建的最小生成树分类算法模型应用于禽流感病毒的蛋白质序列上,最终选出了6个代表病毒蛋白质序列,得到了最优层次结构。实验得到的结果与已有的研究结果一致,这说明本文所提出的最小生成树分类算法的高效性。在寻找基于粒度空间的最佳聚类问题上,本文所提出的最小生成树分类算法比原有的算法具有更低的复杂度,运行速度更快,这些结论为基于大数据的信息自动提取和结构分析提供了新的研究方向和路径。许多与乳腺癌相关的致癌基因尚不清楚。因此,如何从大量DNA微阵列数据中筛选出差异表达的基因和致病基因至关重要。基于DNA微阵列数据,我们提出了一种通过将LogisticRegression和RandomForest结合起来作为机器学习技术来筛选差异表达的乳腺癌基因的方法。对于22215个乳腺癌基因数据,本文预先选择一系列差异表达基因,然后从这些基因中再筛选与乳腺癌最相关的差异表达基因。通过与LogisticRegression和RandomForest算法进行比较,本文提出的LR-RF模型不仅极大地提高了差异表达基因筛选的准确性,而且提高了算法运行速度。在与乳腺癌相关的两个DNA微阵列数据集上重复做10次随机实验,运用模型预测准确率的方差来评价方法的稳定性。分析表明,所提出的混合模型LR-FF可以有效地筛选与乳腺癌相关的差异表达基因。尽管结果中的一些基因尚未被鉴定,但LR-RF有可能在短时间内有效筛选与乳腺癌相关的差异表达基因。预计LR-RF将为生物学家,医学科学家和认知计算研究人员提供新的知识和方法,以确定与乳腺癌相关的致病基因。5.2工作展望本课题主要研究基于粒度空间的聚类算法以及疾病中差异表达基因的筛选方法。在聚类算法的改进中,引入最小生成树,建立最优聚类模型,在疾病差异表达基因的筛选方法的改进中,巧妙地将LogisticRegression算法和RandomForest算法结合起来,并在RandomForest算法中设置不同的阈值来建立最优模型。随着生物信息学的发展,生物大数据不断增多,成千上万甚至更多的蛋白质(氨基酸)序列以及基因大数据需要被处理,找出这些数据中隐藏的价值将显得尤为重要。对于流感病毒,本文只选取了898条流感病毒序列,并对其应用最小生成树分类算法,建立了两层聚类结构;对于疾病基因大数29 江南大学硕士学位论文据,本文选取了GEO上两个乳腺癌DNA微阵列数据集,利用LR-RF模型对其进行差异表达基因的筛选。但是,目前仍有大量的工作亟待研究人员解决:(1)本文所选取的流感病毒是同时含有HA与NA蛋白的禽流感病毒,流感病毒发生的广泛性众所周知,引起人类死亡的一个重要的原因就是流感。我国人口基数大、地域面积广,有些地区人口密集,环境恶劣,更容易引发流感,每年流感发病人数高达几千万,因此还有大量的数据需要处理和分析,发现并挖掘出流感病毒数据中有用信息,为预防大型流感病毒的出现提供指导。(2)世界卫生组织定义的已知的恶性肿瘤的种类已有260多种,身体的任何部位、任何组织都有可能受到恶性肿瘤的侵袭。本文重点选取了造成妇女死亡的最常见的乳腺癌,然而在以后的研究中,可以运用本文的方法,对其他癌症的基因芯片数据进行分析,挑选其差异表达的基因,找出致病基因,为临床医学提供方向和指导。(3)本文所选用的LogisticRegression算法是一种很经典的二分类算法,在有些疾病中,并非简单地将样本分为正常人与病人,比如乳腺癌可以细分为四个亚型——luminalA型、luminalB型、HER-2过表达型和basal-like型[75],对于这样的多分类情况,经典的LogisticRegression算法是不适用的,所以还需要进一步对LogisticRegression算法进行改进或者探究其他适用性强的算法来进行疾病差异表达基因的筛选。30 致谢致谢光阴似箭,日月如梭,从2011年9月第一次踏入江南大学到现在已有七年之久,而此时此刻,四年的本科生活加上三年的研究生生活,马上就要画上句号了。回忆起在江南大学的这七年时光,往事历历在目。马上面临毕业,借毕业论文由衷地感谢所有关心我、帮助我、支持我的老师们、同学们及亲人们!首先,我的导师唐旭清教授是我最先想要感谢的人,唐老师是我在大四保研之后选择的导师,从大四的讨论班、毕业论文到研究生三年的学习生活,是唐老师的悉心指导让我的学习能力有了很大的提高。在唐老师的指导下,我参加了两次研究生数学建模大赛,顺利了发表了一篇CSCD论文,一篇SCI论文也已经被录用待发表,同时也和其他学长、同学合作了多篇文章,在此衷心地感谢唐老师为我所付出的一切。感谢理学院生物信息学讨论班的各位老师和同学,是你们每次的提问与探讨督促着我不断学习、不断更加深入地研究,特别感谢李阳学长、梁启浩学长对我的关心与帮助。感谢与我朝夕相处的丁涛同学,感谢你陪我走过三年的研究生生活,让枯燥的学术和科研生活变得丰富多彩,感谢我的好朋友代慧菊同学给我的支持和鼓励,谢谢你们!感谢父母和姐姐对我无私的关怀与呵护,无论发生什么事情,你们永远都是我的后援团,感谢你们!31 参考文献参考文献[1]SebastianiP,PalmerLJ.HumanGenomeProject[M]//EncyclopediaofPersonalityandIndividualDifferences.Springer,2017.[2]许忠能.生物信息学[M].北京:清华大学出版社,2008.[3]涂华伟.关于基因微阵列数据中癌症差异基因表达的若干算法研究[D]:[硕士学位论文].长春:吉林大学,2009.[4]陈志,曾照芳.基因芯片技术的最新进展[J].国际检验医学杂志,2006,27(3):249-251.[5]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志,2012,33(5):2-6.[6]DooleyEE.NationalCenterforBiotechnologyInformation[J].EnvironHealthPerspect,2004,78(14):7291-7298.[7]StoesserG,GriffithM,GriffithOL.NCBI(NationalCenterforBiotechnologyInformation)[M]//DictionaryofBioinformaticsandComputationalBiology.AmericanCancerSociety,2014.[8]田中,俊典.NationalCenterforBiotechnologyInformation(NCBI)[M]//TheDictionaryofGenomics,TranscriptomicsandProteomics.Wiley‐VCHVerlagGmbH&Co.KGaA,2015.[9]LabargaA,ValentinF,AndersonM,etal.WebServicesattheEuropeanBioinformaticsInstitute[J].NucleicAcidsResearch,2007,35(WebServerissue):6-11.[10]KapusheskyM,EmamI,HollowayE,etal.GeneExpressionAtlasattheEuropeanBioinformaticsInstitute[J].NucleicAcidsResearch,2010,38(Databaseissue):690-698.[11]覃丽芳.国内外生物产业发展的基本状况及经验借鉴[J].创新,2011,05(2):66-70.[12]张铃.问题求解理论及应用[M].北京:清华大学出版社,2007.[13]ZadehLA,GuptaMM,RagadeRK,etal.FuzzySetsandInformationGranularity[J].1996,433-448.[14]YaoYY.GranularComputing:Basicissuesandpossiblesolutions[C]//Proceedingsofthe5thJointConferenceonInformationSciences.2000,1:186--189.[15]ZadehLA.FuzzyLogic=ComputingwithWords[J].IEEETransactionsonFuzzySystems,2002,4(2):103-111.[16]PawlakZ.Roughsetsandintelligentdataanalysis[M].ElsevierScienceInc,2002.[17]张铃,张钹.模糊商空间理论(模糊粒度计算方法)[J].软件学报,2003,14(4):770-776.[18]HartiganJA,WongMA.AlgorithmAS136:AK-MeansClusteringAlgorithm[J].JournaloftheRoyalStatisticalSociety,1979,28(1):100-108.[19]JohnsonSC.Hierarchicalclusteringschemes[J].Psychometrika,1967,32(3):241.[20]UncuO,GruverWA,KotakDB,etal.GRIDBSCAN:GRIdDensity-BasedSpatialClusteringofApplicationswithNoise[J].IEEEInternationalConferenceonSystems,ManandCybernetics,2007,2976-2981.[21]WangW,YangJ,MuntzRR.STING:AStatisticalInformationGridApproachtoSpatialDataMining[C]//InternationalConferenceonVeryLargeDataBases.MorganKaufmannPublishersInc,1997:186-195.[22]SanthisreeK,DamodaramA.CLIQUE:Clusteringbasedondensityonwebusagedata:Experimentsandtestresults[C]//InternationalConferenceonElectronicsComputerTechnology.IEEE,2011,233-236.[23]蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18.[24]SoundararajanP,SarkarSS.AnalysisofMinCut,averagecutandnormalizedcutmeasures[C].InWorkshoponPerceptualOrganizationinComputerVision,2001.[25]YaoY.InterpretingConceptLearninginCognitiveInformaticsandGranularComputing[J].IEEETransactionsonSystemsMan&CyberneticsPartBCyberneticsAPublicationoftheIEEESystemsMan&CyberneticsSociety,2009,39(4):855-866.[26]蒙祖强,周石泉.不一致决策系统中基于粒度计算的广义决策规则获取方法研究[J].计算机科学,2012,39(1):198-202.[27]PanoutsosG,MahfoufM.Aneural-fuzzymodellingframeworkbasedongranularcomputing:Conceptsandapplications[J].FuzzySets&Systems,2010,161(21):2808-2830.[28]SkowronA,StepaniukJ,SwiniarskiR.Modelingroughgranularcomputingbasedonapproximationspaces[J].InformationSciences,2012,184(1):20-43.[29]PedryczW.Thedesignofcognitivemaps:Astudyinsynergyofgranularcomputingandevolutionaryoptimization[J].ExpertSystemswithApplications,2010,37(10):7288-7294.32 参考文献[30]PedryczW,LoiaV,SenatoreS.FuzzyClusteringWithViewpoints[J].IEEETransactionsonFuzzySystems,2010,18(2):274-284.[31]李骏,王国俊.G(o)deln值命题逻辑中命题的α-真度理论[J].软件学报,2007,18(1):33-39.[32]唐旭清,朱平,程家兴.基于归一化距离的结构聚类分析[J].模式识别与人工智能,2009,22(5):678-688.[33]陈新.基于最小生成树的聚类分析方法研究[D]:[硕士学位论文].重庆:重庆大学,2013.[34]MartelC.TheexpectedcomplexityofPrim'sminimumspanningtreealgorithm[J].InformationProcessingLetters,2002,81(4):197-201.[35]HuangK.ConstructionofMinimumCostSpanningTreeonKruskalAlgorithm[J].ComputerKnowledge&Technology,2010.[36]BudimirMEA,AtkinsonPM,LewisHG.Asystematicreviewoflandslideprobabilitymappingusinglogisticregression[J].Landslides,2015,12(3):419-436.[37]PeñaEA,HabigerJD,WuW.ClassesofMultipleDecisionFunctionsStronglyControllingFWERandFDR[J].Metrika,2015,78(5):563-595.[38]裴艳波.多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR的讨论[D]:[硕士学位论文].长春:东北师范大学,2005.[39]GlickmanME,RaoSR,SchultzMR.FalsediscoveryratecontrolisarecommendedalternativetoBonferroni-typeadjustmentsinhealthstudies[J].JournalofClinicalEpidemiology,2014,67(8):850-857.[40]BuckleyMJ,EaglesonGK,SilvermanBW.AstagewiserejectivemultipletestprocedurebasedonamodifiedBonferronitest[J].Biometrika,1988,75(2):383-386.[41]BreimanL.RandomForests[J].MachineLearning,2001,45(1):5-32.[42]唐旭清,梁启浩,李阳.基于粒度空间的最优聚类指标研究[J].系统工程理论与实践,2018,38(3):755-764.[43]李阳.基于粒计算的生物复杂系统建模和网络结构分析[D]:[硕士学位论文].无锡:江南大学,2017.[44]LiuD,ShiW,ShiY,etal.OriginanddiversityofnovelavianinfluenzaAH7N9virusescausinghumaninfection:phylogenetic,structural,andcoalescentanalyses[J].Lancet,2013,381(9881):1926-1932.[45]JianYU,ChengQ.Theupperboundoftheoptimalnumberofclustersinfuzzyclustering[J].中国科学:f辑英文版,2001,44(2):119-125.[46]ParkinDM,PisaniP,FerlayJ.Globalcancerstatistics[J].CA:ACancerJournalforClinician,2014,49(1):33-64.[47]SchenaM,ShalonD,DavisRW,etal.QuantitativeMonitoringofGeneExpressionPatternswithaComplementaryDNAMicroarray[J].Science,1995,270(5235):467-470.[48]GautierL,CopeL,BolstadBM,etal.affy-analysisofAffymetrixGeneChipdataattheprobelevel[J].Bioinformatics,2004,20(3):307-315.[49]IrizarryRA,BolstadBM,CollinF,etal.SummariesofAffymetrixGeneChipprobeleveldata[J].NucleicAcidsResearch,2003,31(4):e15-e15.[50]GraceC,NachevaEP.SignificanceAnalysisofMicroarrays(SAM)OffersCluestoDifferencesBetweentheGenomesofAdultPhiladelphiaPositiveALLandtheLymphoidBlastTransformationofCML[J].CancerInformatics,2012,11(11):173.[51]TibshiraniR,HastieT,NarasimhanB,etal.Diagnosisofmultiplecancertypesbyshrunkencentroidsofgeneexpression[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2002,99(10):6567-6572.[52]GoochJW.Two-SampleT-Test//EncyclopedicDictionaryofPolymers[M].Harbin:HarbinInstituteofTechnologyPress,2011.[53]SmythGK.Linearmodelsandempiricalbayesmethodsforassessingdifferentialexpressioninmicroarrayexperiments[J].StatApplGenetMolBiol,2004,3(3):Article3.[54]ChenM,MuckersieE,ForresterJV,etal.Immuneactivationinretinalaging:ageneexpressionstudy[J].InvestigativeOphthalmology&VisualScience,2010,51(11):5888-5896.[55]ShevadeSK,KeerthiSS.Asimpleandefficientalgorithmforgeneselectionusingsparselogisticregression[J].Bioinformatics,2003,19(17):2246-2253.[56]ZhuJ,HastieT.Classificationofgenemicroarraysbypenalizedlogisticregression[J].Biostatistics,2004,5(3):427-443.[57]YongL,ChengL,LuanXZ,etal.SparselogisticregressionwithaL1/2penaltyforgeneselectionincancerclassification[J].BMCBioinformatics,2013,14(1):198.[58]DengH,RungerG.Geneselectionwithguidedregularizedrandomforest[J].PatternRecognition,2012,46(12):3483-3489.33 参考文献[59]AnaissiA,KennedyPJ,GoyalM,etal.Abalancediterativerandomforestforgeneselectionfrommicroarraydata[J].BmcBioinformatics,2013,14(1):1-10.[60]NishiwakiK,KanamoriK,OhwadaH.Findingadisease-relatedgenefrommicroarraydatausingrandomforest[J].IEEEInternationalConferenceonCognitiveInformatics&CognitiveComputing,2017,542-546.[61]BarrettT,WilhiteSE,LedouxP,etal.NCBIGEO:archiveforfunctionalgenomicsdatasets--update[J].NucleicAcidsResearch,2011,39(Databaseissue):1005-1010.[62]SteinleyD.PropertiesoftheHubert-ArableAdjustedRandIndex[J].PsychologicalMethods,2004,9(3):386-396.[63]PratA,ParkerJS,KarginovaO,etal.Phenotypicandmolecularcharacterizationoftheclaudin-lowintrinsicsubtypeofbreastcancer[J].2010,12(5):R68-R68.[64]LehmannBD,BauerJA,ChenX,etal.Identificationofhumantriple-negativebreastcancersubtypesandpreclinicalmodelsforselectionoftargetedtherapies[J].JournalofClinicalInvestigation,2011,121(7):2750.[65]KabirNN,RönnstrandL,KaziJU.Keratin19expressioncorrelateswithpoorprognosisinbreastcancer[J].MolecularBiologyReports,2014,41(12):7729.[66]DaiX,LiY,BaiZ,etal.Molecularportraitsrevealingtheheterogeneityofbreasttumorsubtypesdefinedusingimmunohistochemistrymarkers[J].ScientificReports,2015,5(4):14499.[67]YangL,TangXQ,BaiZ,etal.Exploringtheintrinsicdifferencesamongbreasttumorsubtypesdefinedusingimmunohistochemistrymarkersbasedonthedecisiontree[J].ScientificReports,2016,6:35773.[68]赵思成,骆丹.HPVE6蛋白及其在致癌过程中作用的靶蛋白[J].中国生物化学与分子生物学报,2009,25(3):225-228.[69]TamCW,LiuVW,LeungWY,etal.TheautocrinehumansecretedPDZdomain-containingprotein2(sPDZD2)inducessenescenceorquiescenceofprostate,breastandlivercancercellsviatranscriptionalactivationofp53[J].CancerLetters,2008,271(1):64-80.[70]KochM,HusseinF,WoesteA,etal.CD36-mediatedactivationofendothelialcellapoptosisbyanN-terminalrecombinantfragmentofthrombospondin-2inhibitsbreastcancergrowthandmetastasisinvivo[J].BreastCancerResTreat,2011,128(2):337-346.[71]刘瑛,许先国,蓝小飞,等.人血小板表面CD36糖蛋白检测方法的建立及初步应用[J].中国实验血液学杂志,2013,21(4):1042-1045.[72]陈路嘉,叶长生,黄仲曦,等.大样本芯片数据分析亚洲人乳腺癌差异表达基因及可能信号通路[J].南方医科大学学报,2014(6):807-812.[73]SeewaldtVL.Cancer:Destinyfromdensity[J].Nature,2012,490(7421):490-491.[74]DefilippisRA,ChangH,DumontN,etal.CD36repressionactivatesamulticellularstromalprogramsharedbyhighmammographicdensityandtumortissues[J].CancerDiscovery,2012,2(9):826-839.[75]赵毅,邓鑫.乳腺癌分子分型与治疗策略[J].中国实用外科杂志,2015,35(7):704-708.34 附录:作者在攻读硕士学位期间发表的论文及参加的学术活动附录:作者在攻读硕士学位期间发表的论文及参加的学术活动一、参与项目1.参与国家自然基金面上项目“基于粒计算理论的生物网络结构建模、分析与算法研究”(主持人:唐旭清,编号:11371174)。二、论文与获奖1.孙梦梦,唐旭清.基于粒度空间的最小生成树分类算法[J].南京大学学报(自然科学),2017,53(5):963-971.2.SunMengmeng,DingTao,TangXuqing,etal.Anefficientmixed-modelforscreeningdifferentiallyexpressedgenesofbreastcancerbasedonLR-RF[J].IEEE/ACMTransactionsonComputationalBiologyandBioinformatics,accepted.3.LiYang,LiangQihao,SunMengmeng,etal.Constructionofmulti-levelstructureforavianinfluenzavirussystembasedongranularcomputing[J].BioMedResearchInternational,2017,2017(1):5404180.4.DingTao,XuJunhua,SunMengmeng,etal.PredictingmicroRNAbiologicalfunctionsbasedongenesdiscriminantanalysis.[J].ComputationalBiology&Chemistry,2017.5.2016-2017年,全国研究生数学建模竞赛,国家三等奖。三、学术交流1.2017.05参加CRSSC-CWI-CGrC-3WD2017联合会议(合肥),并作小组汇报;2.2015.12-2017.12参加扬州、无锡等生物数学年会,生物信息会议等。35

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭