基于基因表达谱的肿瘤基因及其网络结构研究

基于基因表达谱的肿瘤基因及其网络结构研究

ID:37371140

大小:2.32 MB

页数:59页

时间:2019-05-22

基于基因表达谱的肿瘤基因及其网络结构研究_第1页
基于基因表达谱的肿瘤基因及其网络结构研究_第2页
基于基因表达谱的肿瘤基因及其网络结构研究_第3页
基于基因表达谱的肿瘤基因及其网络结构研究_第4页
基于基因表达谱的肿瘤基因及其网络结构研究_第5页
资源描述:

《基于基因表达谱的肿瘤基因及其网络结构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要人类基因组计划的实施,产生了大量的生物医学数据。生物信息学是基于信息科学的理论和方法,利用计算机技术,分析和研究生物医学数据的新兴学科。基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文应用人工智能的方法,对肿瘤基因表达谱进行了分析和研究,取得的研究成果主要有:第一:提出了一种肿瘤基因表达数据残缺值处理的方法。本文以GE0数据库中的GSE4045系列结肠癌数据为研究对象。设定数据中样本的残缺值个数阈值为口,去掉残缺值个数大于口的样本,残缺值等于与残缺值样本类别相同的同一基

2、因的均值。对处理后的数据进行聚类分析,结果显示出很好的聚类有效性。第二:本文建立了一种通过评价备选特征基因子集的分类性能来确定肿瘤基因表达数据特征基因的方法,并基于胃癌基因表达谱提取了胃癌特征基因集合。首先应用分类信息指数、Relief、T检验、秩和检验算法,通过“肿瘤基因表达数据残缺值的处理一数据标准化一搜索差异表达基因一去冗余分析”等步骤,提取数据中的备选特征基因,再采用SVM分类器评价备选特征基因子集对样本的分类正确率。分类正确率最高,元素个数最多的备选特征基因子集即为特征基因。本文以Hippo.Y等提供

3、的胃癌基因表达数据为研究对象,应用本标准确定了特征基因提取的算法和可有效应用于聚类分析的特征基因。分析结果可视化程度好,可解释性强,具有很好的统计学和生物学意义。第三:应用边介数聚类算法提取了结肠癌基因网络的模块结构,并用模块度函数对聚类效果进行了定性评价。边介数聚类算法是一种基于图论的算法,计算网络中通过某条边的最短路径的条数即边介数,找出边介数最大的边并将其删除,从而使网络逐步聚成不同的子网络。这些子网络对应生物网络的功能模块。本文首先对聚类的有效性进行了研究,利用模块度函数比较了己知聚类结果的Zachar

4、y空手道俱乐部网络的边介数聚类和层次聚类的结果,证明了边介数聚类算法的有效性,也解决了无监督聚类算法需要设定聚类数的问题。本文采用的边介数聚类算法借鉴了Girvan和Newman提出的社区发现算法。利用边介数聚类算法对GSE4045系列结肠癌数据进行了分析,通过检索GO数据库验证了边介数聚类所得基因模块具有相似或相同的功能类,从而进一步证明了算法的可行性和有效性。本文的研究工作得到了国家自然科学基金(No.60234020)的支持,相关研究成果已被DCDIS国际期刊(SCI刊源)、WCCl2008(EI刊源)和

5、中文核心期刊《北京工业大学学报》正式录用。本文研究工作的意义在于通过发现相似性北京工业大学硕士学位论文预测未知基因的功能,为肿瘤的诊断和治疗提供参考方案。可广泛应用于肿瘤相关基因发现、药物靶点发现与基因功能预测等领域。关键词边介数聚类算法;模块度;肿瘤基因表达谱;特征提取IIAbstractWiththeimplementationofhumangenomeproject,thebiomedicaldatahasbeengrowingexponentiallNTheexplosionofthesedatamak

6、esitnecessaryandurgentforbioinformaticsresearcherstoanalyzeanduncoverthembiologywiththeassistanceofintelligentcomputingtechnology,mathematics,datammmgandbi0109ymethods.Nowitistheimportanttaskofcancerbioinformaticsthatstudycancerf.eaturesonthemolecularlevelba

7、sedongeneexpressionprofile.Thispaperfocusesonthispointandanalyzesthegeneexpressionprofilewithartificialintelligenttechniques.Theachievementsarefollowed:1、AmethodforprocessingthemissingdataofgeneprofileWasproposed.W色setmethresholdofthenumberofmisseddatainthes

8、ample,allthegeneswhoseexDressiondataisbiggerthanthethresholdaredeleted,andtheothersarefilledwiththeaverageofthegene’Sexpressiondata.Theprocesseddatashowgoodperformanceintheclusteranalysis.2、Anov

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。