转座元件对人类基因的可变剪接及其致病性影响的研究

转座元件对人类基因的可变剪接及其致病性影响的研究

ID:75603817

大小:1.52 MB

页数:51页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
转座元件对人类基因的可变剪接及其致病性影响的研究_第1页
转座元件对人类基因的可变剪接及其致病性影响的研究_第2页
转座元件对人类基因的可变剪接及其致病性影响的研究_第3页
转座元件对人类基因的可变剪接及其致病性影响的研究_第4页
转座元件对人类基因的可变剪接及其致病性影响的研究_第5页
转座元件对人类基因的可变剪接及其致病性影响的研究_第6页
转座元件对人类基因的可变剪接及其致病性影响的研究_第7页
转座元件对人类基因的可变剪接及其致病性影响的研究_第8页
转座元件对人类基因的可变剪接及其致病性影响的研究_第9页
转座元件对人类基因的可变剪接及其致病性影响的研究_第10页
资源描述:

《转座元件对人类基因的可变剪接及其致病性影响的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

上海交通大学硕士学位论文转座元件对人类基因的可变剪接及其致病性影响的研究硕士研究生:曹单锋学号:1120809001导师:韦朝春博士申请学位:理学硕士学科:生物学所在单位:生命科学技术学院答辩日期:2015年6月授予学位单位:上海交通大学 DissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofMasterTEcontents,numbersoftranscriptsanddiseasesusceptibilityofthehumangenesCandidate:DanfengCaoStudentID:1120809001Supervisor:Dr.ChaochunWeiAcademicDegreeAppliedfor:MasterofScienceSpeciality:BiologySchoolofLifeScienceandAffiliation:BiotechnologyDateofDefence:June,2015Degree-Conferring-Institution:ShanghaiJiaoTongUniversity 上海交通大学硕士学位论文转座元件对人类基因的可变剪接及其致病性的影响研究摘要在人类基因组中,大多数的基因都含有转座元件,但是转座元件在蛋白质编码区所占的比例大约只有1%。1%这个比例可很能是被低估的。我们系统分析了不同的人类基因组注释数据库中转座元件在蛋白质编码区域的变化情况。在RefSeq数据库中,0.43%的蛋白质编码序列被转座元件覆盖,但在Ensembl(GENCODE)数据库中,这一比例达到了1.30%。对于Ensembl特有的蛋白质编码区,转座元件的覆盖率达到了15.3%,远远高于在RefSeq中所对应的比例(0.43%)。同时,我们分析了各个蛋白质编码序列数据库的表达量。数据库特有的蛋白质编码序列的表达量显著低于RefSeq和Ensembl中蛋白质编码序列的表达量。这些结果这表明,未被识别出的蛋白质编码序列比现有的蛋白质编码序列含有更多的转座元件,有更低的表达量,这也预示着这些蛋白质编码序列将会更加难以被识别出来。随后,我们研究了转座元件、可变剪接、疾病易感性三者之间的联系。基因的转录本数目越多,转座元件的含量也越高。我们分析了OMIM数据库中的致病基因,发现致病基因比非致病基因含有更多的转座元件,新发现的致病基因比更早时候发现的致病基因含有更多的转座元件,转录本数目越多的基因越容易致病。关键词:转座元件、蛋白质编码序列、疾病易感性、可变剪接、基因表达量I 上海交通大学硕士学位论文TECONTENTS,NUMBERSOFTRANSCRIPTSANDDISEASESUSCEPTIBILITYOFTHEHUMANGENESABSTRACTComprisingnearlyhalfofthehumangenome,transposableelements(TEs)arefoundwithinmostgenesthoughtheproportionofTEsinproteincodingregions(CDSregions)isonly~1%.However,thisnumbermaybeunderestimated.Inthisstudy,wesystematicallyanalyzedthevariationoftransposableelementsinCDSregionsindifferentpublicgenomeannotationdatabases.InRefseqdatabase,0.43%ofCDSsarecoveredbyTEs.However,thispercentagereached1.30%inEnsembl(GENCODE)databaseandthefractionofTEsinEnsembl-specificCDSregions(~15.3%)ismuchhigherthanthecorrespondingfractioninRefSeq(0.43%).ThetranscriptionlevelsofdatabasespecificCDSsaresignificantlylowerthanthoseofCDSsinbothRefSeqandEnsembl.WefurtherinvestigatedtheeffectofTEontranscriptnumberanddiseasesusceptibility.Genes,containingmoretranscripts,haveahigherTEcontentthanthosecontainlesstranscript.WeanalyzethediseaseassociatedgenesinOMIMdatabaseandfoundthatdiseaseassociatedgenescontainmoreTEsthannon-diseaserelatedgenes.RecentlyrecognizeddiseaserelatedgeneshavemoreTEsthanthegenesidentifiedearlier.Overall,theseresultsindicatethatmoreproteincodinggenesaretobefoundinthefutureduetotheirhighpercentagesofTEcontents.KEYWORDS:TransposableElements,ProteinCodingsequence,AlternativeSplicing,DiseaseSusceptibility,GeneExpressionII 上海交通大学硕士学位论文目录摘要·································································································I第一章绪论·······················································································11.1人类基因组注释数据库......................................................................................11.1.1人类基因组注释数据库概况······················································11.1.2RefSeq数据库········································································21.1.3Ensembl数据库·······································································21.2转座元件..............................................................................................................21.2.1转座元件概述········································································21.2.2转座元件对宿主基因的影响······················································31.2.3转座元件识别、注释工具·························································41.3人类疾病相关基因..............................................................................................51.3.1人类遗传病与致病基因····························································51.3.2致病基因数据库概况·······························································51.3.3OMIM数据库·········································································61.4可变剪接..............................................................................................................71.4.1可变剪接概况········································································71.4.2可变剪接与疾病·····································································71.5论文研究内容及结构..........................................................................................81.6本章总结..............................................................................................................9第二章蛋白质编码区转座元件含量的分析···············································102.1材料与方法........................................................................................................102.1.1注释数据库和数据生成···························································102.1.2计算转座元件所占的比例························································112.2结果与讨论........................................................................................................112.3本章总结............................................................................................................14第三章不同基因组注释数据库蛋白质编码序列的表达量分析·······················153.1材料与方法........................................................................................................153.1.1RNA-seq数据集·····································································15III 上海交通大学硕士学位论文3.1.2表达量分析的流程·································································153.2结果与讨论........................................................................................................173.2.1蛋白质编码序列的表达量分析··················································173.3本章总结............................................................................................................17第四章疾病相关基因的研究·································································184.1研究方法和材料................................................................................................184.1.1疾病相关基因数据·································································184.1.2疾病相关基因的分类······························································184.1.3疾病相关基因中转座元件含量的分析·········································184.2结果和讨论........................................................................................................194.2.1致病基因比非致病基因含有更多的转座元件································194.2.2新发现的致病基因中含有更多的转座元件···································204.2.3新发现的致病有着更低的表达量···············································204.2.4疾病相关基因的基因长度与转座元件的联系································214.3本章总结............................................................................................................23第五章可变剪接的研究·······································································245.1研究方法和材料................................................................................................245.1.1数据来源与生成····································································245.1.2数据分析·············································································245.2结果和讨论........................................................................................................245.2.1可变剪接与转座元件的联系·····················································245.2.2可变剪接与基因疾病易感性的联系············································255.3本章总结............................................................................................................26第六章结论与展望·············································································276.1主要结论............................................................................................................276.2未来展望............................................................................................................28参考文献······················································································30附录·································································································36致谢·······························································································39攻读硕士学位期间已发表或录用的论文···················································41IV 上海交通大学硕士学位论文图录图2-1不同的基因组注释数据库中蛋白质编码区域中的转座元件分布情况...................................13图3-1不同注释集中蛋白质编码序列的表达量...................................................................................16图4-1致病基因与非致病基因中的转座元件含量...............................................................................19图4-2每年新增加的疾病相关基因中的重复序列和转座元件...........................................................20图4-3每年新增加的疾病相关基因的表达量分布...............................................................................22图4-4基因疾病易感性与基因长度、蛋白质编码序列长度的关系...................................................22图4-5不同疾病相关基因注释集中的转座元件分析...........................................................................23图5-1基因转录本数目与转座元件的联系...........................................................................................25图5-2基因转录本数目与基因疾病易感性的联系...............................................................................26V 上海交通大学硕士学位论文表录表1-1转座元件的识别、分类、注释工具.............................................................................................4表1-2OMIM数据库中的条目数量...........................................................................................................6表2-1不同注释库中的转座元件和简单重复序列...............................................................................11表2-2ENSEMBL数据库特有的含有转座元件的蛋白质编码序列的BIOTYPE..........................................13表2-2REFSEQ数据库特有的含有转座元件的蛋白质编码序列的BIOTYPE...........................................14表3-1九组RNA-SEQ数据集....................................................................................................................15附表1不同蛋白质编码序列注释集中的重复序列分析.......................................................................32附表2基因信息样表...............................................................................................................................33VI 上海交通大学硕士学位论文第一章绪论在人类基因组中,大多数的基因都含有转座元件,但是转座元件在蛋白质编码区所占的比例大约只有1%。转座元件会对人类的基因产生诸多的影响。在本文中,我们研究了转座元件在不同的人类基因组注释数据库之间分布的差异,转座元件、可变剪接、疾病易感性三者之间的联系。1.1人类基因组注释数据库1.1.1人类基因组注释数据库概况人类基因组由大约三十亿个碱基对组成,这其中包含了20,000至25,000个蛋白质编码基因[1,2]。但是仅仅拥有序列信息是没有多大价值的,我们需要知道基因的确切位置和基因的功能等其他信息,这就需要基因注释。基因注释是连接序列和生物学信息的过程,它包含三个主要步骤:识别基因组中非编码蛋白质的区域,基因的位置预测,给这些基因添加生物学信息[3]。基因组的注释有两种方法。第一种是人工注释,科学小组通过使用文献报道过的实验数据来定位基因,这种方法非常缓慢和费力。另一种方法被称作自动化注释,它尝试着通过计算机分析处理数据自动地完成所有的注释工作。理想情况下,在一套注释流程中,这两种方法同时存在并且相互补充。通过BLAST发现序列相似性,以此对基因组做注释,这是最基本的注释手段。现在,越来越多的信息被用来帮助注释基因组。一些数据库通过整合基因组上下文信息、序列相似度、实验数据和其他信息来建立注释流程。还有些数据库(比如Ensembl)不但整合了各种信息,还利用了其他数据库的注释数据[4]。人类曾经被认为有20,000到120,000个基因[5,6],但直到现在,人类到底有多少个基因仍然是未知的。因为在人类基因组中存在着很多的重复序列和同源序列,这些序列对识别相应的基因造成了很大的困难。另外,已经组装好的人类参考基因组仍旧是不完整的,还有许多基因区域是被错误组装的[7,8]。现在有很多的公共数据库来注释人类的基因和有功能的片段,像RefSeq[9],Ensembl[4],GENCODE[10],AceView[11]等等。这些数据库采用了不同的计算方法和注释流程,它们产生的结果也有所不同[12]。-1- 上海交通大学硕士学位论文1.1.2RefSeq数据库RefSeq数据库(http://www.ncbi.nlm.nih.gov/refseq/)是在各类研究中被广泛使用的公共数据库。它由美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,简称NCBI)发行,收录了基因、转录本、蛋白质等信息。这些信息来源于公共的序列资料库,并由美国国家核苷酸序列数据库协会做去冗余。截止到2014年12月5日,RefSeq数据库包含超过16000个生物体,6662.4ⅹ10个基因条目,13ⅹ10个蛋白质条目和2ⅹ10个RNA条目,涉及到原核生物、真核生物、病毒等。RefSeq数据库采用自动化分析与人工管理相结合的办法来更新它的各类信息[9]。RefSeq的数据对所有研究组织都是免费开放的,用户可以通过多种途径获取RefSeq数据库中的数据,如通过网络查询、FTP、NCBI的E-Utilities工具来获取RefSeq的数据。本研究中使用了Refeq数据库中人类基因组相关的注释信息。1.1.3Ensembl数据库Ensembl(http://www.ensembl.org)成立于1999年,由欧洲生物信息研究所和WellcomeTrustSanger研究所联合发行。Ensembl提供了超过70个模式生物的注释信息,最重要的是人类基因组,还包括其他农业相关物种和一些主要脊椎动物的基因组。同时,Ensembl也是世界上最知名的genomebrowser之一。Ensembl采用Perl脚本构建流程,收集序列信息,预测基因位置,并将它们存储到MySQL数据库以作后续的分析和展示。Ensembl所有的数据和代码对全世界的研究组织都是开放的,用户可以无限制地下载和使用这些数据和代码。用户可以通过Ensemblgenomebrowser(http://www.ensembl.org)上的BioMart下载数据,也可以通过API接口直接连接MySQL数据库下载数据。另外,在亚马逊云计算平台AWS上也部署了Ensembl的数据可供用户下载,详见(http://www.ensembl.org/info/data/amazon_aws.html)[4]。本研究使用了Ensembl数据库中人类基因组相关的注释信息。1.2转座元件1.2.1转座元件概述转座元件(TransposableElements,简称TEs)是基因组中能够移动的片段。尽管它们在1940年就被McClintock首次发现[13],但几乎过了半个世纪,科学-2- 上海交通大学硕士学位论文家们才开始明白转座元件是如何在基因组中转移的。现有的资料表明,将近一半的人类基因组来源于转座元件,但是这个数字很可能是被低估的[1,14]。转座元件分为两大类:DNA转座子和反转座子。DNA转座子大约占人类基因组的3%,它们能够以DNA的形式直接插入到基因组的其他地方。尽管DNA转座子现在在人类基因组中已经不能够移动了,但它们在早期的灵长类动物进化中是活跃的,直到大约3700万年前才开始不再活跃[15]。反转座子通过RNA中间物的方式来进行移动,它们先转录成RNA,再反转录成DNA插入到基因组新的位置。反转座子又可被分为两类,一类叫做LTRs,它们包含长末端重复序列,另一类不包含长末端重复序列,它们叫做non-LTR。non-LTR包括LINE(长散布核元件)和SINE(短散布核元件)。LINE和SINE下三个子类(LINE-1,Alu,SVA)是现在人类基因组中依旧活跃的元件,已有的资料表明,这三个子类与某些疾病有直接的联系[16-19]。1.2.2转座元件对宿主基因的影响McClintock和其他科学家强调了转座元件的行为会带来的潜在危害[13,16]。已有的资料表明,转座元件有能力改变基因的表型。可能也是由于这个原因,转座元件在基因区域覆盖的比例比非基因区域覆盖的比例要低,这表明转座元件插入到基因区域是受到基因进化的选择排斥的[20]。已知的导致疾病发生或改变正常基因表型的转座元件插入几乎都发生在基因内部,包括外显子区域或者影响转录的内含子区域[13,21]。生物信息学的研究表明很多基因启动子来源于转座元件[22,23]。比如,在小鼠和人类中,分别有18.1%和31.4%的转录起始位点坐落于转座元件区域,并且这些启动子很多都是组织特异的[23]。基因附近转座元件的选择性插入促使转座元件成为了基因调控因子[24]。通过多种涉及非编码RNA的途径,转座元件对基因的表达也造成了影响。转座元件与miRNA结合,生成了一种叫做RNA-induced的沉默复合体。它们能够降解信使RNA,这导致了基因表达量的减少或基因沉默[25]。已有的资料表明,人类基因组中,miRNA能够从包含Alu序列的RNApolymeraseIII启动子处表达[26]。在利什曼虫(Leishmania)中,Lm-SIDERs(non-LTR)只存在于基因的3’UTR区域,它能够通过一种未知的途径降低信使RNA的稳定性,从而减少基因的表达量[27]。转座元件还能够促进基因的antisensetranscription,尽管这种促进的机理还是未知的[22]。很难判断转座元件对宿主基因到底造成了多大的影响。很多时候转座元件会带来中性的或者轻微的影响。也有很多例子显示,转座元件会很快带来严重的影-3- 上海交通大学硕士学位论文响。比如由于LTR/ERV在体细胞的插入,小鼠的致癌基因被激活了[28]。尽管还没有报道显示转座元件的插入激活了人类的致癌基因,但一项近期的研究表明,某个古老LTR元件的插入导致了霍启金淋巴瘤中CSFIR基因表达量的异常[29]。L1元件能够提供新的剪接位点,这有助于促进基因表达和可变剪接[30,31]。基因内的L1元件能够破坏转录的进行,这会降低基因的表达量[32]。反转座元件能够提供一种叫做聚腺甘酸化的信号,这种信号会诱发基因转录的终止[33-35]。反转座元件能够提供转录因子结合位点,这些转录因子会对基因的表达造成影响[36,37]。此外,有研究表明,一种被称作hopscotch的反转座子是tb1基因的特异增强子,它压制了分支的成长,这导致了玉米在与其他古老的类蜀黍植物的竞争中占据的有利地位[38]。转座元件在DNA水平上对人类进化造成了极大的影响。很明显,转座元件调控序列的内在特性常常被宿主基因组开发利用[25]。1.2.3转座元件识别、注释工具转座元件是重复序列的一类,在基因组当中识别出重复序列后,可根据需要识别出所需的转座元件。识别转座元件主要有以下三个步骤:转座元件库的构建,转座元件的校正和分类,转座元件的注释。目前,用于转座元件的识别与注释的工具种类繁多,包括Repbase[39]、RepeatMasker[40]、RepeatFinder[41]、P-clouds[42]、TEclass[43]、CENSOR[44]等(见表1-1)。表1-1转座元件的识别、分类、注释工具Table2-1Recognition,classification,annotationoftransposableelements功能名称网址识别RepeatMaskerhttp://www.repeatmasker.orgRepbasehttp://www.girinst.org/server/RepBase/index.phpTESeekerhttp://www.nd.edu/~teseeker/RECONhttp://selab.janelia.org/recon.htmlRepeatFinderhttp://www.cbcb.umd.edu/software/RepeatFinder/RepeatScouthttp://bix.ucsd.edu/repeatscout/P-cloudshttp://www.evolutionarygenomics.com/PClouds.html分类TEclasshttp://www.compgen.uni-muenster.de/teclassREPCLASShttp://wweb.uta.edu/faculty/cedric/repclass.htm注释RepeatMaskerhttp://www.repeatmasker.orgCENSORhttp://www.girinst.org/censor/-4- 上海交通大学硕士学位论文1.3人类疾病相关基因1.3.1人类遗传病与致病基因在生物信息学领域,基因疾病数据库是对有关疾病数据的系统收集。长期以来,生物学和生物信息学领域的专家都一直尝试理解疾病发生的分子机制(molecularmechanisms),以期能够设计出有效的药物来治疗疾病或阻止疾病的发生。对某些疾病,我们已经很明显的看到仅仅知道该疾病与哪些疾病有关联是远远不够的,我们还得了解导致疾病发生的分子机制。更糟糕的是,人们对于获取疾病相关信息的需求日益旺盛,而现在的状况却是即使仅仅获取疾病相关基因的列表也是非常困难的。家族遗传的疾病是由发生在基因或者染色体上的变异而导致的。许多家族遗传的疾病从出生前就已经发生了。家族遗传疾病在社会中受到非常大的关注。加深对这些疾病的理解不但有助于延长患者的生命,还能改善患者的生活质量。最近在生物信息学领域和在基因组学领域的发展对某些特定的变异有了更细致的描述,也就是说疾病产生的机理被理解的更加深入了。这些描述有助于遗传咨询专家(geneticcounseling)对大量的遗传病发生的风险作出更好的预测[45]。家族遗传病可能是传染性疾病,也可能不是。一些家族遗传疾病来源于父母的基因,但也有一些遗传病是来自于DNA上新发生的突变。有些疾病,既可能由遗传产生,也可能由新的突变产生,比如食道癌和黑色素癌[46]。有超过6000种已知的单基因导致的疾病,大约每200人中就会发生一例单基因遗传疾病。正如描述的那样,这些疾病是由于单个基因的突变而导致的。作为比较,多基因相关疾病是由多个基因的联合影响而导致的疾病[46]。多基因相关疾病的例子有很多,比如阿耳滋海默氏病(老年痴呆病)、乳腺癌、白血病、唐氏综合征、先天性心脏缺陷以及先天性耳聋等等。所以,有一个与这些疾病相关基因的列表是非常有必要的。1.3.2致病基因数据库概况在任何基因疾病项目的不同阶段,即使经过了非常认真的数据分析之后,分子生物学家仍然需要选择哪些基因或者蛋白质来做进一步的实验验证,哪些由于条件限制需要暂且先搁置起来。通过计算的方法来整合复杂、异构的数据集,比如表达量的数据、测序数据、功能注释数据、生物医学报道等等,这有助于筛选基因以作后续的研究。这些方法能够大大提高下游研究的产量,对研究者有极大-5- 上海交通大学硕士学位论文的价值。所以,在生物学和生物医学领域,一个重要的关注点便是识别出复杂遗传疾病的潜在运行机理。在发现与疾病相关的基因方面,科学家们已经做了很大的努力[47]。但是,已有的证据显示,大部分人类疾病不能归因于单个基因的缘故,而是由于多个变异和环境因素共同复杂的作用而导致的。一些数据库已经存储了基因和疾病之间的信息,如比较毒理基因组学数据库(ComparativeToxicogenomicsDatabase,CTD)、人类孟德尔遗传疾病在线(OnlineMendelianInheritanceinMan,OMIM)、遗传病相关数据库(thegeneticAssociationDatabase,GAD)、疾病遗传数据库(DiseasegeneticAssociationDatabase,DisGeNET)。以上每个数据库都针对了基因型-表型关系的不同方面。由于数据库注释过程的限制,每个数据库都不是完整的。但在某种程度上,它们彼此之间是互相补充的。1.3.3OMIM数据库人类孟德尔遗传疾病在线OMIM(OnlineMendelianInheritanceinMan)是一个全面、权威且及时更新的有关人类基因和表型的在线数据库。OMIM最初由VictorA.McKusick博士编撰,是人类孟德尔遗传疾病的权威指南[48]。目前,它由约翰霍普金斯大学医学院负责编辑,信息来源于全世界的科学家和医生。OMIM每天都会更新,所有人都可以通过FTP或API接口免费获取OMIM上的资料。OMIM数据的存储和软件开发是由美国生物信息技术中心的医学图书馆负责的。每个OMIM条目包含了某个基因或表型的全面信息,并且会提供很多相关的链接,如DNA、蛋白质序列、PubMed参考信息、HUGO命名法、MapViewer、GeneTests、病例支持等等[48]。OMIM是一个易于使用、蓬勃发展的人类疾病信息检索工具[49]。表1-2列出了OMIM在截止于2014年12月5号的统计数据。表1-2OMIM数据库中的条目数量(截止到2014年12月5日):Table1-2QueryNumberofOMIMdatabasePrefixAutosomalX-linkedY-linkedMitochondrialTotal*Genedescription13,999688483514,770+Geneandphenotype,combined8420288#Phenotypedescription,molecularbasisknown3,9842874284,303%Phenotypedescriptionorlocus,molecularbasis1,538134501,677unknown-6- 上海交通大学硕士学位论文Other,mainlyphenotypeswithsuspectedmendelian1,734113201,849basisTotal21,3391,224596522,6871.4可变剪接1.4.1可变剪接概况真核生物的基因包含外显子和内含子。真核基因转录时,内含子被移除,外显子连接在一起成为成熟的mRNA,这一过程被称为RNA剪接(RNAsplicing)。由同一基因产生多种不同的mRNA的过程称为可变剪接(Alternativesplicing)。由相同核苷酸序列编码生成的蛋白质会有不同的生物学功能。人类基因组中编码蛋白质的基因只有20,000左右,但它们能合成出来的蛋白质远远超过这个数字[50]。在这个过程中,某个特定的外显子可能存在,也可能不存在于信使RNA中。在真核生物中,可变剪接是普遍存在的。在人类基因组中,大约95%的多外显子基因是被可变剪接的。可变剪接的方式有多种,最常见的是外显子跳跃(exonskipping)。在这种方式下,某个外显子可能被转录成为mRNA的一部分,也可能没被转录[51]。1.4.2可变剪接与疾病基因转录过程中,错误的剪接会产生错误的信使RNA。2005年的一个研究发现,超过60%的人类致病突变是由剪接造成的,而不是直接由编码序列的变异造成的[52]。更近的一个研究发现,大约三分之一的人类遗传疾病相关基因都与可变剪接有关[53]。现在已经有大量的例子表明,很多癌症的发生与剪接变异有关[54,55]。利用RNA-Seq和蛋白质组学分析技术,人们已经了解到癌症细胞中,相同核苷酸序列所产生的不同的剪接片段有着极大的表达差异[56]。癌症细胞中的可变剪接数目比正常细胞中的要少,并且剪接类型的比例也发生了变化。癌症细胞中内含子滞留(intronretention)要多于正常细胞,而外显子跳跃则要少于正常细胞[57]。研究表明,癌症细胞中可变剪接发生变异的频率显著小于正常细胞中可变剪接发生的频率。-7- 上海交通大学硕士学位论文1.5论文研究内容及结构本文的主要研究内容包括:转座元件在不同的基因注释数据库中的比较,转座元件对人类基因疾病易感性的影响,转座元件对人类基因可变剪接的影响以及可变剪接与基因疾病易感性的联系。第一章主要是背景介绍。现在有很多的公共数据库来注释人类的基因和有功能的片段,不同的基因组注释库由于注释流程的差异导致彼此之间的注释结果存在着一定的差别。本文将重点关注两个被广泛使用的基因注释数据库,RefSeq和Ensembl。转座元件是基因中能够发生转移的元件,它们会对宿主基因造成很多影响。调控基因的表达量,引起基因的变异,导致疾病的发生等等。有很多识别和注释转座元件的工具,本文采用的数据是被广泛使用的RepeatMasker工具所提供的。可变剪接广泛存在于基因当中,错误的剪接会导致疾病的发生。在第二章中,我们分析了转座元件在不同数据库的蛋白质编码区的分布情况。在Ensembl基因注释数据库中,1.3%的蛋白质编码区被转座元件所覆盖,而在RefSeq基因注释数据库中,这一比例仅仅为0.4%。尽管Ensembl只比RefSeq多了大约5%的蛋白质编码序列,但是转座元件在Ensembl蛋白质编码区所占的比例却是在RefSeq蛋白质编码区所占比例的三倍。Ensembl特有的那些蛋白质编码序列中,转座元件的比例高达15%。在第三章中,我们分析了不同基因组注释库蛋白质编码序列的表达量。含有转座元件的蛋白质编码序列比不含转座元件的蛋白质编码序列有着更低的表达量。同时,数据库特有的蛋白质编码序列比数据库特有的蛋白质编码序列有着更低的表达量。这预示着,对于还未被发现的蛋白质编码序列,它们将比现有的蛋白质编码序列含有更多的转座元件、更低的表达量。所以,这将给发现它们带来更大的挑战。在第四章中,我们分析了人类疾病相关基因和其他因素的联系。对于在OMIM数据库中存在的蛋白质编码基因,我们将其归类为致病基因。对于在Ensembl中存在但没有被收录到OMIM数据库的蛋白质编码基因,我们将其归类为非致病基因。致病基因比非致病基因含有更多的转座元件,同时也具有更低的表达量。随后,我们根据致病基因按加入到OMIM数据库的年份分组。新发现的致病基因比老发现的致病基因含有更多的转座元件,同时也含有更低的表达量。接着,我们对致病基因与基因长度做了分析。大基因比小基因含有更多的转座元件。在第五章中,我们研究了可变剪接与转座元件、可变剪接与致病基因的联系。-8- 上海交通大学硕士学位论文首先,我们分析了Ensembl基因注释数据库,得到了每个基因的转录本数目。随后我们分析了基因转录本数目与基因转座元件含量、基因疾病易感性的联系。基因的转录本数目与基因的转座元件含量呈正相关关系。随着基因转录本数目的增加,基因致病的可能性也相应增加。1.6本章总结本章首先介绍了人类基因组注释数据库的概况,不同数据库之间的注释流程是不一样的,彼此之间存在一定的差异。我们着重介绍了两个被广泛使用的数据库,RefSeq和Ensembl。接着,我们介绍了转座元件。转座元件大约占到了人类基因组的一半,它们会对宿主基因的进化和表达量造成影响,也会引起有关疾病的发生。随后,我们介绍了致病基因数据库概况和OMIM数据库。此外,我们还介绍了可变剪接的概况,可变剪接与疾病的联系。最后,我们对论文的研究内容及结构作了概述。-9- 上海交通大学硕士学位论文第二章蛋白质编码区转座元件含量的分析转座元件影响基因表型的最直接方式是插入到蛋白质编码序列。已有的资料表明,在人类基因组中,大约1%的蛋白质编码序列来源于转座元件,但这个数字很可能是被低估的[58]。在本章中,我们将对RefSeq数据库和Ensembl数据库中的蛋白质编码序列做转座元件含量的分析。2.1材料与方法2.1.1注释数据库和数据生成我们从UCSCgenomebrowser[59](http://genome.ucsc.edu/assembly:Feb.2009)下载了RefSeq基因注释库(GRCh37/hg19),又从Ensemblgenomebrowser(http://asia.ensembl.org/index.html)下载了Ensembl基因注释库(release73ofGRCh37,对应于GENCODE18)。利用Perl脚本[60],我们分别从两个数据库中提取出蛋白质编码序列条目。接着我们对数据去重,相同的蛋白质编码序列将只保留一条,假如存在可变剪接的话,最长的那段蛋白质编码序列将被保留。为了更深入地进行这个研究,我们以RefSeq和Ensembl为基础又生成了三组新的注释数据库。RefSeq-specific注释数据库包含了所有在RefSeq数据库中出现但不存在于Ensembl数据库中的蛋白质编码序列。Ensembl-specific注释数据库包含了所有只存在于Ensembl数据库中的蛋白质编码序列。RefEns注释库包含了所有既存在于RefSeq中又存在于Ensembl中的蛋白质编码序列。所有的数据处理和数据生成工作都是由Perl和Python脚本完成的。在Ensembl数据库中,存在236,006个蛋白质编码序列,占到的基因组长度是35.11Megabases。其它各个注释库中蛋白质编码序列的信息列在表2.1中。我们从RepeatMasker官网下载了重复序列的数据(http://www.repeatmasker.org/species/homSap.html,hg19-Feb2009-RepeatMaskeropen-4.0.5-RepeatLibrary20140131)。随后,转座元件和一些简单重复序列被提取出来做后续处理。我们对数据做去重,重叠区域的转座元件我们只保留一份。所有用到的脚本都保存在https://github.com/danfengcao/GeneInfo。-10- 上海交通大学硕士学位论文表2-1不同注释数据库中的转座元件和简单重复序列Table2-1TransposableelementsandsimplerepeatsindifferentdatabasesRefEnsRefSeqEnsemblRef-specificEns-specificCDSnumber214,257196,659236,0062,16124,347CDSsize(Mb)33.0033.4135.110.402.10DNA18118867411482LTR2722911,03129720LINE7367613,307321,357SINE6607172,140702,582TEs1,8491,9577,1521425,141Low_complexity3,0773,0593,41845349Simple_repeat2,3232,3112,53332213SSRs5,4005,3705,95177562不同的蛋白质编码序列注释数据中的转座元件和简单重复序列。表中列出了四类转座元件和两类简单重复序列。“RefEns”列表示所有既存在于RefSeq又存在于Ensembl中的蛋白质编码序列的结果。“RefSeq”列和“Ensembl”列分别表示RefSeq数据库和Ensembl数据库中的蛋白质编码序列的结果。“Ref-specific”列和“Ens-specific”列分别表示数据库特有的蛋白质编码序列的结果。2.1.2计算转座元件所占的比例首先,我们用Python脚本将原始的转座元件注释数据库和蛋白质编码注释数据库分别转化成BED格式的文件。BED格式是一种简单灵活的格式,用于展示各类注释信息。BED文件每行的前三列是固定格式,分别表示染色体(该注释条目来自几号染色体,或者来自scaffold,如chr3、chrY、chr2_random、scaffold10671),起始位点(该注释条目起始于从哪个碱基),终止位点(该注释条目终止于从哪个碱基)。接着,我们用Python脚本得到蛋白质编码区域和转座元件区域的重叠部分,最小重叠单位是1个碱基对。转座元件占蛋白质编码序列的比例由下列公式计算得到:转座元件和蛋白质编码序列的重叠区域的长度(碱基对)百分比=×100(1)蛋白质编码序列的总长(碱基对)2.2结果与讨论为了分析转座元件和蛋白质编码序列的联系,我们分别分析了转座元件在不同数据库中的情况。有意思的是,尽管Ensembl数据库只比RefSeq数据库多了大约5%(约160万个碱基对)的蛋白质编码序列,但是转座元件在Ensembl蛋白质-11- 上海交通大学硕士学位论文编码序列中的比例却比在RefSeq蛋白质编码序列中的比例高了将近两倍(卡方检验,P值<2.2e-16)(图2.1A,表2.1)。为了进一步分析这一现象,我们提取出了Ensembl-specific蛋白质编码区、RefSeq-specific蛋白质编码区和RefEns共有蛋白质编码区。我们又分别计算了这些区域中转座元件的含量。其中,转座元件在Ensembl-specific蛋白质编码区所占的比例非常高,达到15.25%。转座元件在这些不同的蛋白质编码区域所占的比例有明显的增长趋势,而同为重复序列的简单重复序列却没有这一增长趋势(图2.1B)。以此我们推断,在未来新发现的蛋白质编码序列中,转座元件所占的比例将会比现在的比例更高,而简单重复序列所占的比例将不会比现在有明显的变化。另外,除了RefSeq-specific注释数据库,其他的注释数据库中不同转座元件在蛋白质编码区域中所占的比例都保持着SINE>LINE>LTR>DNA这一趋势(图2.1A)。尽管Ensembl使用了RefSeq的部分信息并且比RefSeq包含了更多的基因、转录物和蛋白质编码序列,但仍旧有2013个(约0.36Megabases碱基对)来自RefSeq的蛋白质编码序列条目没有被Ensembl注释成蛋白质编码序列。接着,我们对各个注释数据库所对应到Ensembl数据库的biotype做分析。Ensembl-specific蛋白质编码序列主要有三类biotype[61],大部分(24,337中的18,353)都是protein-coding区域,其他的被标注为nonsensemediateddecay和nonstopdecaytranscripts(表2.2)。很显然,Ensembl-specific蛋白质编码序列比RefSeq蛋白质编码序列含有更多的转座元件。有2013个RefSeq-specific蛋白质编码序列被Ensembl注释为非编码序列,包括processedtranscripts、pseudogenes、longnon-codingRNAs(表2.3)。它们各自所包含的转座元件都比RefSeq要高。以上数据都表明,转座元件含量的增加并不是由于某一类的biotype所占比例的增长所造成的,而是由于所有的biotype中转座元件含量的增长所造成的。-12- 上海交通大学硕士学位论文图2-1不同的基因组注释数据库中蛋白质编码区域中的转座元件分布情况。(A)不同蛋白质编码序列数据库中的转座元件。四类转座元件所占的比例被列在各个不同的数据库。(B)不同蛋白质编码序列数据库中的简单重复序列。“RefEns”表示既存在于又存在于RefSeq数据库和Ensembl数据库的蛋白质编码序列。“RefSeq”列和“Ensembl”列分别表示RefSeq数据库和Ensembl数据库中的蛋白质编码序列的结果。“Ref-specific”列和“Ens-specific”列分别表示数据库特有的蛋白质编码序列的结果(具体的数据呈现在表2-1,附表1)。表2-2Ensembl数据库特有的含有转座元件的蛋白质编码序列的biotypeEns-CDSEns-specific-CDSBiotypenumberTE%BiotypenumberTE%Proteincoding227,2901.08Proteincoding18,35313.17Nonsensemediated38,8562.4Nonsensemediateddecay5,94325.81decayNonstopdecay3570.53Nonstopdecay413.61-13- 上海交通大学硕士学位论文列表的左侧是Ensembl蛋白质编码序列数据库中转座元件的含量。各个不同biotype的蛋白质编码序列被分别展示。列表的右侧是Ensembl特有的蛋白质编码序列数据库中转座元件的含量,其中各个biotype的蛋白质编码序列的转座元件含量比左侧对应的背景数据都要高。表2-3RefSeq数据库特有的含有转座元件的蛋白质编码序列的biotypeRef-specific-CDSbiotypenumberTE%Proteincoding4625.45Processedtranscript7592.49pseudogene4460.17Polymorphicpseudogene2930.99lincrna7010.73antisense5614.61others90.00all2,0132.53RefSeq特有的蛋白质编码序列在Ensembl数据库中被注释成各种类型的非编码序列,包括processedtranscripts,pseudogenes,longnon-codingRNAs等。各个类型的个数和转座元件的含量列在表中。2.3本章总结在本章中,我们系统分析了不同蛋白质编码注释库中重复序列(特别是转座元件)的情况。转座元件在Ensembl蛋白质编码序列数据库中和在RefSeq蛋白质编码序列数据库中所占的比例有明显的不同。单个数据库特有的蛋白质编码序列比共有的蛋白质编码序列含有更多的转座元件。Ensembl-specific蛋白质编码区域中转座元件的比例高达15.25%。同时,简单重复序列所占的比例在几个数据库之间并没有显著差别。-14- 上海交通大学硕士学位论文第三章不同基因组注释数据库蛋白质编码序列的表达量分析如前章所述,不同的基因组注释库中,蛋白质编码序列所含的转座元件比例有很大的不同。根据已有的资料,转座元件会对基因的表达量产生影响。在本章中,我们对不同的基因组注释库中的蛋白质编码序列做了表达量分析。3.1材料与方法3.1.1RNA-seq数据集我们从UCSCgenomebrowser上(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeRegTxn/)下载了9组细胞系RNA-seq数据集(如表3-1所示),RNA-seq数据集文件格式是BigWig。BigWig格式文件是一种二进制格式的文件,用来存储密集的、连续的数据,如RNA-seq的数据。与另外一种常用来存储RNA-seq数据的文件格式wiggle相比,BigWig文件的主要优势在于它只需要保存需要展示的数据,所以它的体积更小,更适合存储大块的数据。GenomeBrowser普遍使用bigWig格式文件来展示图形化的页面。表3-1九组RNA-seq数据集原始文件对应的wig文件wgEncodeRegTxnCaltechRnaSeqGm12878R2x75Il200SigPooled.bigWigGm12878.wigwgEncodeRegTxnCaltechRnaSeqH1hescR2x75Il200SigPooled.bigWigH1hesc.wigwgEncodeRegTxnCaltechRnaSeqHelas3R2x75Il200SigPooled.bigWigHelas3.wigwgEncodeRegTxnCaltechRnaSeqHepg2R2x75Il200SigPooled.bigWigHepg2.wigwgEncodeRegTxnCaltechRnaSeqHsmmR2x75Il200SigPooled.bigWigHsmm.wigwgEncodeRegTxnCaltechRnaSeqHuvecR2x75Il200SigPooled.bigWigHuvec.wigwgEncodeRegTxnCaltechRnaSeqK562R2x75Il200SigPooled.bigWigK562.wigwgEncodeRegTxnCaltechRnaSeqNhekR2x75Il200SigPooled.bigWigNhek.wigwgEncodeRegTxnCaltechRnaSeqNhlfR2x75Il200SigPooled.bigWigNhlf.wig3.1.2表达量分析的流程首先,我们从UCSCgenomebrowser(hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigToWig)上下载了BigWigToWig程序。使用BigWigToWig,我们将bigWig格式的文件转换成wig-15- 上海交通大学硕士学位论文格式的文本文件。随后,我们使用Perl脚本统计出基因组序列上每个碱基被RNA-seq数据比到的次数。我们对RNA-seq的reads数做一次归一化,对每个蛋白质编码序列做一次归一化。图3.1AB中的每个箱图分别表示了RefSeq注释数据库和Ensembl注释数据库中蛋白质编码序列的表达量的分布,图3.1CD则分别是RefSeq数据库和Ensembl数据库中蛋白质编码序列的表达量分布密度曲线。图3-1不同的注释数据库中蛋白质编码序列的表达量分析。(A)RefSeq注释数据库中蛋白质编码序列的表达量分布。(B)Ensembl数据库中蛋白质编码序列的表达量分布。(C)RefSeq数据库中蛋白质编码序列的表达量分布密度曲线。(D)Ensembl数据库中蛋白质编码序列的表达量分布密度曲线。-16- 上海交通大学硕士学位论文3.2结果与讨论3.2.1蛋白质编码序列的表达量分析我们使用了9组细胞系RNA-seq数据,对不同的基因组蛋白质编码序列做表达量的分析。RefSeq特有的蛋白质编码序列比普通的RefSeq蛋白质编码序列有着更低的表达量(图3.1A,图3.1C,t-test,P-value=9.120807e-281)。同样的,Ensembl特有的蛋白质编码序列比普通的Ensembl蛋白质编码序列有着更低的表达量(图3.1B,图3.1D,t-test,P-value<9e10-16)。对于含有转座元件的蛋白质序列,RefSeq-specific(Ensembl-specific)也比RefSeq(Ensembl)有着更低的表达量(图3.1ABCD)。和预期相符,转座元件使蛋白质编码序列的表达量降低了。这些现象预示着以后新发现的蛋白质编码序列将会含有更多的转座元件,有着更低的表达量。这两者都使那些未被发现的蛋白质编码序列更加难以寻找。3.3本章总结在前一章中,我们已经发现,不同的数据库之间蛋白质编码序列的转座元件含量有着极大的不同。根据已有资料,转座元件会对基因的表达量造成影响。在本章中,我们首先分析了不同注释数据库的蛋白质编码序列在9个细胞系中的表达量,随后我们分析了含有转座元件时的情况。与预期相符的是,含有转座元件的蛋白质编码序列比不含转座元件的蛋白质编码序列含有更低的表达量。数据库特有的蛋白质编码序列比非特有的蛋白质编码序列有更低的表达量。我们认为,低表达量这一因素影响了不同数据库之间对蛋白质编码的正确识别。-17- 上海交通大学硕士学位论文第四章疾病相关基因的研究如第一章中所述,尽管有些机理还没有完全弄清,但人们已经发现转座元件与致病基因之间存在一定的联系。在本章中,我们将对OMIM数据库中的疾病相关基因的转座元件含量进行分析。OMIM数据库由NCBI提供支持,收录了人类所有已知疾病的基因相关信息,并对疾病与相关基因的联系做了预测。OMIM提供了所有收录信息的参考文献,它还提供了很多工具来对基因组信息做分析。OMIM是一个全面的、权威的关于人类疾病与基因联系的数据库,它每天都会更新,对所有人免费开放。4.1研究方法和材料4.1.1疾病相关基因数据首先,我们从OMIM的FTP站点(http://omim.org/downloads/)下载了疾病相关基因的数据。随后,我们按基因被加入到OMIM数据库的年份对Ensembl的各个基因新添一项注释。如果该基因被OMIM数据库收录,则添加该基因被收录的年份。如果该基因没有被OMIM数据库收录,则添加‘-’符号。处理数据的脚本存放在:https://github.com/danfengcao/GeneInfo。4.1.2疾病相关基因的分类我们的研究对象是蛋白质编码基因。根据基因是否存在于OMIM数据库中,我们将蛋白质编码基因分为两类,致病基因和非致病基因。按致病基因加入到OMIM数据库的年份,我们对致病基因做了分类。此外,我们对致病基因按基因长度做了分类。对于所有致病基因而言,基因长度的第一分位数为10,370个碱基对,第三分位数为78,970个碱基对。我们将致病基因分为三类,第一类p1:基因长度小于10k个碱基对,第二类p2:基因长度大于79k个碱基对,第三类p3:基因长度介于10k和79k之间。4.1.3疾病相关基因中转座元件含量的分析我们根据致病基因加入到OMIM数据库中的年份对致病基因进行分组。我们对每年新加入的基因分别计算其中转座元件的比例。随后,我们对这些数据做线-18- 上海交通大学硕士学位论文性拟合。线性拟合的模型如下式所示:𝑌𝑖=𝛽0+𝛽1𝑋𝑖+𝜖其中𝑌𝑖代表每年新增基因中转座元件(重复序列)的比例,𝑋𝑖表示基因被增加到OMIM数据库的年份。我们使用R[62]软件来对数据做拟合,用的函数是lm(默认参数)。4.2结果和讨论4.2.1致病基因比非致病基因含有更多的转座元件我们关注的中心在蛋白质编码基因。我们将在OMIM中出现蛋白质编码基因归类为致病基因,在Ensembl中出现但不在OMIM中出现的蛋白质编码基因归类为非致病基因。我们分别统计了致病基因和非致病基因中转座元件的含量。致病基因中的转座元件含量比非致病基因中转座元件的含量要高(图4-1,Kruskal-Wallischi-squared=86.6388,df=1,p-value<2.2e-16)。图4-1致病基因与非致病基因中的转座元件含量的分布。绿色的箱图表示非致病基因中转座元件含量的分布图。红色的箱图表示致病基因中转座元件含量的分布图。致病基因中转座元件的含量比非致病基因中转座元件的含量要高。-19- 上海交通大学硕士学位论文4.2.2新发现的致病基因中含有更多的转座元件随着人们发现更多的基因和更多的疾病相关基因,每年都有大量的信息被新加入OMIM数据库。OMIM每年都会加入250-1000个疾病相关的基因,基因总大小在14Megabases碱基对到85Megabases碱基对之间。我们从OMIM数据库获取了从1996年到2013年每年新增加的基因的信息。随后我们分析了这些基因中转座元件和重复序列的分布情况。每年新增加的疾病相关基因中,转座元件的比例(绿色的点)有着明显的上升趋势(图4-2A)。我们对数据做线性拟合,梯2度=0.2631,R=0.6782。同时,在疾病相关基因的蛋白质编码区域中,转座元件的含量也有上身趋势,但是增长趋势没有整个基因那么明显(图4-2B,梯度=0.0372,2R=0.2994)。图4-2每年新增加的疾病相关基因中的重复序列和转座元件。(A)每年新增加的致病基因中重复序列与转座元件。(B)每年新增加的致病基因中蛋白质编码区的重复序列和专座元件。绿色的点表示重复序列所占的比例。蓝色的点表示转座元件所占的比例。浅色的直线是对重复序列的信息的拟合,深色的直线是对转座元件的信息的拟合。4.2.3新发现的致病有着更低的表达量我们从OMIM数据库获取了从1996年到2013年每年新增加的基因的信息。随后我们分析了这些基因表达量的分布情况。每年新增加的疾病相关基因中,表-20- 上海交通大学硕士学位论文达量有着明显的下降趋势(图4-3,Spearman'srankcorrelationrho,p-value<2.2e-16)。图4-3每年新增加的疾病相关基因的表达量分布。每个箱图表示该年新增加的致病基因表达量的分布,新增加的致病基因的表达量比老发现的致病基因的表达量低。4.2.4疾病相关基因的基因长度与转座元件的联系首先,我们分析了基因长度对基因疾病易感性的影响。致病基因的长度比非致病基因的长度更大(图4.4A所示,Kruskal-Wallischi-squared=619.6797,df=1,p-value<2.2e-16)。这反映了大基因比小基因更容易导致疾病的发生。同样的,含有更多蛋白质编码序列的基因比含有更有较少的蛋白质编码序列的基因更容易导致疾病的发生(图4.4B所示,Kruskal-Wallischi-squared=901.7828,df=1,p-value<2.2e-16)。-21- 上海交通大学硕士学位论文图4-4基因疾病易感性与基因长度、蛋白质编码序列长度的关系。(A)基因疾病易感性与基因长度的联系。绿色的箱图表示非致病基因的基因长度的分布,红色的箱图表示致病基因的基因长度的分布。(B)基因疾病易感性与蛋白质编码序列长度的联系。绿色的箱图表示非致病基因的蛋白质编码序列的长度分布,红色的箱图表示致病基因的蛋白质编码序列的长度分布。随后,我们根据基因长度,对每年新增加的致病基因分成三类,p1:基因长度小于10k碱基对,p2:基因长度大于79k碱基对,p3:基因长度介于10k到79k之间。图4.5A展示了每年新增加的基因数目(包含转座元件和不包含转座元件)。在p1中,大约一半的基因没有含有转座元件,但是绝大部分p2和p3中的基因都含有转座元件(图4.5A)。去除不含转座元件的基因后,图4.5B-D展示了各个类的含有转座元件的基因中转座元件所占的百分比。各个类中转座元件的含量是有极大差别的。P1类基因中含有的转座元件最少,占到大约20%,其中1,393个中的188个是单个蛋白质编码序列的基因(图4.5B)。P2类基因中转座元件的比例高于40%,p3类基因中转座元件的比例略低于40%(图4.5C-D)。-22- 上海交通大学硕士学位论文图4-5不同疾病相关基因注释集中的转座元件。OMIM数据库中的致病基因按长度被分为三类。致病基因长度的四分之一位点为10kbps,四分之三位点为79kbps。长度小于10kbps的基因被分到p1组,长度在10kbps到79kbps之间的属于p2组,大于79kbps的是p3组。(A)各个数据集的基因数目。P1:<10kbps表示基因长度小于10k碱基对的致病基因;TE-contain:<10kbp表示基因长度小于10k碱基对并且有转座元件插入的致病基因。根据基因长度划分的基因组的转座元件含量分布分别呈现在(B)TE-contain:<10kp,(C)TE-contain:10-79kb,(D)TE-contain:>79kb.4.3本章总结在本章中,我们探究了致病基因与转座元件之间的联系。致病基因比非致病基因含有更多的转座元件,新发现的致病基因比老发现的致病基因中含有更多的转座元件。疾病易感性与基因的长度也存在正相关性,大基因比小基因更容易致病,含有更多蛋白质编码区域的基因也比蛋白质编码区域少的基因更容易导致疾病的发生。我们对疾病相关基因按基因长度分为三类。有近一半的小基因不含有转座元件,而大部分的中基因和大基因都含有转座元件。在去除不含转座元件的基因后,小基因中转座元件的比例显著低于其他基因中转座元件的比例。-23- 上海交通大学硕士学位论文第五章可变剪接的研究如第一种章所述,可变剪接、转座元件、致病基因之间存在一定的联系。基因转录过程中,错误的剪接会产生错误的信使RNA。超过60%的人类致病突变是由剪接造成的,而不是直接由编码序列的变异造成的[52]。更近的一个研究发现,大约三分之一的人类遗传疾病相关基因都与可变剪接有关[53]。在本章中,我们将对可变剪接与转座元件,可变剪接与致病基因分别做分析。5.1研究方法和材料5.1.1数据来源与生成首先,我们从ensembl数据库下载了人类基因组注释信息(http://asia.ensembl.org/index.html,release73ofGRCh37,对应于GENCODE18)。通过Python脚本,我们生成了每个基因所含的转录本的数目。我们从OMIM的FTP站点(http://omim.org/downloads/)下载了疾病相关基因的数据。我们将关注中心放在蛋白质编码基因,对于在OMIM中存在的蛋白质编码基因,我们将其标注为致病基因。对于在Ensembl中存在而OMIM中不存在的基因,我们将其标注为非致病基因。以上工作所有的脚本都存放在https://github.com/danfengcao/GeneInfo。5.1.2数据分析我们根据每个基因所含的转录本条数对基因进行分组。随后,我们统计了每个组中转座元件的含量(见图5.1)。此外,我们统计了每个组中致病基因所占的比例(见图5.2)。随后,我们对这些数据做线性拟合。线性拟合的模型如下式所示:𝑌𝑖=𝛽0+𝛽1𝑋𝑖+𝜖其中𝑌𝑖代表每个基因族中致病基因所占的比例,𝑋𝑖表示该族基因拥有多少个转录本。我们使用R[62]软件来对数据做拟合,用的函数是lm(默认参数)。5.2结果和讨论5.2.1可变剪接与转座元件的联系我们根据每个基因所含的转录本数目对所有基因进行了分组。随后,我们分-24- 上海交通大学硕士学位论文析了每个组中基因的转座元件含量的分布(见图5.1)。图5.1中的每个箱图表示转座元件在该组基因内所占比例的分布情况。随着基因的转录本数量增加,转座元件的含量也相应增加(Spearman'srankcorrelationrho,p-value<2.2e-16)。图5-1基因转录本数目与转座元件的联系。每个箱图表示拥有某个转录本数目的基因中转座元件含量的分布。随着转录本数目的增加,转座元件的含量也随之增加。5.2.2可变剪接与基因疾病易感性的联系我们根据每个基因所含的转录本数目对所有基因进行了分组。随后,我们统计了每个组中致病基因数目占到该组基因数目的百分比(见图5.2,Spearman'srankcorrelationrho,p-value<2.2e-16,rho=0.1914175)。随着基因转录本数目的增加,致病基因所占的比例也随之增加(线性拟合,Coefficients=0.46658)。这说明基因的转录本数目与基因的疾病易感性之间存在正相关关系。-25- 上海交通大学硕士学位论文图5-2.基因转录本数目与基因疾病易感性的联系。每个绿色的点表示拥有某个转录本数目的基因族中,致病基因所占的比例。随着转录本数目的增加,致病基因所占的比例也随之增加。5.3本章总结在本章中,我们探究了可变剪接与转座元件、可变剪接与致病基因的联系。蛋白质编码基因的可变剪接数目越多,转座元件的含量相应也越高。随着基因转录本数目的增加,基因致病的风险也相应增加。-26- 上海交通大学硕士学位论文第六章结论与展望6.1主要结论本文主要研究了转座元件在不同的基因注释数据库中的分布情况,转座元件、人类基因致病易感性、可变剪接之间的联系。我们将研究中心放在蛋白质编码基因。尽管Ensembl仅仅比RefSeq多了约5%(约160万个碱基对)的蛋白质编码序列,但转座元件在Ensembl蛋白质编码区所占的比例却是在RefSeq蛋白质编码区所占比例的三倍(卡方检验,P值<2.2e-16)(图2.1A,表2.1)。在Ensembl基因注释数据库中,1.3%的蛋白质编码区被转座元件所覆盖,在RefSeq基因注释数据库中,这一比例仅仅为0.4%,Ensembl特有的那些蛋白质编码序列中,转座元件的比例高达15%。转座元件在这些不同的蛋白质编码区域所占的比例有明显的增长趋势,而同为重复序列的简单重复序列却没有这一增长趋势(图2.1B)。以此我们推断,在未来新发现的蛋白质编码序列中,所占的比例将会升高的是转座元件而不是简单重复序列。尽管Ensembl使用了RefSeq的部分证据并且比RefSeq包含了更多的基因、转录物和蛋白质编码序列,但仍旧有2013个(约0.36M碱基对)来自RefSeq的蛋白质编码条目没有被Ensembl注释成蛋白质编码序列。我们对各个注释库所对应到完整Ensembl数据库的biotype做分析。Ensembl-specific蛋白质编码序列主要有三类biotype[61],大部分(24,337中的18,353)都是protein-coding区域,其他的被标注为nonsensemediateddecay和nonstopdecaytranscripts(表2.2)。很显然,Ensembl-specific蛋白质编码序列比RefSeq蛋白质编码序列含有更多的转座元件。有2013个RefSeq-specific蛋白质编码序列被Ensembl注释为非编码序列,包括processedtranscripts、pseudogenes、longnon-codingRNAs(表2.3)。它们各自所包含的转座元件都比RefSeq要高。以上数据都表明,转座元件含量的增加并不是由于某一类的biotype含量的增长所造成的,而是由所有的biotype的含量增长所造成的。我们分析了不同基因组注释库蛋白质编码序列的表达量。含有转座元件的-27- 上海交通大学硕士学位论文蛋白质编码序列比不含转座元件的蛋白质编码序列有着更低的表达量。同时,数据库特有的蛋白质编码序列比数据库特有的蛋白质编码序列有着更低的表达量。对于还未被发现的蛋白质编码序列,它们将比现有的蛋白质编码序列含有更多的转座元件、更低的表达量。所以,这将给发现它们带来更大的挑战。随后,我们分析了致病基因和其他因素的联系。对于在OMIM数据库中存在的蛋白质编码基因,我们将其归类为致病基因。对于在Ensembl中存在但没有被收录到OMIM数据库的蛋白质编码基因,我们将其归类为非致病基因。致病基因比非致病基因含有更多的转座元件,同时也具有更低的表达量。随后,我们根据致病基因按加入到OMIM数据库的年份分组。新发现的致病基因比老发现的致病基因含有更多的转座元件,同时也含有更低的表达量。接着,我们对致病基因与基因长度做了分析。大基因比小基因含有更多的转座元件。最后,我们研究了可变剪接与转座元件、可变剪接与致病基因的联系。首先,我们由Ensembl基因注释数据库得到了每个基因转录本数目。随后我们根据转录本数目对基因进行分组。基因的转录本数目与转座元件的含量呈正相关关系。随着基因转录本数目的增加,基因致病的可能性也相应增加。6.2未来展望对于研究展望,我们将致力于以下几个方面:(1)转座元件子类的分析本文的研究内容只针对转座元件class层面,并没有对转座元件的famliy及更细分的subfamily做分析。在之后的研究中,我们将对转座元件做更细致的分析。比如,LINE类下的L1,SINE类下的Alu,LTR类下的SVA都是活跃着的转座元件。它们对基因的影响会比其他的转座元件要大的多。在下一步研究中,我们将重点就这三类活跃的转座元件做更细致的分析。(2)新发现的蛋白质编码序列中转座元件的分析本文对RefSeq和Ensembl的基因注释数据库做了研究,并且对未发现的蛋白质编码序列做了预测,它们将会有更高的转座元件含量、更低的表达量。本实验室已经发布了一套新发现的蛋白质编码序列的数据,这些蛋白质编码序列不存在于Ensembl和RefSeq,它们是预测出来的数据。我们之后将分析这些预测出来的蛋白质编码序列的转座元件含量和它们的表达量。(3)转座元件与基因年龄的联系-28- 上海交通大学硕士学位论文基因年龄是最近几年新兴的研究热点,已经有文章对所有基因的年龄做了预测分类,但是基因年龄与转座元件、人类疾病、可变剪接之间联系的工作并没有完全理解透彻。接下去,我们将针对上述的这些因素做深入的挖掘。-29- 上海交通大学硕士学位论文参考文献1.LanderES,LintonLM,BirrenB,NusbaumC,ZodyMC,etal.(2001)Initialsequencingandanalysisofthehumangenome.Nature409:860-921.2.(2004)Finishingtheeuchromaticsequenceofthehumangenome.Nature431:931-945.3.SteinL(2001)Genomeannotation:fromsequencetobiology.NatRevGenet2:493-503.4.FlicekP,AhmedI,AmodeMR,BarrellD,BealK,etal.(2013)Ensembl2013.NucleicAcidsRes41:D48-55.5.EwingB,GreenP(2000)Analysisofexpressedsequencetagsindicates35,000humangenes.NatGenet25:232-234.6.LiangF,HoltI,PerteaG,KaramychevaS,SalzbergSL,etal.(2000)Geneindexanalysisofthehumangenomeestimatesapproximately120,000genes.NatGenet25:239-240.7.EichlerEE,ClarkRA,SheX(2004)Anassessmentofthesequencegaps:unfinishedbusinessinafinishedhumangenome.NatRevGenet5:345-354.8.SteinLD(2004)Humangenome:endofthebeginning.Nature431:915-916.9.PruittKD,TatusovaT,BrownGR,MaglottDR(2012)NCBIReferenceSequences(RefSeq):currentstatus,newfeaturesandgenomeannotationpolicy.NucleicAcidsRes40:D130-135.10.HarrowJ,FrankishA,GonzalezJM,TapanariE,DiekhansM,etal.(2012)GENCODE:thereferencehumangenomeannotationforTheENCODEProject.GenomeRes22:1760-1774.11.Thierry-MiegD,Thierry-MiegJ(2006)AceView:acomprehensivecDNA-supportedgeneandtranscriptsannotation.GenomeBiol7Suppl1:S1211-14.12.ChenG,WangC,ShiL,QuX,ChenJ,etal.(2013)Incorporatingthehumangeneannotationsindifferentdatabasessignificantlyimprovedtranscriptomicand-30- 上海交通大学硕士学位论文geneticanalyses.RNA19:479-489.13.McClintockB(1956)Controllingelementsandthegene.ColdSpringHarbSympQuantBiol21:197-216.14.SmitAF(1999)Interspersedrepeatsandothermementosoftransposableelementsinmammaliangenomes.CurrOpinGenetDev9:657-663.15.PaceJK,2nd,FeschotteC(2007)TheevolutionaryhistoryofhumanDNAtransposons:evidenceforintenseactivityintheprimatelineage.GenomeRes17:422-432.16.KazazianHH,Jr.,WongC,YoussoufianH,ScottAF,PhillipsDG,etal.(1988)HaemophiliaAresultingfromdenovoinsertionofL1sequencesrepresentsanovelmechanismformutationinman.Nature332:164-166.17.DeiningerPL,BatzerMA(1999)Alurepeatsandhumandisease.MolGenetMetab67:183-193.18.ChenJM,StensonPD,CooperDN,FerecC(2005)AsystematicanalysisofLINE-1endonuclease-dependentretrotranspositionaleventscausinghumangeneticdisease.HumGenet117:411-427.19.CallinanPA,BatzerMA(2006)Retrotransposableelementsandhumandisease.GenomeDyn1:104-115.20.MedstrandP,LandryJR,MagerDL(2001)LongterminalrepeatsareusedasalternativepromotersfortheendothelinBreceptorandapolipoproteinC-Igenesinhumans.JBiolChem276:1896-1903.21.MaksakovaIA,RomanishMT,GagnierL,DunnCA,vandeLagemaatLN,etal.(2006)Retroviralelementsandtheirhosts:insertionalmutagenesisinthemousegermline.PLoSGenet2:e2.22.ConleyAB,PiriyapongsaJ,JordanIK(2008)Retroviralpromotersinthehumangenome.Bioinformatics24:1563-1567.23.FaulknerGJ,KimuraY,DaubCO,WaniS,PlessyC,etal.(2009)Theregulatedretrotransposontranscriptomeofmammaliancells.NatGenet41:563-571.24.FranchiniLF,Lopez-LealR,NasifS,BeatiP,GelmanDM,etal.(2011)Convergentevolutionoftwomammalianneuronalenhancersbysequential-31- 上海交通大学硕士学位论文exaptationofunrelatedretroposons.ProcNatlAcadSciUSA108:15270-15275.25.RebolloR,RomanishMT,MagerDL(2012)Transposableelements:anabundantandnaturalsourceofregulatorysequencesforhostgenes.AnnuRevGenet46:21-42.26.BorchertGM,LanierW,DavidsonBL(2006)RNApolymeraseIIItranscribeshumanmicroRNAs.NatStructMolBiol13:1097-1101.27.BringaudF,MullerM,CerqueiraGC,SmithM,RochetteA,etal.(2007)Membersofalargeretroposonfamilyaredeterminantsofpost-transcriptionalgeneexpressioninLeishmania.PLoSPathog3:1291-1307.28.KungHJ,BoerkoelC,CarterTH(1991)Retroviralmutagenesisofcellularoncogenes:areviewwithinsightsintothemechanismsofinsertionalactivation.CurrTopMicrobiolImmunol171:1-25.29.LamprechtB,WalterK,KreherS,KumarR,HummelM,etal.(2010)DerepressionofanendogenouslongterminalrepeatactivatestheCSF1Rproto-oncogeneinhumanlymphoma.NatMed16:571-579,571pfollowing579.30.BelancioVP,HedgesDJ,DeiningerP(2006)LINE-1RNAsplicingandinfluencesonmammaliangeneexpression.NucleicAcidsRes34:1512-1521.31.BelancioVP,Roy-EngelAM,DeiningerP(2008)TheimpactofmultiplesplicesitesinhumanL1elements.Gene411:38-45.32.HanJS,SzakST,BoekeJD(2004)TranscriptionaldisruptionbytheL1retrotransposonandimplicationsformammaliantranscriptomes.Nature429:268-274.33.Perepelitsa-BelancioV,DeiningerP(2003)RNAtruncationbyprematurepolyadenylationattenuateshumanmobileelementactivity.NatGenet35:363-366.34.ChenC,AraT,GautheretD(2009)UsingAluelementsaspolyadenylationsites:Acaseofretroposonexaptation.MolBiolEvol26:327-334.35.LeeJY,JiZ,TianB(2008)PhylogeneticanalysisofmRNApolyadenylationsitesrevealsaroleoftransposableelementsinevolutionofthe3'-endofgenes.-32- 上海交通大学硕士学位论文NucleicAcidsRes36:5581-5590.36.ShankarR,GroverD,BrahmachariSK,MukerjiM(2004)EvolutionanddistributionofRNApolymeraseIIregulatorysitesfromRNApolymeraseIIIdependantmobileAluelements.BMCEvolBiol4:37.37.PolakP,DomanyE(2006)Aluelementscontainmanybindingsitesfortranscriptionfactorsandmayplayaroleinregulationofdevelopmentalprocesses.BMCGenomics7:133.38.StuderA,ZhaoQ,Ross-IbarraJ,DoebleyJ(2011)Identificationofafunctionaltransposoninsertioninthemaizedomesticationgenetb1.NatGenet43:1160-1163.39.JurkaJ,KapitonovVV,PavlicekA,KlonowskiP,KohanyO,etal.(2005)RepbaseUpdate,adatabaseofeukaryoticrepetitiveelements.CytogenetGenomeRes110:462-467.40.SmitA,Hubley,R&Green,P(2010)RepeatMaskerOpen-3.0.41.VolfovskyN,HaasBJ,SalzbergSL(2001)AclusteringmethodforrepeatanalysisinDNAsequences.GenomeBiol2:RESEARCH0027.42.GuW,CastoeTA,HedgesDJ,BatzerMA,PollockDD(2008)Identificationofrepeatstructureinlargegenomesusingrepeatprobabilityclouds.AnalBiochem380:77-83.43.AbrusanG,GrundmannN,DeMesterL,MakalowskiW(2009)TEclass--atoolforautomatedclassificationofunknowneukaryotictransposableelements.Bioinformatics25:1329-1330.44.JurkaJ,KlonowskiP,DagmanV,PeltonP(1996)CENSOR--aprogramforidentificationandeliminationofrepetitiveelementsfromDNAsequences.ComputChem20:119-121.45.BotsteinD,RischN(2003)Discoveringgenotypesunderlyinghumanphenotypes:pastsuccessesformendeliandisease,futureapproachesforcomplexdisease.NatGenet33Suppl:228-237.46.DavisAP,KingBL,MockusS,MurphyCG,Saraceni-RichardsC,etal.(2011)TheComparativeToxicogenomicsDatabase:update2011.NucleicAcidsRes39:-33- 上海交通大学硕士学位论文D1067-1072.47.Bauer-MehrenA,RautschkaM,SanzF,FurlongLI(2010)DisGeNET:aCytoscapeplugintovisualize,integrate,searchandanalyzegene-diseasenetworks.Bioinformatics26:2924-2926.48.AmbergerJS,BocchiniCA,SchiettecatteF,ScottAF,HamoshA(2014)OMIM.org:OnlineMendelianInheritanceinMan(OMIM(R)),anonlinecatalogofhumangenesandgeneticdisorders.NucleicAcidsRes.49.HamoshA,ScottAF,AmbergerJS,BocchiniCA,McKusickVA(2005)OnlineMendelianInheritanceinMan(OMIM),aknowledgebaseofhumangenesandgeneticdisorders.NucleicAcidsRes33:D514-517.50.BlackDL(2003)Mechanismsofalternativepre-messengerRNAsplicing.AnnuRevBiochem72:291-336.51.PanQ,ShaiO,LeeLJ,FreyBJ,BlencoweBJ(2008)Deepsurveyingofalternativesplicingcomplexityinthehumantranscriptomebyhigh-throughputsequencing.NatGenet40:1413-1415.52.Lopez-BigasN,AuditB,OuzounisC,ParraG,GuigoR(2005)Aresplicingmutationsthemostfrequentcauseofhereditarydisease?FEBSLett579:1900-1903.53.LimKH,FerrarisL,FillouxME,RaphaelBJ,FairbrotherWG(2011)Usingpositionaldistributiontoidentifysplicingelementsandpredictpre-mRNAprocessingdefectsinhumangenes.ProcNatlAcadSciUSA108:11093-11098.54.SkotheimRI,NeesM(2007)Alternativesplicingincancer:noise,functional,orsystematic?IntJBiochemCellBiol39:1432-1449.55.HeC,ZhouF,ZuoZ,ChengH,ZhouR(2009)Aglobalviewofcancer-specifictranscriptvariantsbysubtractivetranscriptome-wideanalysis.PLoSOne4:e4732.56.OmennGS,GuanY,MenonR(2014)Anewclassofproteincancerbiomarkercandidates:differentiallyexpressedsplicevariantsofERBB2(HER2/neu)andERBB1(EGFR)inbreastcancercelllines.JProteomics107:103-112.-34- 上海交通大学硕士学位论文57.KimE,GorenA,AstG(2008)Insightsintotheconnectionbetweencancerandalternativesplicing.TrendsGenet24:7-10.58.CordauxR,BatzerMA(2009)Theimpactofretrotransposonsonhumangenomeevolution.NatRevGenet10:691-703.59.MeyerLR,ZweigAS,HinrichsAS,KarolchikD,KuhnRM,etal.(2013)TheUCSCGenomeBrowserdatabase:extensionsandupdates2013.NucleicAcidsRes41:D64-69.60.FoundationTP(2013)PerlProgrammingLanguageWalnut,USA.61.FlicekP,AmodeMR,BarrellD,BealK,BrentS,etal.(2012)Ensembl2012.NucleicAcidsRes40:D84-90.62.TeamRC(2013)R:ALanguageandEnvironmentforStatisticalComputing.Vienna,Austria:RFoundationforStatisticalComputing.-35- 上海交通大学硕士学位论文附录附表1不同蛋白质编码序列注释集中的重复序列分析RefEnsRefSeqEnsemblRef-specificEns-specificCDSnumber214,257196,659236,0062,16124,347CDSsize(Mb)33.4135.1133.000.402.10DNA0.08450.09000.15000.60881.1781LTR0.08880.09620.22860.71662.3430LINE0.11350.11860.31980.56803.5471SINE0.11780.13020.60211.25178.1796Low_complexity0.47560.48050.50040.89460.8895Simple_repeat0.39170.39410.40090.55210.5430Others0.01870.01920.05600.04720.6415Total1.29051.32882.25784.639017.3217TheTEfractionsofCDSindifferentdatasetsarepresentedinthetable.FourTEclasseswithadditionaltworepeatclassesandthetotalTEpercentagearelistedforeachdataset.Column“RefEns”presentsCDSsfoundbothinRefSeqandEnsembl.Thefollowing2columns“RefSeq”and“Ensembl”representtheresultsextractedfromthedatabasesRefSeqandEnsemblerespectively.Thecolumns“Ref-specific”and“Ens-specific”representCDSsonlyfoundinRefSeqdatabaseandEnsembldatabaserespectively.-36- 上海交通大学硕士学位论文附表2基因信息样表chr111024841102578+1gene_id"ENSG00000207730";gene_name"MIR200B";gene_biotype"miRNA"chr111032431103332+1gene_id"ENSG00000207607";gene_name"MIR200A";gene_biotype"miRNA"chr111043851104467+1gene_id"ENSG00000198976";gene_name"MIR429";gene_biotype"miRNA"chr111047371105723+1gene_id"ENSG00000272141";gene_name"RP11-465B22.8";gene_biotype"lincRNA"chr111084361114935-1gene_id"ENSG00000205231";gene_name"TTLL10-AS1";gene_biotype"antisense"chr111092641133315+7gene_id"ENSG00000162571";gene_name"TTLL10";gene_biotype"protein_coding"chr111388881142071-4gene_id"ENSG00000186891";gene_name"TNFRSF18";gene_biotype"protein_coding"chr111467061149518-3gene_id"ENSG00000186827";gene_name"TNFRSF4";gene_biotype"protein_coding"chr111522881167411-8gene_id"ENSG00000078808";gene_name"SDF4";gene_biotype"protein_coding"chr111676291170421+1gene_id"ENSG00000176022";gene_name"B3GALT6";gene_biotype"protein_coding"chr111778261182102-5gene_id"ENSG00000184163";gene_name"FAM132A";gene_biotype"protein_coding"chr111851571186714-1gene_id"ENSG00000260179";gene_name"RP5-902P8.12";gene_biotype"lincRNA"chr111892891209265-22gene_id"ENSG00000160087";gene_name"UBE2J2";gene_biotype"protein_coding"chr112106031215800+2gene_id"ENSG00000230415";gene_name"RP5-902P8.10";gene_biotype"lincRNA"chr112158161227409+8gene_id"ENSG00000162572";gene_name"SCNN1D";gene_biotype"protein_coding"chr112277561244989-13gene_id"ENSG00000131584";gene_name"ACAP3";gene_biotype"protein_coding"chr112439471247057+5gene_id"ENSG00000169972";gene_name"PUSL1";gene_biotype"protein_coding"chr112469651260071-48gene_id"ENSG00000127054";gene_name"CPSF3L";gene_biotype"protein_coding"chr112529611254069-1gene_id"ENSG00000240731";gene_name"RP5-890O3.9";gene_biotype"sense_intronic"chr112601361264277+3gene_id"ENSG00000224051";gene_name"GLTPD1";gene_biotype"protein_coding"te_in_gene9500.00te_in_cds000.002008te_in_gene9000.00te_in_cds000.002008te_in_gene8300.00te_in_cds000.002008te_in_gene98700.00te_in_cds000.00-te_in_gene6500134020.62te_in_cds000.00-te_in_gene240521109046.11te_in_cds5384430.80-te_in_gene3184571.79te_in_cds269700.001999te_in_gene281300.00te_in_cds83100.00-te_in_gene15124306020.23te_in_cds422600.002011te_in_gene27931073.83te_in_cds98700.002013te_in_gene427700.00te_in_cds90600.00-te_in_gene155888256.61te_in_cds000.00-te_in_gene19977540527.06te_in_cds7471961.28-te_in_gene5198454687.46te_in_cds000.00-te_in_gene1159410859.36te_in_cds106701481.391996te_in_gene172348625.00te_in_cds493500.00-te_in_gene311100.00te_in_cds128600.00-te_in_gene13107316524.15te_in_cds1752100.002007te_in_gene1109104193.87te_in_cds000.00-te_in_gene414200.00te_in_cds99500.002013-37- 上海交通大学硕士学位论文基因信息样表说明每列的信息依次为:染色体起始位点终止位点正负链符号转录本数量基因ID、基因名称、基因biotype基因中的转座元件:基因长度、覆盖转座元件的长度、基因中转座元件的比例CDS的转座元件:CDS长度、覆盖转座元件的长度、CDS中转座元件的比例疾病基因:-(未被OMIM收录)、1996(1996年被收录至OMIM)本文用到的所有代码及使用说明都存放在github,详见https://github.com/danfengcao/GeneInfo-38- 上海交通大学硕士学位论文致谢现在是2014年12月24号凌晨1点四十分。实验室很安静,就我一个人,苦逼又开心地在加班。我作息习惯不好,有点夜猫子。已经数不清这是第几次发生这样的场景了,10次?20次?还是更多?但我想这会是最后一次。加班到后半夜这种事以后一定还会有,但不会在这里了。是时候告一个段落了。回到主题,下面开始致谢。。。导师(韦朝春老师)简直好的没话说。阅历丰富,关心学生。技术实力雄厚,有趣的课题又多。尊重学生意愿,还给予足够的自由。我有个看法,每个实验室的特点不一样,这背后有它的“基因”在起作用,而老板决定了一个实验室的基因。每个学生适合的实验室不一样,而这里就是最适合我的地方。我喜欢这的环境,喜欢自己干的事情。在这的两年,我感觉自己就像是一匹挣脱了缰绳又不知疲倦的马,一路在狂奔(有时可能会跑错方向„)。每隔几个月,我就能感受到自己又进步了一大截。短短两年多的时间,我发生的变化让很多我的小伙伴吃惊(我自己其实一点不吃惊)。当年我是阴差阳错来到了这,怎知是撞上了这么大的好运。这一切都离不开韦老师这个重要因素。词语匮乏,想不出什么高大上的词汇来赞美导师,我想说的只是感谢,感谢导师给予的一切。哦,对了,韦老师发的生活补助也很不错,这个也是要赞美的。对于一个从零开始入门的研究生来说,还有谁会比一个给力的师兄带来的帮助更大呢?胡智强师兄是这两年对我的直接帮助最大的人。师兄聪明,善良,乐观,有耐心,乐于助人,对科学充满了好奇,善于讲解技术知识。不管是编程,统计,还是基因组学,都是师兄带我入的门。要是没有这样一位优秀的师兄,我的学习脚步一定会放慢很多。我常常觉得自己跟师兄有很多的相似点,我们都可以在多个领域做(玩)的不错,哪些东西是我们看重的,哪些又是觉得无所谓的。可惜的是,当我有大把时间来搞学术时,我的能力实在还太差,当我能够在某些方面迸发出能量时,时间老人又催着我赶紧该干嘛干嘛去。没能够和师兄一起做出点厉害的东西,这是我在研究生阶段的一个遗憾。实验室的氛围一直很好。从上课到娱乐、从科研到就业,谢俊同学一直都是我的最佳搭档。每当想到我们一起取得的进步,我就很开心。不但如此,谢俊还找到了优秀的另一半,可谓爱情事业双丰收,着实提他高兴。别忘了,这里还有我的一份功劳哪。贾犇学长是实验室的热心人,承担了实验室很大一部分的繁琐活,没有理由不感谢他。每个月贾主任发钱的时候,实验室的其他人都会再次感-39- 上海交通大学硕士学位论文谢他。储锡霞师姐乐观、善良,实验室氛围这么好,她和胡智强师兄占了最大的功劳。已经离开了的曾璐师姐、侯婷师姐、华楠同学都曾在实验室和大家一起留下了美好的回忆。孙晨同学、张思怡同学都是经常一起玩的小伙伴,他们对体育的热情带动了我,使我避免了在研究生阶段身体生锈。于雪琳同学多才多艺,为实验室注入了很多文艺的活力。王庆、崔鹏、王伟师兄的读研和工作经历都给了我很多启发。非常幸运能遇到各位,住祝你们一切顺利!张佳丽小朋友一直以来对我的理解和支持使我能够专注于学习和科研。研究生阶段陪伴她的时间跟本科时根本不在一个数量级。几天前是六周年纪念日,也没时间准备一份特别的礼物。一人一个吊丝机,倒也般配,她的还是个高配呢!感谢佳丽对我的不离不弃,我们会一直拥有幸福。以后我一定不熬夜,不然会影响到你的健康。我也会教育我们的孩子要有良好的作息时间,同他讲爸爸当年的作息可健康了。老妈是我一直惦记着的。辛劳了大半辈子,几乎一直在吃苦。越到最近几年,越发现您是多么的不易。儿子还算争气,您和老爸各自的优点我看上去像是都继承到了,我不会让您失望。大姐勤勤恳恳,为家做了很多贡献,也牺牲了很多本该属于自己都时间和精力。您的付出我都记在心里,不会忘记。你们都是我心里最重要的人。我要感谢在合合信息科技实习时遇到的所有小伙伴。在那实习的两个多月非常的充实和开心,小伙伴们对我编程能力的提升非常有帮助。在合合,我开始进入了互联网这个行业。我还要感谢伟大的互联网,让我如此方便的能够接触到优秀的人和知识。MOOC,coursera,知乎,豆瓣,stackoverflow,github„„这些非常酷的站点都给我提供了非常有价值的信息。感谢科学界的前辈们发现了这么多有趣的东西,我非常享受科学带给我思维上的乐趣。感谢文艺界的先贤们,是你们的作品让我的精神世界充满了愉悦。感谢那些乐于分享的牛人们,未曾相识的你们帮助我开阔了自己的视野,提升了自己的智力。最后,感谢这个美好的世界,这是最好的年代。-40- 上海交通大学硕士学位论文攻读硕士学位期间已发表或录用的论文[1]LuZeng,StephenM.Pederson,DanfengCao,ZhipengQu,ZhiqiangHu,DavidL.Adelson*,andChaochunWei1*,"Genome-wideanalysisofrepetitiveelementsassociatedwithgeneregulation",(underrevision)[2]DanfengCao,ZhiqiangHu,NanHua,LuZeng,ChaochunWei*,“TEcontents,numbersoftranscriptsanddiseasesusceptibilityofthehumangenes”,(submitted)-41-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭