《文本挖掘入门》PPT课件.ppt

《文本挖掘入门》PPT课件.ppt

ID:52279944

大小:684.51 KB

页数:31页

时间:2020-04-03

《文本挖掘入门》PPT课件.ppt_第1页
《文本挖掘入门》PPT课件.ppt_第2页
《文本挖掘入门》PPT课件.ppt_第3页
《文本挖掘入门》PPT课件.ppt_第4页
《文本挖掘入门》PPT课件.ppt_第5页
资源描述:

《《文本挖掘入门》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本挖掘入门吴磊文本挖掘文本挖掘是利用自动化方法对生物医学文献中的大量可用知识进行开发文本挖掘工作的动机很多参与者模式生物数据库管理者(Modelorganismdatabasecurators)需要处理大量的出版物,用以不断完善(填充)每一个他们感兴趣的物种基因的字段实验室研究人员(Benchscientists)开发出生物医学文本挖掘应用程序,用于协助解释高通量检测分析的输出和改善序列数据库搜索的工具的开发各学科的生物学家开展了各种应用研究,用以应对过去数年间的科学文献双指数增长的问题和在P

2、ubMed/MEDLINE中搜寻基因组相关文献的问题一个奇怪的现象那些使用率高的,并且对生物学家的工作作出丰富贡献的系统的创建者不是文本挖掘专家,而是生物学家。生物医学领域的三种基本方法基于共现的方法寻找出现在同一个文本单位(通常是一个句子,但有时也会拓展到一个摘要)中的概念,并设定它们之间的关系例如,系统发现BRCA1与乳腺癌在同一个句子中出现,会推测乳腺癌与BRCA1基因间存在某种关系早期的生物医学文本挖掘系统都是基于共现的,但这种系统也是非常容易出错的,因此目前已不多见。生物医学领域的三种

3、基本方法基于共现的方法概念共现被用作评估更复杂的系统时的一个简单基准关键在于,概念因表达方式的不同而产生的变化性。例如,BRCA1基因有很多别名——包括IRIS,PSCP,BRCAI,BRCC1,或RNF53(或他们拼写变体,包括BRCA1,BRCA-1,与BRCA1)——或任何其全称的变体,如breastcancer1,earlyonset,breastcancersusceptibilitygene1,或后者的变种breastcancersusceptibilitygene-1。breast

4、cancer还可以被称为breastcancer,carcinomaofthebreast,或mammaryneoplasm。这些变异问题的解决依赖于更为复杂的系统。生物医学领域的三种基本方法两个更常见(也更复杂)的文本挖掘方法:基于规则或知识的方法基于规则的系统利用了某种知识,其可能采取的形式:如何构造语言的一般知识如何在生物医学文献中陈述生物学相关事实生物学概念彼此之间可能存在的关系,及它们可能出现在文献中的变异形式前述这些形式中的任何一个子集或组合实际系统构建中综合使用两方面的技术:固定编

5、码方式:如:或相关联——来发现研究者感兴趣的对象类别的显式描述。复杂的语法和语义分析。以识别一个广泛范围内的相关概念的变异形式基于统计或机器学习的方法借助于建立可在各个层级上运算的分类器,标注词性->选择句法分析树->对完整的句子或文档分类。生物医学领域的三种基本方法各自优缺点基于规则的系统开发周期较长(不总是)。基于统计的系统通常需要大量不易获得的已标注训练数据。实践中,二者可卓有成效的结合起来许多系统采用了一个预统计处理步骤,其后是基于规则的后续处理。歧义问题

6、定义:语言和语义或词类的多重关系的存在。是任何类型的系统都必须要面对的一个主要问题。例如:有关基因的名称和符号fat:形容词or名词?->查询PubMed->返回112K的命中结果(即使通过逻辑表达式(geneORgeneticORgenetics)来限制其范围,结果仍会超过13K)fat也可以是许多不同物种的基因名或符号人类,小鼠,大鼠,果蝇,斑马鱼,鸡,猕猴及两个乳杆菌中,至少有一个基因的名字、官方符号或别名是(fat)。歧义问题定义:语言和语义或词类的多重关系的存在。是任何类型的系统都必须

7、要面对的一个主要问题。即使所指物种能够确定,歧义问题仍可能存在:人类基因组中:fat既是2195号Entrez基因记录的官方符号,也是948号Entrez基因记录的官方别名2195是一个cadhedrin(ca2+-dependentcelladhesionmoleculefamily):钙离子依赖的细胞粘附素家族的粘附分子,与肿瘤抑制和双相性精神障碍有关,948是凝血酶受体,与动脉粥样硬化、血小板糖蛋白缺乏症、高脂血症及胰岛素耐受性有关。构建系统的第一步:定义目标并检查数据良好的软件工程实践将

8、是构建成功的关键见下图:表明了可构建在一个表示系统中的语言分析层级语言分析的层级LocusLinkIDMeSHconceptsPartofspeech词性NN:单数名词IN:介词VBZ:第三人称单数一般现在时动词JJ:形容词CC:并列连词构建系统的第一步:定义目标并检查数据良好的软件工程实践将是构建成功的关键首要关键步骤是定义该系统所需的行为考虑这样一个系统,目的是从文本中提取基因/疾病的关系,那么…预期输出是供人使用,或是要令它成为一些后续自动处理步骤的输入?预期输入是拟从一个数据库提取字,还

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。