数据挖掘中的文本挖掘.ppt

数据挖掘中的文本挖掘.ppt

ID:55810534

大小:628.50 KB

页数:22页

时间:2020-06-03

数据挖掘中的文本挖掘.ppt_第1页
数据挖掘中的文本挖掘.ppt_第2页
数据挖掘中的文本挖掘.ppt_第3页
数据挖掘中的文本挖掘.ppt_第4页
数据挖掘中的文本挖掘.ppt_第5页
资源描述:

《数据挖掘中的文本挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据挖掘中的文本挖掘张聪目录Contents一三二四结语文本挖掘过程文本挖掘的主要研究方向关于数据挖掘和文本挖掘一数据挖掘与文本挖掘DataMiningandTextMining数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。文本挖掘一般指文本处理过程中产生高质量的信息,其主要处理过程是对大量文档集合的内容进行预处理、特征提

2、取、结构分析、文本摘要、文本分类、文本聚类、关联分析等操作。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘的分类二文本挖掘的主要研究方向MainResearchDirectionofTextMining文本检索文本分类文本聚类网络浏览文档总结网络浏览文本挖掘技术可以通过分析用户的网络行为等,帮助用户更好地寻找有用信息一个典型的例子是CMU的WebWatcher。这是一个在线用户向导,可以根据用户的实际点击行为分析用户的兴趣,预测用户将要选择的链接,从而为用户进行导航。文本检索文本检索主要研究对整个文档文本信息的表示、存诸、组织和访问,

3、即根据用户的检索要求,从数据库中检索出相关的信息资料。主要检索方法有三种:布尔模型是简单常用的严格匹配模型;概率模型利用词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。文本分类文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不仅可以方便地阅读文档,而且可以通过限制搜索范围来使文档查找更容易。近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决策树、基于向量空间模型的K-最近邻、基于概率模型的Bayes分类器、神经网络、基于统计学习理

4、论的支持向量机方法等文本聚类与文本分类相对应的是文本自动聚类。文本聚类是一种典型的无监督机器学习问题。它与文本分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。文档总结文档总结也是Web文本挖掘的一个重要内容。它是指从文档中抽取关键信息,用简洁的形式,对文档内容进行摘要和解释,这样用户不需阅读全文就可了解文档或文档集合的总体内容。搜索引擎向用户返回查询结果时,通常需要给出文档摘要,这就是文档总结的一个实例。三文本挖掘过程ProcessofTextM

5、ining文本挖掘过程图示文本预处理文本预处理是文本挖掘的第一个步骤,对文本挖掘效果的影响至关重要,文本的预处理过程可能占据整个系统的80%的工作量。与传统的数据库中的结构化数据相比,文档具有有限的结构,或者根本就没有结构即使具有一些结构,也还是着重于格式,而非文档的内容,且没有统一的结构,因此需要对这些文本数据进行数据挖掘中相应的标准化预处理;此外文档的内容是使用自然语言描述,计算机难以直接处理其语义,所以还需要进行文本数据的信息预处理。信息预处理的主要目的是抽取代表文本特征的元数据(特征项),这些特征可以用结构化的形式保存,作为文档的中间表示

6、形式。文本的表示基于自然语言处理和统计数据分析的文本挖掘中的文本特征表示指的是对从文本中抽取出的元数据(特征项)进行量化,以结构化形式描述文档信息。这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫做目标表示。文本表示的模型常用的有:布尔逻辑模型,向量空间模型潜在语义索引和概率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出现的先后次序是无关紧要的,每个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。特征集约减

7、通常,特征子集的提取是通过构造一个特征评估函数,对特征集中的每个特征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排序,选取预定数目的最佳特征作为特征子集。特征集约减的目的有三个:1)为了提高程序效率,提高运行速度;2)数万维的特征对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特征,筛选出针对反映该类的特征集合。一个有效的特征集直观上说必须具备以下两个特点:1

8、)完全性:确实体现目标文档的内容;2)区分性:能将目标文档同其他文档区分开来。文本挖掘方法常用的文本分类方法有基于概率模型的方法,如朴素

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。