欢迎来到天天文库
浏览记录
ID:40624853
大小:42.50 KB
页数:12页
时间:2019-08-05
《文本挖掘与Web挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、文本挖掘与Web挖掘文本挖掘的基本概念文本挖掘时从大量数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它除了从文本中提取关键字外,还要提取事实、作者的意图、期望和主张等。这些知识对许多应用如市场营销、趋势分析等都很有用。相对于数据挖掘,文本挖掘的对象是半结构化或非结构化的。文本挖掘的主要任务短语提取。概念提取可视化显示和导航文本挖掘和数据挖掘的区别数据挖掘数字表示的数据关系数据库预测以后决策树、神经网络等1994年起文本挖掘无结构或半结构开放的文本提取概念提取短语,关联分析、聚类、分
2、类2000年起文本特征的表示每个文本d表示为一个规范化的特征向量:V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))其中ti为词条项,wi(d)为ti在d中的权值。Wi(d)一般被定义为ti在d中出现频率tf(d)的函数。即wi(d)=ѱ(tf(d)).1.布尔函数Ѱ={2.平方根函数ѱ=10文本特征的提取一般特征:人名、组织名数字特征:日期、时间、货币、数字文本挖掘关键字检索相似检索词语关联分析文本聚类和分类自然语言处理关键词相似检索词语关联分析文本聚类文本分类自然语言
3、处理关联分析首先对文本进行词根处理,去除非用词等预处理,然后调用关联挖掘算法。在文本数据库中,每一个文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项。这样文本数据库中关键词关联挖掘问题就变成事务数据库中事务项的关联挖掘。文本聚类层次聚类法平面划分法文本分类用信息检索技术提取关键词和词组生成关键词和词组的概念层次关联挖掘用于发现关联词。区分一类文本与另一类文本。Web挖掘简介信息庞大信息复杂信息是动态的信息使用者复杂信息中的垃圾非常多Web挖掘分类Web挖掘内容挖掘结构挖掘应用挖掘页面
4、内容挖掘搜索结果挖掘使用模式挖掘个性使用挖掘
此文档下载收益归作者所有