数据挖掘--互联网数据挖掘综述—Web使用记录的挖掘.doc

ID：53831870

大小：78.00 KB

页数：5页

时间：2020-04-08

资源描述：

《数据挖掘--互联网数据挖掘综述—Web使用记录的挖掘.doc》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、互联网数据挖掘综述一Web使用记录的挖掘2008-10-1609:51:091分类：—夕少工，八少

2、标签：

3、字号大中小订阅本文通过对互联网上数据挖掘的简单综述，说明现在互联网上数据挖掘的一些趋势和相关技术,并且着重分析一下其屮一种互联网上数据挖掘的应用方向相关的技术一Web使用记录的挖掘。—・概述冃前，互联网已经和我们的生活密不可分，它可以说是一个巨大的、分布广泛和全球性的信息服务中心。它涉及新闻、广告、消息信息、金融信息、教育、政府、电子瀚务和许多其他信息服务。根据有关机构统计，目前互联网的数据以儿百兆兆字节來计算，而且增长速度很快，如果将这个庞大的数据库用一般的

4、统计分析來处理的话，显然是有心无力的。自从数据挖掘技术成功地应用于传统数据库领域之后，人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望,并且做了许多相应的研究和发展了相应的技术O[1]%1.互联网数据挖掘面临的技术难点将数据挖掘技术应用到互联网数据上，理论上可行,但是山于互联网自身的特点，也使它面临一些需要克服的技术难点：首先，互联网上的数据是十分庞大的，而这种庞大的数据还是动态的，并且增长速度惊人。如果简单为其创建一个数据仓库显然是不现实的。H前一般的做法采用多层Web信息库的构造技术來处理,将互联网H前的庞大数据统一看成是0层，最详细的一层，

5、而不像一般数据库挖掘分析那样另外单独做一个历史数据的数据仓库。其次，Web页面的结构比一般文木文件复杂很多，它可以支持多种媒体的表达。毕竟人们原來就希望通过Web来实现世界各种信息的互通，在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的，异构的，无结构或者半结构的。日前山于XML技术的出现，为解决这个难题提供了一条可行的道路。还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同，这些都造成了用户行为模式分析的困难度。最后，虽然说互联网上信息很多，但实际是你需要

6、的信息却不多，如何在信息海洋屮不被淹没,尽可能地找到你所需要的信息也是一个难题。可以说,在互联网上应用数据挖掘技术的前途是光明的，但道路也是曲折的。%1.互联网数据挖掘的分类目前互联网上的数据挖掘技术主要根据挖掘的方向一般分为三类：Web内容挖掘，Web结构挖掘和Web使用记录的挖掘。而结构本来就蕴藏在内容中，是内容的骨，因此有些分类方法又分为Web内容挖掘和Web使用记录挖掘。这里按照后一种分类方法來看一下目前的相关技术和应用。%1.Web内容挖掘Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘，从Web文档内容中获収有用知识的过程,还可以对Web组织结

7、构和联接关系进行挖掘，从人为的链接结构屮获取有用的知识。山于文档之间的互相关联，因此可以提供一些文档内容之外的信息，利用这些信息还可以对页面进行排序，从而发现匝要的页面。冃前Web内容挖掘多数是基于文木信息的挖掘，它和通常的平面文本挖掘的功能和方法比较类似，但山于互联网上的数据基木上都是HTML格式的文件数据格式流，因此可以利用文档屮的HTML标记來提高Web文木挖掘的性能。(—)Web内容挖掘的分类对于Web内容挖掘，目前主要使用的技术有两种类型：一种类型是建立在统计模熨的基础上，采用的技术有决策树、分类、聚类、关联规则等。主要技术包括：文本总结：就是从文档中抽取

8、信息，用简洁的形式对文档内容进行摘要或者解释，其H的为了可以让文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容了。文本分类:就是在已有数据的基础上学会一个分类函数或构造出一个分类模据，也就是通常说的分类器。文本聚类：把一纽文档按照相似性归纳成若干个类别，大致可以分为层次凝聚法和平面划分法两种方法。关联规则：发现关联规则的算法通常经过以下三个步骤：连接数据，做数据准备:给定最小支持度和最小可信度，利用数据挖掘工具提供的算法发现规则；可视化显示、理解、评估关联规则。另一种类型是建立一个以机器学习为主的人丁•智能模型，采用的方

9、法包括神经网络、自然法则计算方法等。(%1)Web内容挖掘的用途Web内容挖掘H前主要可以用于权威页面的发现，以及分析相关的页面联接结构，并且通过分析这类信息來获取到更多需要的信息。例如，现在许多WEB搜索引擎就利用Web内容挖掘中的Web超链分析算法•來提高搜索的效率和准确性。传统的WEB搜索引擎大多数是基于关键字匹配的，返冋的结果包含查询项的文档，也有基于日录分类的搜索引擎，这些搜索引繁的结果并不十分令人满意。有些站点会看准这些算法的弊端，育意提高关键字出现的频率•來提高本身在搜索引擎中的乘要性,破坏搜索引擎结果的客观性和准确性。另外，有些重要的网页木身并不

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘--互联网数据挖掘综述—Web使用记录的挖掘.doc

数据挖掘--互联网数据挖掘综述—Web使用记录的挖掘.doc

相关文章

相关标签