web数据挖掘技术模型研究

web数据挖掘技术模型研究

ID:5185729

大小:27.50 KB

页数:6页

时间:2017-12-05

web数据挖掘技术模型研究_第1页
web数据挖掘技术模型研究_第2页
web数据挖掘技术模型研究_第3页
web数据挖掘技术模型研究_第4页
web数据挖掘技术模型研究_第5页
资源描述:

《web数据挖掘技术模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web数据挖掘技术模型研究  摘要随着我国信息技术的不断发展,Web挖掘技术被广泛应用,为此,文章对Web挖掘技术进行分析,主要从Web内容挖掘、Web结构挖掘和Web访问信息挖掘三方面展开论述。关键词Web数据挖掘;技术模型;具体解析中图分类号:TP393文献标识码:A文章编号:1671-7597(2014)03-0055-01Web框架下的数据挖掘,主要经由对数据挖掘类技术的现实利用,从网络供应的服务,以及现有的网络文档中,发觉并提炼信息。数据挖掘含有的对象不同,可以将现有的Web挖掘,分为三个类别:Web框架下的内容

2、挖掘、Web框架下的信息挖掘、Web带有的结构挖掘。1新颖的内容挖掘伴随信息技术延展,Web框架下的数据类别也在递增,从本源层级上来讲,主要涵盖了图像类、文本类、声音类、元数据类、视频类等。在不同类别的数据以内进行挖掘,就构造出了多媒体属性的数据挖掘。1)6Web框架下的文本挖掘。数据挖掘,应指代在很不完备的、数目偏多的、很含糊的、带有杂声的、带有随机特性的数据内,将其中潜藏着的各类别信息及关联知识,予以提炼。若数据挖掘的目标对象,只归属于文本,便构造出文本属性的数据挖掘。挖掘对象,涵盖着半结构类、非结构类、结构化框架下的

3、数据;而非结构化属性的数据,是侧重的挖掘成分。在IR这一领域中,文档采纳了空间向量模型这一独有的形式,空间配有的向量,便归属于文档。对文档含有的特征集,予以提炼时,常常会多遍扫描,而获取到特征向量,其现有维数非常高,这就增添了必备的处理时段。所以,在没能影响到现有匹配结果及关联分类的根基上,需要对原有的特征子集,予以选取。选取时,先对某个特有函数,创设构造,然后对这一子集中含有的特征进行评判,将评判价值偏高的那些特征,选取出来,归结成特征子集。常常见到的评价函数,归属于交叉熵等。对文本类别的数据去挖掘时,所接纳的模型质量类

4、评价方法,和惯用的挖掘方法很近似,分类算法之内,朴素贝叶斯这一类别的算法,很常见。评判现有的模型质量,主要涵盖着分类带有的准确率、分类带有的正确率、惯用的信息估值。6中文框架下的信息编码,是偏复杂的,这一类别的编码,在Web内,较为常见的,归属于BIG5属性的编码、GB类别的码、HZ类别的码等。对带有中文类码的HTML,采纳数据挖掘,要对这一类别的编码标准予以辨识,并更替成带有统一性的惯用指标,然后才可挖掘。2)对Web框架下多媒体挖掘,予以解析。在数据挖掘内,多媒体属性的挖掘,是一个凸显出来的挖掘领域,它从多媒体属性的数

5、据库内,提炼出潜藏着的知识。多媒体属性的数据挖掘,带有广义性,涵盖着对声音、多样的视频以及各类别图像的挖掘,同时涵盖着文本类数据挖掘。进行多媒体属性的数据挖掘,要先凝练得来必备的信息,然后对惯用的挖掘方式,予以挖掘。对网页中潜藏着的多媒体类别数据,凝练属性时,要对HTML类别的标签信息充分利用。2Web框架下的结构挖掘这种构架,被当成Web,因为它没能由HTML类别的页面,单纯堆积而构造出来,而是在Web含有的页面间,有着各类别的关系,而能在现有的Web之间,架设出桥梁,因此归属于超链。超链能对现有的Web类页面关联,选取

6、出适宜的表征形式,如引用类的关系和继承类的关系等。但是对于现有的Web框架下搜索工具,不会顾及到Web结构,仍然把这种Web,当成独立框架下文档的集中。Web现有的结构挖掘,是经由对引用解析类技术与服务类技术的可行利用,对Web框6架下的结构衔接进行分析,将其中可用的所有模式,予以提炼。进行这一类别的结构挖掘时,其潜藏着的结构对象,既可以是现有的Web页面构架,也可以是现有Web页面搭配的超链。前者含有针对性,带有特定的应用层级内目的,而后者存在着普遍价值。Web框架下的结构挖掘,把Web当成了独有的有向图,Web含有的页

7、面,当成顶点,而图含有的边,归属于超链。然后经由对图论的现实利用,对Web框架下拓扑结构去解析。常常见到的算法,归属于发觉相似页面、发觉虚拟社区、分出页面类别、发觉地理位置。结构挖掘算法,通常可分出两类,一类归属于查询无关,一类归属于查询相关。采用查询相关这一算法时,需要对各类别的查询,进行超链解析,获取到一次值的精准指派;接纳查询独立框架下的算法时,要对各类别的文档,去进行一次值的精准指派。3Web框架下的信息挖掘对现有的交易及关联商务,都是经由Web去予以落实。因此,在各类别的服务器方,会产出数目偏多的数据,它们由服务

8、器所产出,并存留在服务器配有的日志文件内,另外,还会产出很多数目的用户信息,如注册类的信息。对这些数据解析以后,可以让现有的商家,更好地明晰客户信息,从而对现有市场以及现有商品,进行更精准的决策;对于供应网络类服务的人员,可以整合起总括的站点,以便供应出带有个性化的新服务。6Web框架下信息挖掘,带有如

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。