web日志挖掘相关技术研究

web日志挖掘相关技术研究

ID:33909305

大小:1.82 MB

页数:67页

时间:2019-03-01

web日志挖掘相关技术研究_第1页
web日志挖掘相关技术研究_第2页
web日志挖掘相关技术研究_第3页
web日志挖掘相关技术研究_第4页
web日志挖掘相关技术研究_第5页
资源描述:

《web日志挖掘相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、势粪号:——一UD尊#——⋯,工学硕士学位论文Xj霉3莓凄蠢2整簸{——编母:———鹣b瀑恚挖援搪美技术鞲突碳士研究燃:攫簿羲薅;攀键级掰:举科、专业;蕊程摹整:埝文夔交瓣鬻:论文答辩日期:攀链授予攀凌;刘缎冁强髅海羧搂工攀溪圭计算机应用搜术诗箨糗释学与擅寒擎臻2糟8年i羁2006难2月埝尔演工程炎攀..堕玺鎏三堡盔兰罂圭主簦笙三摘要随着Internet在流量、规模和复杂度等方面的飞速增长,网络正在成为人们进行信息交流和信息处理的有效平台,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息,成了困扰网络用户的一大难题。为了解决上述问题,w曲挖掘技术应运而生,其中,w曲日

2、志挖掘是web数据挖掘研究领域中一个重要的方面,而数据预处理在w曲日志挖掘过程中起着至关熏要的作用。本文深入探讨了数据预处理的主要任务,提出了一种新的web挖掘预处理方案。该方案采用用户访问页面的时间和用户的最低访问时间,界定该页面是否为用户感兴趣的页面,并删除用户不感兴趣的页面和链接页面,寻找一组能够有效压缩搜寻路径(降低搜寻费用)的超链接,重新定义用户的访问事务。数据经过预处理后,就可以根据具体的需求来选择诸如聚类、分类、关联规则等数据挖掘技术。本文研究分析了聚类技术,以及当前w曲聚类的内容和方法,通过聚类用户访问的w曲事务,发现相似的用户群。由于经过预处理后,数据量还是相当大,作

3、者分析研究了基于目标函数的聚类方法后,发现该方法对初始值敏感、易陷入局部最优解,且迭代次数多,为此,提出了一种改进聚类方法。最后,结合一个具体的实例,对算法的有效性进行了验证。关键词:web挖掘;数据预处理;web事务;FcM算法堕玺鎏三堡銮兰2圭兰竺鲨三AbstractWiththes、viftandviolentdevelopmentofIntemetin锄。皿t,scaleandcomplication,Webbecarneane丘bctiveplatfonnonwhichpeoplecommunicateandmallage.Agreatdealofdataaccumulate

4、sintlleWeb.Intlliscase,ittumsintoadimcultpmblemhowtodiscovertheknowledgeweneed.Inordert0solvechatpmblem,W曲miIlingt芒℃hniqueeme唱es,asmetimesrequire.ThetecllIliqueofW曲logminingisanimponampartinmeresearchfieldofW曲milling.Dataprepmces8ingplaysanessemialmleintheprocessof、Ⅳeblogmining.Theauthorprobesin

5、tothemaintaskofdatapr印mcessingdeeply,andintroducesaplall.ThisplanbaSesontlleuser’svisitingtimeandlowestvisitingtiIne,judgest11ispagewhetherisuser’sjntcrestedpage.Thendeletethepaget11atmeuserisnotinterestedin,seeka11Ill讹一1inkthatcanefreclivclyfeducethesearchingway(reducessearcllingexpensel,andre.

6、dennestheWebtransaction.Afterdataispreprocessed,itistimet0selectamethodsu曲asclustering,classifyingandassociatingregulationtominethewebdataaccordingt0t11egivendemand.Theclllstertechniqueisimmduced.Thecoment如dme山odsofw曲clusteringisanalysed.Altllou曲datahasbeenpmcessed,tIle唧ountofdataisstillverygrea

7、t,soISODATA(ItemtiveSelfO唱anizingDataAnalysisTecllIliqueA)metllodisused.Butthismetllod’sjnitiaJvajuejssensidveandjtislikelytotr印intoIocalbestvalue.AnimpmvedmetbodisputforwardaIldtovalidatedusingthetrialdataKey帕rds:WebMining;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。