web挖掘个性化模型研究

web挖掘个性化模型研究

ID:25446180

大小:49.50 KB

页数:5页

时间:2018-11-20

web挖掘个性化模型研究_第1页
web挖掘个性化模型研究_第2页
web挖掘个性化模型研究_第3页
web挖掘个性化模型研究_第4页
web挖掘个性化模型研究_第5页
资源描述:

《web挖掘个性化模型研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Web挖掘个性化模型研究摘要本文对个性化建模技术进行了研究,提出一个基于用户兴趣挖掘的个性化模型,并将其用于个性化元搜索引擎中,为个性化分析提供依据。该模型基于客户端,将用户的访问页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。模型中将用户的兴趣分时分段,分层分类的进行记录、管理,并仿照人类记忆的遗忘规律对用户兴趣进行有选择、非平等的遗忘,通过不断的更新与优化模型,使模型能准确反映用户的兴趣特征。关键词个性化;用户兴趣挖掘1引言随着互联网内容指数级的增长,如何满足各种用户不同的个性化需求等,是新的信息服务系统面临的挑战性课题。个性化服务是Int

2、er信息增长的必然结果。一个好的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。作鲂曰竦幕『秃诵模没P偷闹柿恐苯庸叵档礁鲂曰竦闹柿俊?lt;/FONT>2相关技术研究2.1用户兴趣挖掘技术在yYahoo和}作为用户兴趣类向量的候选特征词;3)统计特征词Ki在多少篇文档中出现,将其数目记为Ni;4)利用TF-IDF方法计算各个特征词的权值:其中,tfij(I=1,2,…,m;j=1,2,…,n)表示特征词Ki在页面Pj中的权值;依次计算了各个特征词的权值后,就可得用户的兴趣类向量。定义:兴趣

3、类特征向量由一组特征词及其权值构成,表示为:uc={(K1,,)},其中Ki∈K(K为兴趣类特征词全集),Wi表示其对应的权值。4.2用户兴趣存储方式为了区分用户的不同兴趣类别,我们将用户的兴趣表示成与兴趣分类参考模型相一致的类似于树的结构形式,称为用户兴趣树。在大多情况下,用户兴趣树只是兴趣分类参考模型的部分映射。这种树形结构可以保存用户的兴趣类型信息,也可以保存用户兴趣特征词的信息,如图2示:树中除虚拟根结点外,中间两层表示用户兴趣类别的结点称为兴趣结点,最底层的结点称为特征词结点。为了适应用户兴趣的变化,我们把用户兴趣分为长期兴趣和短期兴趣。用户的两棵兴趣树,可单独用来

4、进行个性化分析,也可综合起来使用。4.3用户个性化模型表示在此提出的个性化模型仍然是使用传统的词频法来衡量用户的兴趣,下面介绍一下个性化模型中对用户兴趣的各种描述方式。定义:兴趣类特征词集T(ci)由类ci中的特征词构成,表示为:{t1,t2,…,tk},其中ti(1≤i≤k)表示特征词名称,k为特征词总个数。定义:用户兴趣集C由用户所有的兴趣类别构成,表示为:{c1,c2,…,cm},其中ci(1≤i≤m)为用户感兴趣的兴趣类别名称,m表示用户兴趣类别总数。用户的长期兴趣和短期兴趣也可分别拿来使用,它们相对独立,长期兴趣比较稳定,短期兴趣则能体现用户最近的兴趣。将个性化模型

5、用于个性化服务系统时,可以抽取不同层次的兴趣类信息对用户的兴趣进行描述。第一层兴趣结点的信息,可以粗略了解用户的兴趣方向,第二层结点的信息,可以更详细的了解用户的兴趣,当然也可以提取用户兴趣全集。4.4用户个性化模型更新在基于内容的兴趣表示方式中,用户的兴趣大多采用加权关键词向量表示,并没有将用户的兴趣归类分析,兴趣更新的方法大致可分为以下两种[5]。⑴ 兴趣交集淘汰法这种方法以用户反馈的新文档向量作为当前的兴趣向量,而兴趣模型中存储的向量则作为历史兴趣向量。做法为:将兴趣模型中的兴趣词条与当前兴趣向量中的词条作对比,若相同,则把该词条在两向量中的权值相加后得到的新权值赋予用

6、户当前向量中的相同词条;若不同,则保留当前兴趣向量中的词条和权值。这种方法节省了存放用户兴趣信息的容量,在用户兴趣发生转移时,能快速调整模型,及时获得新的兴趣信息,但由于模型中只记录了当前兴趣,并不保留历史兴趣,记录的用户兴趣信息不全面,导致了用户兴趣淘汰太快,而且容易引起兴趣反复变化。⑵ 兴趣合集归并法这种方法同样需要对用户反馈的新文档进行抽词,得出文档向量,然后进行词条对比操作。词条相同,则将其权值相加后得到的新权值作为模型中该词条的权值;词条不相同,就分别保留不作任何改动。这种方式,意在降低用户兴趣变化的影响力,但该方法获取用户兴趣信息周期相对较长,而且随着时间的积累,

7、模型中存放的兴趣信息越来越全面,将逐渐弱化用户兴趣之间的差别。为了更好的监测到用户兴趣的变化,更好的解决兴趣交集淘汰法对兴趣淘汰太快和兴趣合集归并法对兴趣变化适应太慢的问题以及减小存储空间的问题,我们尝试了将用户兴趣分为短期兴趣和长期兴趣来分别对待。短期兴趣以用户当前的兴趣为主,每个特征词都添加了时间属性,用以来区分新旧兴趣。当短期兴趣中的信息积累到一定的程度,构成稳定兴趣时,可将其转化为长期兴趣,因此长期兴趣存储了长期以来用户的主要兴趣,这样可以更好地描述用户的兴趣特征。另外,目前对用户兴趣的分析大都

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。