基于c-lda的微博推荐算法

基于c-lda的微博推荐算法

ID:35055507

大小:2.36 MB

页数:52页

时间:2019-03-17

基于c-lda的微博推荐算法_第1页
基于c-lda的微博推荐算法_第2页
基于c-lda的微博推荐算法_第3页
基于c-lda的微博推荐算法_第4页
基于c-lda的微博推荐算法_第5页
资源描述:

《基于c-lda的微博推荐算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士研究生学位论文新疆大学论文题目(中文):基于C-LDA的微博推荐算法论文题目(外文):MicroblogrecommendationalgorithmbasedonC-LDA研究生姓名:张磊学科专业:计算机应用技术研究方向:数据挖掘导师姓名职称:吾守尔·斯拉木教授论文答辩日期2016年5月20日学位授予日期2016年6月20日新疆大学硕士学位论文摘要微博作为新兴的网络社交媒介,以其开放互动的特性迅速赢得了大量用户的青睐。随着注册用户数量和微博文本信息爆炸式的增长,如何帮助用户获取感兴趣的信息成为亟需解决的问题。在文本挖掘算法中,隐含狄利特雷分布算法(LDA,La

2、tentDirichletAllocation)是一种无监督的文档主题生成模型,将文档视为由不同主题按比例组成的主题概率向量,可以很好的解决微博主题多样性的问题。但是LDA模型不适应微博文本短小、互动性高以及时效性强的特点,针对此问题,本文对LDA三层贝叶斯模型以及训练LDA模型的吉布斯采样算法做出如下几点改进。(1)考虑关注与转发等社交互动行为对主题概率向量产生的影响,提出C-LDA四层贝叶斯模型。(2)利用微博的转发评论数据改进基于时间线的词汇热度算法。(3)基于艾宾浩斯遗忘曲线,计算随着时间推移微博权重的变化。(4)综合词汇热度、微博权重以及负样本反馈因素改进

3、吉布斯采样算法,使之更加精确的训练C-LDA模型。单机吉布斯采样程序在计算大规模数据时的时间复杂度很高。本文基于MapReduce框架实现了吉布斯采样算法以及词汇热度算法的分布式处理,提高了算法的性能和伸缩性。实验结果表明,C-LDA算法的Perplexity值相较于传统的LDA算法降低了9.45%。基于C-LDA算法的Top-10推荐结果相较于RT-LDA算法准确率提高了11.23%,召回率提高了14.56%,F值提高了12.53%。在5个节点的集群上分布式处理任务的时间比单机减少了68%。关键字:并行计算;微博;社交网络;推荐系统;LDAI新疆大学硕士学位论文A

4、bstractAsanewsocialnetworkingmedia,weibowithitsopeninteractivefeaturesisverypopularwithalargenumberofusers.Whenthenumberofregisteredusersandtweetsabouttheinformationisrapidlyexpanding,howtohelptheusertomininginterestinginformationisbecomingmajorissue.Inthetextminingalgorithms,LDAmodeli

5、sanunsupervisedtopicminingmodelondocumentandregardsdocumentasprobabilisticdistributionsonlatenttopics,whichcansolvestheproblemofmultipletopicstosingledocument.Butthismethodisunsuitablefortime-sensitiveandinteractivemicroblogapplications.Aimingatthisproblem,weimproveLDAthree-tiermodelan

6、dthegibbssamplingalgorithmtrainingforLDA.(1)Takingintoaccounttheinfluenceofamicroblogauthoronforwarderandfollower,weproposeC-LDAfour-tiermodel.(2)Useinformationofforwardandcommenttomeasurewordpopularity.(3)Takingadvantageofebbinghausforgettingcurve,calculatechangeswithtimeindocumentwei

7、ght.(4)Withacombinationoffeaturewordpopularity,userfeedbackonnegativesamples,forgettingcurve,GibbssamplingalgorithmisimprovedsothatitcanbeusedtoapproximatelysolveC-LDAmodel.Whencomputinglargevolumesofdata,Thestand-alonegibbssamplingalgorithm’stimecomplexityisveryhuge.OnHadoopplatform

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。