基于c-lda的微博推荐算法

ID：35055507

大小：2.36 MB

页数：52页

时间：2019-03-17

资源描述：

《基于c-lda的微博推荐算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、硕士研究生学位论文新疆大学论文题目(中文)：基于C-LDA的微博推荐算法论文题目(外文)：MicroblogrecommendationalgorithmbasedonC-LDA研究生姓名：张磊学科专业：计算机应用技术研究方向：数据挖掘导师姓名职称：吾守尔·斯拉木教授论文答辩日期2016年5月20日学位授予日期2016年6月20日新疆大学硕士学位论文摘要微博作为新兴的网络社交媒介，以其开放互动的特性迅速赢得了大量用户的青睐。随着注册用户数量和微博文本信息爆炸式的增长，如何帮助用户获取感兴趣的信息成为亟需解决的问题。在文本挖掘算法中，隐含狄利特雷分布算法（LDA，La

2、tentDirichletAllocation）是一种无监督的文档主题生成模型，将文档视为由不同主题按比例组成的主题概率向量，可以很好的解决微博主题多样性的问题。但是LDA模型不适应微博文本短小、互动性高以及时效性强的特点，针对此问题，本文对LDA三层贝叶斯模型以及训练LDA模型的吉布斯采样算法做出如下几点改进。(1)考虑关注与转发等社交互动行为对主题概率向量产生的影响，提出C-LDA四层贝叶斯模型。(2)利用微博的转发评论数据改进基于时间线的词汇热度算法。(3)基于艾宾浩斯遗忘曲线，计算随着时间推移微博权重的变化。(4)综合词汇热度、微博权重以及负样本反馈因素改进

3、吉布斯采样算法，使之更加精确的训练C-LDA模型。单机吉布斯采样程序在计算大规模数据时的时间复杂度很高。本文基于MapReduce框架实现了吉布斯采样算法以及词汇热度算法的分布式处理，提高了算法的性能和伸缩性。实验结果表明，C-LDA算法的Perplexity值相较于传统的LDA算法降低了9.45%。基于C-LDA算法的Top-10推荐结果相较于RT-LDA算法准确率提高了11.23%，召回率提高了14.56%，F值提高了12.53%。在5个节点的集群上分布式处理任务的时间比单机减少了68%。关键字：并行计算；微博；社交网络；推荐系统；LDAI新疆大学硕士学位论文A

4、bstractAsanewsocialnetworkingmedia,weibowithitsopeninteractivefeaturesisverypopularwithalargenumberofusers.Whenthenumberofregisteredusersandtweetsabouttheinformationisrapidlyexpanding,howtohelptheusertomininginterestinginformationisbecomingmajorissue.Inthetextminingalgorithms,LDAmodeli

5、sanunsupervisedtopicminingmodelondocumentandregardsdocumentasprobabilisticdistributionsonlatenttopics,whichcansolvestheproblemofmultipletopicstosingledocument.Butthismethodisunsuitablefortime-sensitiveandinteractivemicroblogapplications.Aimingatthisproblem,weimproveLDAthree-tiermodelan

6、dthegibbssamplingalgorithmtrainingforLDA.(1)Takingintoaccounttheinfluenceofamicroblogauthoronforwarderandfollower,weproposeC-LDAfour-tiermodel.(2)Useinformationofforwardandcommenttomeasurewordpopularity.(3)Takingadvantageofebbinghausforgettingcurve,calculatechangeswithtimeindocumentwei

7、ght.(4)Withacombinationoffeaturewordpopularity,userfeedbackonnegativesamples,forgettingcurve,GibbssamplingalgorithmisimprovedsothatitcanbeusedtoapproximatelysolveC-LDAmodel.Whencomputinglargevolumesofdata,Thestand-alonegibbssamplingalgorithm’stimecomplexityisveryhuge.OnHadoopplatform

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 52



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于c-lda的微博推荐算法

基于c-lda的微博推荐算法

相关文章

相关标签