大型内容推荐系统实践蔡迎东

大型内容推荐系统实践蔡迎东

ID:36774536

大小:3.23 MB

页数:51页

时间:2019-05-15

大型内容推荐系统实践蔡迎东_第1页
大型内容推荐系统实践蔡迎东_第2页
大型内容推荐系统实践蔡迎东_第3页
大型内容推荐系统实践蔡迎东_第4页
大型内容推荐系统实践蔡迎东_第5页
资源描述:

《大型内容推荐系统实践蔡迎东》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Hadoop在大型内容推荐系统中的应用蔡迎东QQ:1170625333Weibo:蔡王仔分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作背景需求网易门户新闻数量急剧膨胀,但是新闻利用率很低:网易门户每天新发布的文章数量约为10万篇,但是有PV的文章不足10%。大量的文章成为长尾而沉没,得不到展示的机会。用户期望在web端和移动端能即时快捷地看到自己感兴趣的文章和话题。背景面临的挑战用户访问量大,每天产生的原始日志文件大小约为500G,日志数量约为10亿多条。文章数量大,系统每天新增约10

2、万篇文章,2万个左右的图片和短视频。时效性要求高,热点新闻发布后需要迅速在推荐区域推荐出来以及Push到移动端。分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作推荐效果实例1-奥运个性化新闻推荐奥运期间的体育个性化新闻推荐推荐效果实例1-奥运个性化新闻推荐不邻近的编辑推荐区的绝对PV对比图推荐效果实例1-奥运个性化新闻推荐不邻近的编辑推荐区的日均PV对比位置上线前上线后相对PV(上线前/日均PV日均PV上线后)系列1131378,24659.6系列2105055,59352.9系列37186

3、5,81891.7综合来看,处于页面板块下方的个性化推荐区域的PV接近或者超过了上方的两块编辑推荐区,推荐区域日均PV的增长速度约为编辑推荐区的1.63倍。推荐效果实例2-邮箱首页个性化新闻推荐网易邮箱首页的个性化新闻推荐编辑推荐区系统推荐区推荐效果实例2-邮箱首页个性化新闻推荐不左侧的编辑推荐区的绝对PV对比推荐效果实例2-邮箱首页个性化新闻推荐不左侧的编辑推荐区的日均PV对比相对PV位置(上线后/上线前)编辑推荐区9.31个性化推荐区13.15上线后个性化推荐区域的PV增长较快,为左侧的编辑推荐区域的增长速度的1.41倍。上线前个性化推荐区

4、的排行榜约占全部邮箱新闻PV的27.4%,上线后个性化推荐区占总PV比提高至35.6%。分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作技术选型基于内容的推荐系统对用户(User)和物品(Item)分别建模。计算物品和用户的模型的相似度。把和用户的模型相似度最高的物品推荐给用户。基于协同过滤的推荐系统与系统的业务无关。不是根据用户和物品本身的属性,而是根据用户的访问记录来挖掘出相似度。技术选型协同过滤的优点业务无关算法实现和基础数据采集相对简单业界广泛采用,比如电商网站但是…

5、…技术选型考虑到新闻自身的特点,放弃协同过滤协同过滤是基于访问记录进行推荐,只有被人访问过的文章才能被推荐出来,这对时效性要求比较高的新闻推荐是严重的缺陷。新闻的生命周期很短,会造成访问记录的极度稀疏,这给根据访问记录来计算相似性带来了很大的困难。技术选型的结果新闻推荐基于内容的推荐图集和视频推荐基于协同过滤的推荐分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作系统总体架构门户日志门户新闻服务器发布后台用户访问日志新发布的文章用户行为文本分类分析集群集群文章分类信息用户兴趣模型文章分类

6、信息推荐服务后台集群推荐候选集推荐服务前台集群文章推荐用户用户行为分析集群从门户的用户访问日志中挖掘出用户的兴趣,构建用户的兴趣模型。采用Hadoop&Hive作为数据挖掘工具。描述用户兴趣的粒度Tag(标签)门户全站的文章涉及的范围很广,用关键词或标签来描述用户的兴趣显得太细。Category(类别)对全站的频道进行细分,每个频道进一步划分成多个类别。用户兴趣的粒度以类别为主。Topic(话题)对文章数量较大的类别,采用介于标签和类别之间的话题对类别进行进一步的细分。用户兴趣模型的表示-用户兴趣向量用户兴趣向量用户兴趣向量的维度是文

7、章的类别。每一维的值表示用户对这一类文章的兴趣比重。国内财经汽车用户兴趣向量(20%,20%,60%)对国内文章对财经文章对汽车文章的兴趣比重的兴趣比重的兴趣比重占20%占20%占60%用户兴趣向量计算的演进最初的计算斱法:以用户的点击分布作为用户的兴趣向量用interestuc(,)表示用户u对类别为c的文章的兴趣,iiDuc(,)表示用户u的点击分布中维度为c的值,iiNuc(,)iinterestuc(,)Duc(,),iiNu()其中:Nuc(,)用户u点击过的类别为c的文章数iiNu()用户u点击过的文章总数用户兴趣向量计算的演进

8、以点击分布作为兴趣向量的问题在奥运期间推荐区域效果显著,但是在奥运结束后一段时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。