欢迎来到天天文库
浏览记录
ID:36774536
大小:3.23 MB
页数:51页
时间:2019-05-15
《大型内容推荐系统实践蔡迎东》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Hadoop在大型内容推荐系统中的应用蔡迎东QQ:1170625333Weibo:蔡王仔分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作背景需求网易门户新闻数量急剧膨胀,但是新闻利用率很低:网易门户每天新发布的文章数量约为10万篇,但是有PV的文章不足10%。大量的文章成为长尾而沉没,得不到展示的机会。用户期望在web端和移动端能即时快捷地看到自己感兴趣的文章和话题。背景面临的挑战用户访问量大,每天产生的原始日志文件大小约为500G,日志数量约为10亿多条。文章数量大,系统每天新增约10
2、万篇文章,2万个左右的图片和短视频。时效性要求高,热点新闻发布后需要迅速在推荐区域推荐出来以及Push到移动端。分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作推荐效果实例1-奥运个性化新闻推荐奥运期间的体育个性化新闻推荐推荐效果实例1-奥运个性化新闻推荐不邻近的编辑推荐区的绝对PV对比图推荐效果实例1-奥运个性化新闻推荐不邻近的编辑推荐区的日均PV对比位置上线前上线后相对PV(上线前/日均PV日均PV上线后)系列1131378,24659.6系列2105055,59352.9系列37186
3、5,81891.7综合来看,处于页面板块下方的个性化推荐区域的PV接近或者超过了上方的两块编辑推荐区,推荐区域日均PV的增长速度约为编辑推荐区的1.63倍。推荐效果实例2-邮箱首页个性化新闻推荐网易邮箱首页的个性化新闻推荐编辑推荐区系统推荐区推荐效果实例2-邮箱首页个性化新闻推荐不左侧的编辑推荐区的绝对PV对比推荐效果实例2-邮箱首页个性化新闻推荐不左侧的编辑推荐区的日均PV对比相对PV位置(上线后/上线前)编辑推荐区9.31个性化推荐区13.15上线后个性化推荐区域的PV增长较快,为左侧的编辑推荐区域的增长速度的1.41倍。上线前个性化推荐区
4、的排行榜约占全部邮箱新闻PV的27.4%,上线后个性化推荐区占总PV比提高至35.6%。分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作技术选型基于内容的推荐系统对用户(User)和物品(Item)分别建模。计算物品和用户的模型的相似度。把和用户的模型相似度最高的物品推荐给用户。基于协同过滤的推荐系统与系统的业务无关。不是根据用户和物品本身的属性,而是根据用户的访问记录来挖掘出相似度。技术选型协同过滤的优点业务无关算法实现和基础数据采集相对简单业界广泛采用,比如电商网站但是…
5、…技术选型考虑到新闻自身的特点,放弃协同过滤协同过滤是基于访问记录进行推荐,只有被人访问过的文章才能被推荐出来,这对时效性要求比较高的新闻推荐是严重的缺陷。新闻的生命周期很短,会造成访问记录的极度稀疏,这给根据访问记录来计算相似性带来了很大的困难。技术选型的结果新闻推荐基于内容的推荐图集和视频推荐基于协同过滤的推荐分享内容背景推荐效果技术选型技术实现推荐系统的评测Hadoop&Hive使用经验下一步工作系统总体架构门户日志门户新闻服务器发布后台用户访问日志新发布的文章用户行为文本分类分析集群集群文章分类信息用户兴趣模型文章分类
6、信息推荐服务后台集群推荐候选集推荐服务前台集群文章推荐用户用户行为分析集群从门户的用户访问日志中挖掘出用户的兴趣,构建用户的兴趣模型。采用Hadoop&Hive作为数据挖掘工具。描述用户兴趣的粒度Tag(标签)门户全站的文章涉及的范围很广,用关键词或标签来描述用户的兴趣显得太细。Category(类别)对全站的频道进行细分,每个频道进一步划分成多个类别。用户兴趣的粒度以类别为主。Topic(话题)对文章数量较大的类别,采用介于标签和类别之间的话题对类别进行进一步的细分。用户兴趣模型的表示-用户兴趣向量用户兴趣向量用户兴趣向量的维度是文
7、章的类别。每一维的值表示用户对这一类文章的兴趣比重。国内财经汽车用户兴趣向量(20%,20%,60%)对国内文章对财经文章对汽车文章的兴趣比重的兴趣比重的兴趣比重占20%占20%占60%用户兴趣向量计算的演进最初的计算斱法:以用户的点击分布作为用户的兴趣向量用interestuc(,)表示用户u对类别为c的文章的兴趣,iiDuc(,)表示用户u的点击分布中维度为c的值,iiNuc(,)iinterestuc(,)Duc(,),iiNu()其中:Nuc(,)用户u点击过的类别为c的文章数iiNu()用户u点击过的文章总数用户兴趣向量计算的演进
8、以点击分布作为兴趣向量的问题在奥运期间推荐区域效果显著,但是在奥运结束后一段时
此文档下载收益归作者所有