用户画像的流程、方法.pdf

用户画像的流程、方法.pdf

ID:48057689

大小:1.31 MB

页数:18页

时间:2019-10-15

用户画像的流程、方法.pdf_第1页
用户画像的流程、方法.pdf_第2页
用户画像的流程、方法.pdf_第3页
用户画像的流程、方法.pdf_第4页
用户画像的流程、方法.pdf_第5页
资源描述:

《用户画像的流程、方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、干货请收好:终于有人把用户画像的流程、方法讲明白了原创:马海平于俊等大数据导读:用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需求。往往对产品做了很多功能的升级,用户却觉得体验变差了。在大数据领域,用户画像的作用远不止于此。用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标签化以后,我们对用户就有了一个直观的认识。同时计算机

2、也能够理解用户,将用户的行为信息用于个性化推荐、个性化搜索、广告精准投放和智能营销等领域。作者:马海平于俊吕昕向海本文摘编自《Spark机器学习进阶实战》,如需转载请联系我们01概述用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。这些标签集合就能抽象出一个用户的信息全貌,如图10-1所示是某个用户的标签集合,每个标签分别描述了该用户的一个维度,各个维度之间相互联系,共同构成对用户的一个整体描述。▲图10-1用户标签集合02用户画像流程1.整体流程我们对构建用户画

3、像的方法进行总结归纳,发现用户画像的构建一般可以分为目标分析、体系构建、画像建立三步。画像构建中用到的技术有数据统计、机器学习和自然语言处理技术(NLP)等,如图10-3所示。具体的画像构建方法会在本章后面的部分详细介绍。▲图10-3用户画像的构建技术2.标签体系目前主流的标签体系都是层次化的,如下图10-4所示。首先标签分为几个大类,每个大类下进行逐层细分。在构建标签时,我们只需要构建最下层的标签,就能够映射到上面两级标签。上层标签都是抽象的标签集合,一般没有实用意义,只有统计意义。例如我们可以统计有人口属性标签的

4、用户比例,但用户有人口属性标签本身对广告投放没有任何意义。▲图10-4互联网大数据领域常用标签体系用于广告投放和精准营销的一般是底层标签,对于底层标签有两个要求:一个是每个标签只能表示一种含义,避免标签之间的重复和冲突,便于计算机处理;另一个是标签必须有一定的语义,方便相关人员理解每个标签的含义。此外,标签的粒度也是需要注意的,标签粒度太粗会没有区分度,粒度过细会导致标签体系太过复杂而不具有通用性。表10-1列举了各个大类常见的底层标签。标签类别标签内容人口标签性别、年龄、地域、教育水平、出生日期、职业、星座兴趣特征

5、兴趣爱好、使用APP/网站、浏览/收藏内容、互动内容、品牌偏好、产品偏好社会特征婚姻状况、家庭情况、社交/信息渠道偏好消费特征收入状况、购买力水平、已购商品、购买渠道偏好、最后购买时间、购买频次▲表10-1:常见标签最后介绍一下各类标签构建的优先级。构建的优先级需要综合考虑业务需求、构建难易程度等,业务需求各有不同,这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系,优先级如图10-5所示。▲图10-5各类标签的构建优先级基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或

6、通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。事实标签的构造过程,也是对数据加深理解的过程。对数据进行统计的同时,不仅完成了数据的处理与加工,也对数据的分布有了一定的了解,为高级标签的构造做好了准备。模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签。模型标签的构造大多需要用到机器学习和自然语言处理技术,我们下文中介绍的标签构造方法主要指的是模型标签,具体的构造算法会在本文第03

7、章详细介绍。最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。03构建用户画像我们把标签分为三类,这三类标签有较大的差异,构建时用到的技术差别也很大。第一类是人口属性,这一类标签比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;第二类是兴趣属性,这类标签随时间变化很快,标签有很强的时效性,标签体系也不固定;第三类是地理属性,这一

8、类标签的时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新,挖掘的方法和前面两类也大有不同,如图10-6所示。▲图10-6三类标签属性1.人口属性画像人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等。这些标签基本是稳定的,构建一次可以很长一段时间不用更新,标签的有效期都在一个月以上。同时标

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。