大数据CPDA考试模拟样题—数据分析应用.pdf

大数据CPDA考试模拟样题—数据分析应用.pdf

ID:47996994

大小:396.30 KB

页数:5页

时间:2020-01-11

大数据CPDA考试模拟样题—数据分析应用.pdf_第1页
大数据CPDA考试模拟样题—数据分析应用.pdf_第2页
大数据CPDA考试模拟样题—数据分析应用.pdf_第3页
大数据CPDA考试模拟样题—数据分析应用.pdf_第4页
大数据CPDA考试模拟样题—数据分析应用.pdf_第5页
资源描述:

《大数据CPDA考试模拟样题—数据分析应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、考试模拟样题—数据分析应用一.计算题(共2题,100.0分)1.移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。为此,移动公司收集了下列数据,移动公司收集到的数据包含下列字段:变量名称变量标签Customer_ID用户编号工作日上班时Peak_mins间电话时长工作日下班时OffPeak_mins间电话时长Weekend_mins周末电话时长International_mins国际电话时长Total_mins总通话时长平均每次通话average_mins时长data-移动用户细分聚类.xlsx

2、请你根据这些客户数据,进行数据的预处理(数据预处理过程中可以根据现有变量构造新变量进行分析),预处理之后选择合适变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,将客户分为5类。并为移动公司提供客户精准营销的相关建议。(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)正确答案:分析过程:根据题目可以选取聚类方法对客户进行细分,这里选取k-means聚类方法进行分析。1.对数据进行预处理,主要查看数据的相关性,通过查看相关系数矩阵看到peak_mins和total_mins相关性很高,所以对变量进行了处理,只选取其中一个,然后构造

3、一个新的变量peak_mins/total_mins,对这些变量进行聚类分析,由于新构造的变量取值与其他变量取值范围相差较大,因此,在聚类分析时,选择标准化处理之后的数据进行聚类(datahoop可以在分析时默认进行标准化处理);2.对数据进行聚类分析,选取变量为:peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins。3.根据聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据。4.得到聚类分析描述结果为:(卷面上可以不用加颜色,列出

4、数据即可,可以选择标准化之后数据,也可以选择标准化之前数据进行描述统计,这里选取了标准化之前的数据)1.从图中可以看出,第一类用户几乎所有指标都最高,只有平均通话时长较低,因此第一类用户属于高端商用用户;第二类用户在所有指标上属于中等偏上,所以第二类用户属于中高等商用用户;第三类用户在所有指标上处于中等水平,所以第三类用户属于中等商用用户;第四类用户只在平均通话时长上高,其他指标均偏低,说明第四类用户属于常聊用户;第五类用户在所有指标上均较低,因此第五类用户属于低端用户。1.移动公司可以针对这五种用户推荐不同的套餐,高端用户推荐各项指标偏高,套餐费用也偏高的套餐;中端用户和

5、中高端用户可以较高端用户偏低一点进行套餐推荐,常聊用户可以推荐符合常聊特点的套餐,比如通话次数优惠类套餐,低端用户可以推荐资费便宜的套餐。2.通过游戏用户相关行为数据预测用户是否会付费某游戏公司,根据收集的2016年上半年的用户行为数据对用户是否会付费进行预测,根据预测结果对可能付费用户进行精准营销。该公司一共收集了用户的编号,以及用户的注册时间和最后一次登录时间,以及用户退出时的等级还有用户是否付费等数据。数据及数据类型解释游戏训练数据.xlsx游戏测试数据.xlsx游戏预测数据.xlsx请根据原始数据,对数据进行预处理(包括对类别型变量进行数值化处理、重新构造新的变量)

6、,然后根据原始数据,自行选择变量和分析算法进行分析(数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格,表名为:测试数据结果计算,只需把测试结果拷贝到第二类数下面,相应的指标即可计算出来),写出分析过程和思路,并且根据模型进行预测。正确答案:解析:根据题目选用分类算法对游戏用户是否付费进行分析1.数据预处理:从原始数据中可以看出leve_end,is_payer,active_days,avg_session_cnt这几个变量可以直接选入进行分析,对于install_date和last_login_date由于是日期型数据,

7、因此选择用last_login_date-install_date得到的相差的天数来代表游戏用户的活跃时长。Os是文本型,因此需要提前进行处理,转化为数值型数据,本次处理把取值设为:Androidios10原始数据不存在缺失值,通过描述分析原始数据发现付费玩家和非付费玩家数据比例为0.87:1,因此样本比较均衡,不需要调整样本。1.数据分析:由于采用分类算法进行分析,样本比较均衡,因此可以采用逻辑回归进行分析,也可以采用神经网络进行分析。可自行选取。本次采用给定的训练集数据进行数据分类分析。2.根据样本的测试集数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。