某电信经营分析与决策支持系统数据挖掘分析.doc

某电信经营分析与决策支持系统数据挖掘分析.doc

ID:56144528

大小:331.50 KB

页数:12页

时间:2020-03-17

某电信经营分析与决策支持系统数据挖掘分析.doc_第1页
某电信经营分析与决策支持系统数据挖掘分析.doc_第2页
某电信经营分析与决策支持系统数据挖掘分析.doc_第3页
某电信经营分析与决策支持系统数据挖掘分析.doc_第4页
某电信经营分析与决策支持系统数据挖掘分析.doc_第5页
资源描述:

《某电信经营分析与决策支持系统数据挖掘分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、XX电信经营分析与决策支持系统二期数据挖掘分析1前言小灵通用户是XX电信企业利润的主要来源之一,也是市场竞争的焦点。在目前的市场形势下,发展新客户的成本远远大于留住已有客户的成本。因此加强对小灵通用户的营销和服务工作,减少小灵通用户的流失,是XX电信的重要任务。目前在XX电信经营分析与决策支持系统中,存在对离网小灵通数据的事后分析,但是这样的分析无法做到提前预警,挽留用户。利用数据挖掘技术则可以发现离网小灵通用户的潜在模式,提前进行预测,从而变被动服务为主动服务。CRISP—DM(cross-industrystandardprocessfordatamin

2、ing)是一个跨行业的、以用户为中心,交互式的数据挖掘标准流程,是目前数据挖掘领域内较成熟的方法论。它将数据挖掘过程分为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署等6个阶段。本挖掘分析遵循数据挖掘标准流程,讨论小灵通用户流失预测模型建立的方法和过程,并对预测结果进行分析,以帮助业务人员及时、准确地做出针对性营销服务。2后付费小灵通用户离网预测2.1理解商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本挖掘分析的目标确定为:针对目前在网的后付费小灵通数据进行离网概率的预测。该目标涉及后付费小灵通用户和离网两个概念。其中,后

3、付费小灵通在业务系统中已有标识;离网的用户定义为主动及被动拆机用户。2.2数据理解数据理解的任务是对原始数据进行收集和熟悉,检查数据质量,对数据进行初步探索,并发现可能存在的、有分析价值的数据特征,以形成对隐藏信息的假设。1.1.1研究对象选取以全省2007年1月离网的后付费小灵通用户为研究对象,同时选取同期在网的后付费小灵通用户作为对照研究对象。确定离网时间点为2007年1月,因此对后付费小灵通用户从2006年7月至12月共6个月的相关变量进行研究。离网用户的选取:选取2006年7月前入网,2007年1月内拆机的用户,共选出满足条件的用户31862名。在网

4、客户的选取:2006年7月前入网,2007年1月31日状态为正常的后付费小灵通用户共1805006名。同时,为避免一些偏差数据的影响,在用户的选择中屏蔽了公免后付费小灵通用户。1.1.2变量选取基本假设:后付费小灵通用户的行为在年度上不存在强的季节性,即后付费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份(季度)而发生较大变化。根据对业务的理解,选定以下3方面的变量进行数据理解:1.后付费小灵通用户产品订购数据:主要反映用户与服务商关系的数据,如产品类型、在网时长、订购增值业务信息、是否加入套餐等。2.用户消费行为特征数据:主要通过用户每月帐

5、务数据反映,且这类数据可以从平均水平和变动情况2个方面来反映。本挖掘分析采用离网时间前6个月,用户的帐务数据变化情况来反映用户消费行为的变动。主要数据包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占总费用的比例、6个月总收入波动率((最大收入-最小收入)/平均收入)等3.用户其他行为特征数据:如欠费时长、累计欠费金额等。1.2数据准备数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理。首先按照选取的数据范围和变量生成数据,如下图结构:在Clementine中对数据进行实例化分

6、析,数据结果如下所示1.后付费小灵通用户产品订购数据:主要反映用户与服务商关系的数据,如产品类型、在网时长、订购增值业务信息、是否加入套餐等。此部分数据来自于97系统用户资料,经检测,除入网时长外,这些数据准确度较高,无缺失值和偏差值。从上图可看出,入网时长取值范围为6个月到24071个月,很明显,存在错误数据。故将超过入网时长在180个月(15年)以上的用户(共3314个),定义为入网时长180个月。因总数据量大,此操作直接在数据库中进行。2.用户消费行为特征数据:主要包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占

7、总费用的比例、6个月总收入波动率((最大收入-最小收入)/平均收入)等。经数据质量核查,发现有部分用户6个月收入都为0。这些数据(共88322条记录)中,绝大部分是由于97、计费系统资料不统一造成,少量是由于用户长期欠费,造成停机,不产生费用。这些数据由于特征值相同,对模型会造成偏差影响,故直接删除这些数据。3.用户其他行为特征数据:如欠费时长、累计欠费金额等,经核查,数据较准确,不进行任何处理。进行上述处理后,数据质量报告如下:1.1建立模型在建立模型过程中,将根据实际模型的效果对变量做进一步的筛选和处理,既保证模型准确率,又尽量减少最终模型输入的变量,便

8、于业务解释。离网预测模型的准确率,在技术上主要包含预

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。