当前位置:文档之家› 基于数据挖掘的移动客户离网预警分析

基于数据挖掘的移动客户离网预警分析

龙源期刊网 https://www.doczj.com/doc/c14027001.html,

基于数据挖掘的移动客户离网预警分析

作者:王志楠

来源:《科学与财富》2018年第07期

摘要:及时识别具有离网倾向的客户对于宽带运营商具有十分重要的意义。本文以某市移动公司为例,针对不平衡移动数据,采用人工合成少数类过采样算法(SMOTE)进行重抽样,而后采用决策树、Adaboost两种分类算法构建离网预警模型,最终选取分类精度最高的SMOTE样本与Adaboost算法组合模型作为移动宽带客户离网预警模型,并据此为运营商提出相应建议。

关键字:不平衡样本;重抽样;Adaboost;离网预警模型

一、引言

随着“宽带中国”战略的实施,宽带建设已上升为国家战略性公共基础设施建设工程。宽带业务市场蒸蒸日上的同时,想要保持并扩大市场占有率和利润,宽带运营商必须在争取新客户的同时,也致力于保留既有用户。因此,建立宽带离网预警模型来准确有效地识别出“预离网”用户,根据特定用户的需求制定出个性化的营销方案,有效挽回客户显得尤为重要。然而,移动宽带客户行为数据存在在网客户和离网客户比例严重失衡,对不平衡的宽带离网用户数据进行重抽样则尤为必要。本文将运用人工合成少数类过抽样方法进行重抽样,以平衡移动宽带离网用户和在网用户数,在此基础上,通过决策树、Adaboost两种分类算法,构建移动宽带用户离网预警模型,发掘引致用户离网的重要因素。

二、移动宽带用户离网数据预处理

1、指标选取及数据预处理

移动宽带离网数据量较大,数据复杂程度较高,因此对移动宽带离网数据进行数据预处理是极为必要的。本文所用数据来自2017年1-3月某省移动公司宽带用户数据库,包括1-3月内某市的部分宽带在网及离网用户信息,共计306100条,提取的变量主要涵盖客户基本信息、宽带消费情况、与宽带关联的手机号码消费特征,涉及的变量有42个,主要为三大类:客户基本信息、宽带消费情况、手机消费特征。经过指标变换、异常值处理及缺失值处理后,共保留22个变量,305905条用户数据,其中在网客户30万条,离网客户5905条,

2、不平衡样本抽样

由于移动宽带离网离网用户中,在网用户数据约30万,而离网用户数据仅有5000左右,存在比例的严重失衡,为了提高模型估计精度,需对不平衡样本进行重抽样使离网与在网客户数达到平衡。本文采用SMOTE合成少数类过采样算法,最终抽得154711条。

相关主题
文本预览
相关文档 最新文档