当前位置:文档之家› 基于混合模型的电信客户流失预测方法研究

基于混合模型的电信客户流失预测方法研究

分类号密级

UDC1注

学位论文

基于混合模型的电信客户流失预测方法研究

(题名和副题名)

冉建荣

(作者姓名)

指导教师姓名邵培基教授

电子科技大学成都

(职务、职称、学位、单位名称及地址)

申请专业学位级别硕士专业名称管理科学与工程

论文提交日期2009.05 论文答辩日期2009.06

学位授予单位和日期电子科技大学

答辩委员会主席

评阅人

2009年月日

注1:注明《国际十进分类法UDC》的类号。

独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

签名:日期:年月日

关于论文使用授权的说明

本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后应遵守此规定)

签名:导师签名:

日期:年月日

摘要

摘要

针对当前电信行业严重的客户流失问题,文章在以前研究的基础上,以构建稳定性好、精确度高的客户流失预测模型为目标,基于C5.0、Neural Net、Logistic 和SVM四种基本算法,从以下四个方面做了深入研究,并得到一套适合于省级电信运营企业的客户流失预测解决方案。

采用编码方法生成衍生变量提升客户流失预测模型的预测效果。在以前的研究中,流失预测模型的预测变量集一般都直接来自于客户数据库字段或经过简单计算得到,这些变量不能跟踪客户消费行为变化对客户流失倾向的影响。鉴于此,本文采用编码的方法跟踪客户消费行为的变化,并生成衍生变量作为预测变量集的部分变量,通过与不含这些衍生变量的变量集数据进行对比研究,结果表明:含有这些衍生变量的变量集的预测效果更好。

提出基于不同细分标准的客户流失预测混合模型构建方法。由于省级电信运营企业客户数达到千万级,各个地区的营销策略有很大差异,并且客户的品牌、消费额、网龄等都有很大的不同。由于同类客户往往具有相同的消费倾向,有必要选取不同的细分变量将客户分成不同的客户子集,从而构建客户流失预测混合模型。通过实证结果表明,以地区为客户细分变量的混合模型预测效果最佳,以账单为客户细分变量的混合模型预测效果其次,以网龄和品牌为客户细分变量的混合模型预测效果较差的结论。

提出能够提高客户流失预测效果的最优模型投票(VBBA)方法。对于电信客户流失预测问题,由于流失客户相对于非流失客户来说比例很小,这种比例的失衡通常会污染模型,导致模型预测效果大幅下降。本文提出采用最优模型投票方法来解决此问题,通过实证研究结果表明:最优模型投票方法优于任何单一模型的预测效果,是一种稳定可靠的提升客户流失预测效果的方法。

通过对准确率、命中率、收益图、提升图和ROC曲线等多种分类评估方法的比较分析和实证研究,结果表明:ROC曲线用于多个电信客户流失预测模型的比较评估时,具有图形直观、综合性强和评估结果唯一的优点。因此,建议采用ROC 曲线进行电信客户流失预测模型的评估。

关键词:客户关系管理,客户流失,编码方法,混合模型,最优算法投票

I

ABSTRACT

ABSTRACT

Aims to Customer churn prediction problem of Telecommunications Industry. The paper is based on previous studies. The author focus on stable and accurate customer churn prediction model with four basic algorithms(C5.0, Neural Net, Logistic and SVM)from four aspects. Finally, an efficient customer churn prediction scheme is produced which are fit for provincial telecom operators.

Use derived variables based on coding methods to improve effect of customer churn prediction model. In previous studies, prediction variable set is from customer database or calculated variables. The variables don’t track relationship between customer consumption behavior change and customer churn tend. So the author introduces coding method to generate some of prediction variables. The empirical research results show that effect of prediction variable set containing with these derived variables is better than prediction variable set without containing derived variables.

A new method for constructing customer churn prediction hybrid model is proposed. Because provincial telecom operators customers quantity is more than ten millions, various branch implement different marketing strategy, and brands of customers、account bills of customers and duration of customers are also different . Usually the same type of customer has similar consumption behavior. So it is necessary to construct customer churn prediction hybrid model based on different segmentation variables. The empirical research results show that prediction model of using branch as segmentation variable is best; and prediction model of using account bill as segmentation variable is secondary; and prediction model of using duration or brand as segmentation variable is worst.

V oting Based on the Best Arithmetic(VBBA)method is proposed to improve effect of customer churn prediction. In telecom customer churn prediction problem, customer churn rate is a very small proportion, usually that will pollute prediction model and lead to reduce prediction effect. The author uses VBBA method to solve the problem. The empirical research results show that the prediction effect of VBBA method is better than any single arithmetic model, so VBBA method is effectual to lift prediction precision of

III

ABSTRACT

customer churn in telecom customer churn management.

ROC curve is recommended to assess telecom customer churn prediction models. The author uses five assessment methods (accuracy, hit rate, gain graphics, lift graphics and ROC curve) to empirical research. The results show that ROC curve is the most excellent. It has three advantages: visual, integrated and exclusive.

Keywords: customer relationship management, customer churn, coding method, hybrid model, voting based on the best arithmetic

IV

目录

第一章绪论 (1)

1.1 研究目的及意义 (1)

1.2 研究内容及方法 (2)

1.3 研究的创新点 (4)

1.4 研究思路 (4)

第二章客户流失预测理论基础 (5)

2.1 客户关系管理 (5)

2.1.1客户关系管理概念 (5)

2.1.2 客户关系管理核心思想 (6)

2.1.3 客户关系管理应用系统 (7)

2.2 客户流失管理 (9)

2.2.1 客户流失管理概念及分类 (9)

2.2.3 客户流失预测模型 (10)

2.2.4 客户流失管理战略 (11)

2.3 数据挖掘 (12)

2.2.1 数据挖掘概念 (12)

2.2.2 数据挖掘分类技术 (13)

2.2.3 数据挖掘过程模型 (20)

2.4 本章小结 (22)

第三章电信客户流失预测现状分析 (23)

3.1 电信客户流失预测研究现状分析 (23)

3.1.1 传统分类方法 (23)

3.1.2 人工智能分类方法 (24)

3.1.3 预测变量选取方法分析 (25)

3.1.4 预测模型评估方法分析 (26)

3.2 YN公司客户流失管理现状分析 (29)

3.3 电信客户流失预测综合治理方案的提出 (31)

V

3.4 本章小结 (31)

第四章客户流失预测变量集的生成方法 (33)

4.1生成流失预测变量的一般方法 (33)

4.2生成流失预测变量的新方法 (34)

4.2.1 数据来源 (34)

4.2.2 直接选取或简单计算得到变量 (34)

4.2.3 采用编码方法生成衍生变量 (35)

4.3 比较研究 (37)

4.3.1 两个预测变量集 (37)

4.3.2 建模方法 (38)

4.3.3 结果评估 (38)

4.3.4 结论 (44)

4.4 本章小结 (44)

第五章基于不同细分标准的客户流失预测混合模型 (46)

5.1 混合模型类型 (46)

5.1.1 完整数据方法 (46)

5.1.2 部分数据方法 (47)

5.2 不同细分标准的混合模型比较研究 (47)

5.2.1 研究数据及细分标准 (47)

5.2.2 基本模型选择 (48)

5.2.3 混合模型构建 (48)

5.2.4 结果评估 (52)

5.2.5 结论 (53)

5.3 本章小结 (54)

第六章提升客户流失预测效果的VBBA方法 (55)

6.1 VBBA方法的提出 (55)

6.2 实证研究 (56)

6.2.1 数据来源 (56)

6.2.2 单个模型用于客户流失预测 (56)

6.2.3 VBBA方法用于客户流失预测 (57)

6.2.4 比较评估 (60)

6.2.5 结论 (60)

VI

6.3 本章小结 (61)

第七章总结和展望 (62)

7.1 研究总结 (62)

7.2 研究展望 (63)

致谢 (65)

参考文献 (66)

硕士研究生期间的研究成果 (70)

VII

第一章绪论

第一章绪论

1.1 研究目的及意义

客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务[1]。在全球电信业自由化与国际化的发展趋势下,各国电信业市场竞争日益激烈,客户流失率一直处于较高水平。据估计全球电信业平均每月客户流失率约为2.2%。而在国内,中国移动某省公司2008年月均客户流失率更是高达4.66%。客户流失率的居高不下,给电信运营企业带来很多不利影响,主要体现在以下六个方面:

(1) 收入损失

这是客户流失导致的最直接后果。因大量客户不再使用公司的服务,这将直接导致公司收入的损失,从这部分客户身上赚取利润更无从谈起。

(2) 客户保留成本

那些先发制人的公司首先发起各种活动来防止客户离开。通过这些倡导忠诚或保持力的活动,公司可以提出服务建议或创建客户关系体验,防止客户流失。这些活动当然会产生客户保留成本。

(3) 重获成本

不管做了多大努力防止客户流失,还是会不可避免地会失去某些客户,使其落入竞争者之手。当这些情况发生的时候,他们通常认为可以开展重新获取客户的活动,把客户争取回来。这些活动也通常能够取得成功,但是重新获取客户的活动本身会产生费用。

(4) 广告升级

当客户流失发生时,电信运营企业另一种措施是加大广告投入,力求让公司比竞争对手在客户身边有更多的“曝光时间”。但当竞争对手也以同样的方式应对时,高额的广告战就此不断升级,广告投入不断攀升。

(5) 组织混乱

当客户流失发生时,由于大多数电信运营企业没有做好面对其影响的准备,在处理客户流失带来的种种麻烦时,通常会遭遇失败的情况,这对人员、工作及组织都会造成损害。

(6) 投资人关系责任

1

电子科技大学硕士学位论文

客户流失会使投资人对公司的信心产生影响。当客户流失发生时,若未能果断而可靠地应对客户流失现象,这会降低投资机构对公司的评级。

因此,为避免客户流失对公司带来的严重后果,各电信运营企业纷纷提出由“生产型”企业向“利润型”企业转变的战略转型,将更多的精力从发展增量客户转移到维系存量客户。如何提供最合乎客户需求的产品和服务,如何建立长久而持续的关系,以留住客户,减少流失率成为各电信运营企业关注的焦点。

客户流失管理主要包括预测可能流失的客户,客户收益的评估及减少客户流失的客户保持策略及方法等几方面[2]。其中,要实施科学合理的客户流失管理,准确预测出未来一段时间可能流失的客户列表是最为关键的一个步骤。20世纪90年代以来,以传统统计学方法、人工智能方法、计算机存储以及可视化技术研究成果为基础,不少学者在客户流失预测方面的研究取得了丰富的成果,对电信行业客户流失管理起到了一定的推动作用,但如何合理设计预测变量、不断提高预测模型稳定性和精确度始终是客户流失预测研究人员不断追求的目标。

本研究正是基于目前电信运营企业关注的这样一个焦点课题,以中国移动YN 公司的客户流失管理需求为依托,采用多种技术构建客户流失预测混合模型,得到一套有效的省级电信运营企业客户流失预测解决方案,这对指导电信运营企业更好的进行客户流失管理实践,完善客户关系管理系统具有重要意义。

1.2 研究内容及方法

基于目前较成熟的统计学和人工智能建模方法,选取决策树(decision tree)、逻辑回归(logistic regression)、人工神经网络(Artificial Neural Networks,ANN)和支持向量机(Support Vector Machine,SVM)作为基本研究算法,从预测变量的设计、混合模型的构建、预测模型评估方法、模型精度的提升措施等多方面进行实证研究,提出一套针对省级电信公司客户流失预测的较完整解决方案,如图1-1所示。

2

第一章绪论

3

···

···

···

图1-1 省级电信公司客户流失预测解决方案

具体来讲,本文主要对以下几个方面做了深入研究:

(1) 各种分类评估方法比较研究

比较了准确率、命中率、收益曲线、提升曲线和ROC曲线等分类评估方法。其中,准确率指标太过笼统,很难适应客户流失预测问题的评估;收益曲线和提升曲线在评估多个模型时,可能存在相互交织的现象,无法明确得知最优模型;相对来说,命中率和ROC曲线评估结果数值单一,适宜于单个模型或多个模型比较评估。本文在研究中主要选用命中率和ROC曲线对客户流失预测结果进行评估。

(2) 提出选取客户流失预测变量的新思路

在以前客户流失预测研究中,关于流失预测变量的选取上主要是基于客户数据仓库中的人口统计学数据、协议数据、消费行为数据、账单数据、客户服务数据等直接提取或用取平均值和离散化方式生成,未能将客户随时间推移的消费行为变化反映在预测变量中。本文采用编码方法将客户消费行为数据和账单数据编码产生新的衍生变量完善预测变量集,与传统预测变量集做对比研究,预测效果明显提升。

(3) 提出省级电信公司客户流失预测系统的构建思路

由于各省级电信公司客户数量非常庞大,各地市公司在营销活动、产品类别设计等方面有较大差异,同时,各地市文化和消费习惯等也有所不同,本文以地

电子科技大学硕士学位论文

域、品牌、账单、网龄等作为细分变量,在客户细分的基础上构建流失预测混合模型,并比较预测结果表明:当以地区为标准细分时的预测效果最好,以账单为细分标准的预测效果其次,以品牌和网龄为细分标准的预测效果较差。建议省级电信公司以客户消费层次作为细分标准,对各地区客户单独构建流失预测模型。

(4) 提出提升混合预测模型精度的VBBA方法

对于客户流失预测问题,由于客户数据中流失客户和非流失客户样本严重失衡,从而导致很多预测模型失灵;另外,单一的统计学模型或人工智能模型用于客户流失预测时,存在对不同数据集模型的适应性不同的问题。为了能够提高模型的稳定性和预测精度,本文提出最优算法投票方法(V oting Based on the Best Arithmetic,VBBA)来解决这一问题,通过实证结果表明该方法能够大幅提高客户流失预测效果。

1.3 研究的创新点

本文的创新点主要有以下三个方面:

(1)采用编码方法生成衍生变量完善客户流失预测变量集;

(2)指明了省级电信公司客户流失预测系统构建思路;

(3)提出了增强客户流失预测模型稳定性和精确度的VBBA方法。

1.4 研究思路

本研究按照如下顺序展开,共分为七章:

第一章对本研究的选题背景及意义、研究内容及方法和创新点进行了描述。

第二章对客户流失预测理论基础进行了阐述,主要涉及客户关系管理、客户流失管理、数据挖掘技术、数据挖掘方法论等。

第三章对电信行业客户流失预测研究现状进行了分析,并对中国移动YN公司客户流失管理现状进行了阐述,提出省级电信公司客户流失预测综合治理方案。

第四章通过采用编码方法生成衍生变量完善客户流失预测变量集,并对采用编码前后的变量集进行实证比较研究。

第五章基于不同细分标准构建省级电信运营企业客户流失预测混合模型并做实证研究,提出省级电信运营企业客户流失预测建模方法。

第六章提出可增强客户流失预测模型稳定性和精确度的VBBA方法并进行实证研究。

第七章对全文进行总结并提出进一步研究建议。

4

第二章客户流失预测理论基础

第二章客户流失预测理论基础

2.1 客户关系管理

2.1.1客户关系管理概念

客户关系管理(Customer Relationship Management,CRM)起源于西方的市场营销理论,最早是由Gartner Group提出并定义:CRM是一种商业策略,它按照客户的分类情况有效地组织企业资源,培养以客户为中心的经营行为以及实施以客户为中心的业务流程,并以此为手段来提高企业的盈利能力、利润以及客户满意度。从定义可以看出,“以客户为中心”是CRM的核心所在。其内涵主要包括三个方面:客户价值、关系价值和信息技术[3]。

(1) 客户价值

客户关系管理的目的是实现客户价值的最大化和企业收益的最大化之间的平衡。任何企业实施客户关系管理的初衷都是想为客户创造更多的价值,即实现客户与企业的“双赢”。坚持以客户为中心,为客户创造价值是任何客户关系管理战略必备的理论基石。为客户创造的价值越多,就越有可能增强客户的满意度,提高客户的忠诚度,从而实现与客户的维系,增加客户为企业创造的价值,使企业收益最大化。

(2) 关系价值

由于企业是以盈利为目的的组织,企业的最终目的是实现企业价值的最大化。因此,在建立客户关系时,企业必须考虑关系价值,即建立和维持特定客户的关系能够为企业带来更大的价值。从逻辑上讲,企业的总价值应该等于所有过去的、现在的或将来的客户的关系价值的总和。关系价值高所创造的利润就高,企业应该将精力放在这种客户身上。可以认为,关系价值是客户关系管理的核心,而管理关系价值的关键却在于对关系价值的识别、培养和维系。

(3) 信息技术

信息技术是客户关系管理的关键因素,没有信息技术的支撑,客户关系管理就只能停留在早期的关系营销阶段。正是因为信息技术的出现,使得企业能够有效地分析客户数据,积累和共享客户知识,根据不同客户的偏好和特性提供相应

5

的服务,从而提高客户价值。同时,信息技术也可以辅助企业识别具有不同关系价值的客户关系,针对不同的客户关系采用不同的策略,从而实现客户价值最大化和企业利润最大化之间的平衡。

2.1.2 客户关系管理核心思想

在当前的环境下,企业竞争的焦点已经从产品的竞争转向品牌的竞争、服务的竞争和客户的竞争。与客户建立和保持一种长期的、良好的伙伴关系,掌握客户资源、赢得客户信任、分析客户需求,提供满意的客户服务等客户关系管理的核心思想在实践中的具体运用是企业提高市场占有率,获取最大利润的关键。客户关系管理的核心思想主要体现在以下五个方面:

(1) 客户及客户关系是企业发展最重要的资源之一。

客户关系管理认为客户及客户关系是企业发展最重要的资源之一,是一种强调以客户为中心的管理理论。早期的管理理论认为企业资源是指土地、设备、资金等有形的资产,随后扩展到品牌、商标、专利等无形资产。而客户关系管理理论认为随着市场竞争的加剧,客户的选择对一个企业的命运有着至关重要的意义。因此,客户及客户关系也是维持企业生存和发展的重要资源,尤其是当前经济形式己从实物经济向服务经济转变,己从重视交易向重视关系转变。在实物经济的条件下,市场是以交易为导向的,企业主要依靠产品和企业的市场形象来吸引客户,而服务经济要求企业重视与客户之间的密切关系,强调客户忠诚,强调客户的终生价值。

(2) 客户让渡价值是建立高质量客户关系的基础。

客户让渡价值,是指客户购买产品或服务的总价值与客户购买该项产品或服务付出的总成本之间的差额[4]。客户购买的总价值指客户购买产品或服务时所获得或期望获得的利益总和,包括产品的价值、服务的价值、消费活动的价值和潜在价值等。客户购买总成本则指客户为购买该项产品和服务所消耗的货币、时间、精神和体力等成本的总和。企业只有实现了客户让渡价值的增值,才能保证客户真正满意,才能提高客户的忠诚度。因此,客户让渡价值成为企业建立、维持和增进客户关系的基础。

(3) 重视客户的个性化特征,实现一对一营销。

一对一营销是指企业根据客户的特殊需求来相应调整自己的经营策略的行为[5]。这是随着竞争的不断加剧,产品和服务的极大丰富,特别是信息工具和渠道的快

6

速发展,使得客户对产品和服务的选择范围不断扩大,选择能力不断提高,选择欲望也不断加强,从而使得客户的需求也呈现出个性化的特征。一对一营销要求企业与每一个客户建立一种伙伴型的关系,尤其是那些对企业最具有价值的“金牌客户”。企业通过与客户的交往不断加深对客户的了解,不断地改进产品和服务,从而满足客户的需求。

(4) 不断提高客户的满意度和忠诚度。

市场激烈竞争的结果,使得许多商品或服务在品质方面的区别越来越小,这种同质化的结果,使商品品质不再是客户消费选择的主要标准,客户越来越注重企业能否满足他们个性化的需求和能否提供及时的高质量服务。在企业越来越感觉到客户将是市场竞争至关重要的资源时,客户满意度和忠诚度就显得越来越重要。客户满意度是指客户通过对一个产品或服务的可感知的效果与他的期望值相比较后,所形成的愉悦或失望的感觉状态[4]。较高的客户满意度能使客户对产品品牌在心理上产生稳定的依赖和喜爱,从而创造了客户对该产品品牌的高度忠诚。

(5) 客户关系的管理途径是建立企业与客户之间的学习型关系。

所谓学习型关系是指通过与客户的交流与沟通,对客户知识的不断发现、挖掘和应用[6]。这种学习是一个反馈循环系统,允许企业与客户对某种问题进行认识与解释,为彼此的行动提供知识性指导。传统的市场营销是一种单向的学习模式,即发生在即定假设或思维方式内部的学习,客户关系管理所提倡的学习是一种双向学习模式,即对变量本身及相互关系进行修订而产生的学习,如企业通过与客户的接触,了解到客户的信息是受客户关系约束的,将这些信息联结到销售人员工作方法中去,又可以重新对客户关系进行评价。

2.1.3 客户关系管理应用系统

客户关系管理(CRM)应用系统的诞生是客户关系管理理念的有力补充,理念只是现代营销学的一个营销论点,而应用系统近年来却被厂家“热炒”。应用系统是客户关系管理真正实现的重要手段,需要多种技术形式,也需要支持不同级别的客户关系管理。按照目前市场上流行的功能分类方法,可以将电信运营企业CRM应用系统分为操作型、分析型和协作型三类[7],详细的功能说明如图2-1所示。

(1) 操作型CRM系统

操作型CRM系统,也称运营型CRM系统,它是客户关系管理软件中最基本

7

的应用模块。它的设计目的是为了让营销、销售和服务部门的业务人员在日常的工作中能够共享客户资源,减少信息流动滞留点,从而大大提高业务人员的工作效率,提升公司的自动化运作水平。

(2) 分析型CRM系统

分析型CRM系统不需要直接同客户打交道,它从操作型CRM系统应用所产生的大量交易数据中提取有价值的各种信息,通过一系列的分析方法或挖掘工具,对将来的趋势做出必要的预测或寻找某种商业规律,是一种企业决策支持工具。分析型CRM与数据仓库技术密切相关,它用于完成客户关系的深度分析,通过运用数据挖掘(Data Mining,DT)、联机分析处理(On-Line Analytical Processing,OLAP)、交互查询和报表等手段,了解客户的终身价值、信用风险、购买趋势、流失概率等,从而达到成功决策的目的。

图2-1 电信运营企业CRM系统分类

(3) 协作型CRM系统

协作型CRM将整合多种客户联系渠道,构建统一协同的客户交互平台。在所有与客户接触的渠道上都建立起统一的客户服务手段,实现对不同业务的处理要求。对于客户而言,无论他通过何种渠道与企业联系,都将得到一致的信息;对于企业而言,统一的客户接入平台避免了客户信息的丢失,同时实现了数据信息在不同渠道间的互转,提高了部门间的协作水平。

8

2.2 客户流失管理

2.2.1 客户流失管理概念及分类

客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务[1]。客户流失管理是客户关系管理中最重要的研究课题之一。电信业是建立在客户流失基础之上的行业,电信客户流失是目前世界各地电信运营企业探讨的首要话题。

为了能够更好的管理客户流失问题,首先需要对客户流失进行分类,基于客户流失的原因,一般将电信客户流失分为自愿客户流失和非自愿客户流失[8]。具体分类如图2-2所示。

图2-2 电信客户流失原因分类

(1) 非自愿客户流失管理

最容易辨别的客户流失类型就是非自愿客户流失。它已成为电信运营企业最大的一种客户流失类别,主要包括欺诈、不付款和使用不足而流失的客户。电信运营企业在处理这种客户流失问题上,具有较大的回旋余地,有很多手段可以处理非自愿客户流失带来的风险。因为欺诈、信用及使用不足都是可以提前预料的问题,企业通过加强对客户的筛查,可以减少此类情况的发生。

(2) 自愿客户流失管理

自愿客户流失是电信运营企业更关注的一类客户流失,它一般出现在客户开

9

10 始终止服务合同之际。自愿客户流失一般可以分为无意客户流失和蓄意客户流失两类。无意客户流失的出现,不是因为客户计划终止,而是因为他们的生活中发生了一些事情(如:财务状况变化、生活地点变化、生活境遇改变等),终止服务是这些事情的一个负面效果。在多数情况下,无意客户流失是任何行业都存在的一个自然流失现象。更重要的是那些蓄意流失的客户,蓄意客户流失的原因一般有技术的、价格的、质量的、社会心理的及便捷度方面的因素。

2.2.3 客户流失预测模型

客户流失预测模型是基于客户数据仓库数据,如客户的基本资料、消费行为、缴费行为等数据,采用数据挖掘技术而构建的预测客户在预定时间内停止使用企业产品或服务的可能性模型。

客户流失预测模型一般分为两种:预测初始客户流失人数和预测流失目标客户[2]。

初始客户流失人数预测模型

这种预测模型可以预测在预定时间范围内流失的客户总数,但不会确定要离开的个人是谁。这种模型简单而准确,其提供的信息能够为不同部门的能力计划、预算管理提供援助。生成初始客户流失人数预测模型一般分为以下3个步骤:(1) 对客户流失活动(流失率)的历史记录进行绘图;(2) 对特别指示的起因进行调查;

(3) 根据发现的起因预测将来的客户群。初始客户流失人数预测结果示例见图2-3所示。

历 史预 期

人月份

当前月

图2-3 初始客户流失预测图

流失目标客户预测模型

这种模型能够预测在预定时间范围内可能流失的客户列表。其最大的优点是公司可以通过预测结果开展先人一步的商业活动计划,防止或延缓客户流失事件的发生。流失目标客户预测模型生成一般分为以下4个步骤:(1) 搜集详细的客户个人历史记录;(2) 确定客户流失的起因;(3) 计算客户流失的可能性;(4) 生成可能流失的客户列表。目标客户流失预测结果示例见表2-1所示。

表2-1 目标客户流失预测结果示例

2.2.4 客户流失管理战略

一般来说,电信运营企业有三种基础性的战略方案来应对客户流失,分别为:持续扩展战略、掠夺性获取战略和客户保持战略[8]。

(1) 持续扩展战略

对电信运营企业来说,最广泛有效的战略(尤其是在发生客户流失的早期阶段),就是干脆忽视老客户的流失,更加努力地招揽新客户。在短期这样做是有效的,但当竞争者改变战略之后,持续扩展战略就不再适用了。为使持续扩展战略更加有效,可以了解哪些种类的客户最有价值、最不可能流失,从而转变公司的获取战略,将目标仅仅指向那些最有价值而且最不可能流失的客户。

(2) 掠夺性获取战略

掠夺性获取战略即从竞争者那里掠夺客户,弥补己方损失的部分。掠夺性战略往往应用在市场接近饱和状态、很少有新客户前来签署合同的时候。此时,一方的获利只能伴随着竞争者的损失。为使掠夺性获取战略更加有效,最好是在对客户及其流失行为了解的基础上进行,负责设计掠夺性获取战略的人员,一定要将工作的目标指向高价值、低流失的客户,并且要开发各种计划,诱使客户离开竞争者。

(3) 客户保持战略

随着公司走向成熟,仅凭不断获取客户的努力已经不足以真正应对客户流失

11

问题,公司开始将重心转移到客户保持能力的提升上来。为使客户保持战略更加有效,公司需掌握客户流失的规律、客户自身的情况、时机问题及战略目标。

2.3 数据挖掘

2.2.1 数据挖掘概念

数据挖掘(Data Mining,DM)一词是1995年在首届国际知识发现与数据挖掘大会上被首次提出,是源于数据库中的知识发现(Knowledge Discovery in Database,KDD)的一项以人工智能为基础的数据分析技术。广义的数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简单的说,数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程[9]。典型的数据挖掘系统结构如图2-4所示。

(1) 数据库、数据仓库、万维网或其他信息库:这是一个或一组数据库、数据仓库、电子数据表或其它类型的信息库。可以对这些数据进行数据清理和集成。

(2) 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。

图2-4 典型数据挖掘系统结构

(3) 知识库:这是领域知识,用于指导搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。

12

第四篇-电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析 一、引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客 户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。 二、问题分析 根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。 对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。 三、算法简介 3.1分类分析 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类(Bayesian),神经网络(neural networks),遗传算法(genetic algorithms)和决策树分类器(decision trees)。在这些

车险客户流失分析方法

车险客户流失分析预测 通过建立一个关于保险客户流失的预测模型,可以分析出主要有哪些因素导致他们想要退保并可以有针对性的挽留那些有退保倾向的客户,进而节约开支。客户流失预测考虑的主要因素如下: (1)客户购买频率:客户购买保单的频率越高,说明流失率低;反之流失率高; (2)客户付费历史:交纳保费方式,有没有过欠费历史,欠费多久才补缴保费等对客户流失都具有影响; (3)客户自然属性:教育程度,职业,家庭人口,收入等等; (4)客户工作的变化:包括工作性质的变化,工资的变化,职位的变化等等; (5)客户理赔处理情况:理赔的迅速、准确就会降低客户流失率,反之会提高客户流失率; (6)竞争对手促销策略:如果竞争对手采取新的促销策略,那么就会提高客户流失率。

利用数据挖掘中的分类方法建立客户流失分类预测模型对潜在流失客户进行分析预测。分类方法是一种有监督的学习方法,它通过在客户样本数据集上建立预测模型,得到区分客户是否具有流失倾向的预测模型,预测客户未来的流失倾向。 该类研究主要应用了以下分类方法:支持向量机、人工神经网络、Logistic回归、贝叶斯网络、决策树等。 决策树模型 决策树模型 保险客户流失预测考虑主要因素可以选择决策树的方法进行客户流失的预测,选择这种方法的原因是因为这种方法得出的模型可以很容易的被人们理解。尽管其他的一些数据挖掘技术,比如神经网络也可以产生很好的预测模型,但是这些模型很难理解。当用这些模型作预测分析的时候,很难对客户流失原因有深入的了解,更得不到任何对付客户流失的任何线索。如果附加其他算法,过程会比较复杂。 在客户流失趋势的预测上,利用信息论中的信息增益赖寻找数据库中具有最大信息量的字段,作为决策树的一个节点,再根据字段的不同取值建立树的分支;再每个分支子集中重复建立树的下算法是相同的,不过在运用的场景上不同而已。通过决策树预测,可以发现特征客户群的流失比例,从而对具有相似特征的客户预测其流失趋势。为了挽留那些客户,保险公司可以有针对性的采取措施,保护自己的客户,有效的防止客户流失。基本原理是这样的,数据挖掘工具会先根据保险公司客户的基本资料进行划分,产生若干细分群,每个细分群都会有一些特征,比如客户持有的保单类型、客户教育背景等等。根据历史记录,某个细分群中,会有三个客户数。一个是该群中的客户总数T,一个是现在还活动的客户数A,最后一个是已经离去的客户数L。那么该群的客户流失率就可以用I=L/A来计算获得。 这样通过客户特征将他们分属于不同的决策树树叶中,就可以估算出他们的流失率,即流失趋势,同时,可以找出关于客户流失的主要特征。 C4.5算法的决策树构造和剪枝方法 此方法分为了两个部分:第一部分是决策树的建造过程,第二部分是决策树的剪枝过程。

Logit模型预测客户流失 - 软件测试,数据分析

Logit模型预测客户流失 - 软件测试,数据分析Logit模型预测客户流失 一、logit模型 二、logit模型应用 三、案例说明 1. 案例背景 2. SAS实现 3. Spss Clementine实现 (1)装载数据 (2)数据清理 (3)模型建立 (4)模型评价 (5)预测 4.CLEMENTINE与SAS结果比较 一、logit模型 在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。

Logit回归属于概率非线性回归,假设在自变量作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/(1-P)为发生于不发生概率之比,记为“优势”(odds),若对odds取自然对数,得 Logit(p)=ln(odds)=ln() 称为P的logit变换,则logit回归模型为 Logit(p)=ln()= 可以看出,当P在(0,1)之间变化时,对应的logit(p)在之间变化,这样自变量可在任意范围内取值。 自变量对因变量的作用大小常用“优势比”(odds ratio,简称OR)来描述。所谓优势比 是指两个优势之比。对于某些发生率很低的事件来说,优势比可以作为相对危险度(relative risk,RR)的近似估计,即 OR= 二、logit模型应用 Logit模型全称logistic模型,主要针对定性变量(分类、有序变量)进行建模。广泛应用在医学、通信、金融业,如客户分类、客户流失预测、寻找发病因素等。 三、案例说明 1. 案例背景

利用数据挖掘实现客户流失分析

利用数据挖掘实现电信行业客户流失分析 利用数据挖掘实现电信行业客户流失分析随着世界经济的全球化、市场的国际化和我国加入 WTO 步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。 在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业已经具有成功的应用。在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。 那么,在客户流失分析系统中,如何应用数据挖掘技术呢?主要方式是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。基于严格数学计算的数据挖掘技术能够彻底 改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场/销售工作中来。通常一个完整的数据挖掘过程由业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用等多个步骤组成。这里我们以个人客户流失为例说明各个步骤的功能。 1.业务问题的定义 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确和应用时的效果。例如:在客户流失分析系统中,需要明确客户流失的定义。在客户流失分析中,主要有两个核心的变量: 1.财务原因/非财务原因; 2.主动流失/被动流失。客户的流失利用数据挖掘实现电信行业客户流失分析类别根据这两个核心变量可以分为四种。其中自愿的、非财务原因的流失客户往往是高价值的、稳定的客户。他们会正常的支付自己的服务费用,并对市场活动有所响应。所以这种客户才是我们真正想保持的客户。而真正在分析客户流失的状况时,我们还必须区分公司客户与个人客户,不同服务的贡献率,或者是不同客户消费水平流失标准的不同。举例来说,对于用一种新服务替代原有服务的客户,是否作为流失客户?又或者,平均月消费额为 2000

第四篇-电信客户流失影响因素与预测分析教学教材

第四篇-电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析 一、引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。 二、问题分析 根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。 对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。

三、算法简介 3.1分类分析 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类(Bayesian),神经网络(neural networks),遗传算法(genetic algorithms)和决策树分类器(decision trees)。在这些分类方法中,决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。 3.2决策树演算法 决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。 一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。 3.3决策树演算法的比较 决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽

水土流失预测的常用计算方法

浅谈水土流失预测的常用计算方法 朱荣华 (乐清市水利水电建筑勘测设计院) 摘要:水土流失作为一项世界性的研究课题,一直受到世界各国的重视,长期以来,在其基础理论方面开展了大量的研究,并取得了有益的成果。水土流失预测是水土流失问题研究中很重要的内容,其预测方法也很多,常用的有通用土壤流失方程法、类比法、分类分级法、流失系数法等。在我省由于各地方自然条件、地理环境等存在很大差异,采用各种预测方法对水土流失进行预测时,必须确定该方法是最符合本地区实际情况的,这将直接影响到水土流失量数据的精确性,因此对预测方法和计算公式的选择至关重要。 关键词:水土流失预测计算公式侵蚀模数 水土流失与当地自然条件和人类活动密切相关,水土流失的影响因素包括自然因素和人为因素两个方面,其中自然因素主要有气候(降雨强度)、地形(坡长、坡度)、植被状况、地质构造和土壤类型等诸因素,人为因素主要表现为在工程建设过程中改变原有地形(坡长、坡度),破坏原有植被,使地表裸露,削弱其原有的蓄水保土功能,并产生新的水土流失,从而增加水土流失量。 水土流失作为一项世界性的研究课题,一直受到世界各国的重视,长期以来,在其基础理论方面开展了大量的研究,并取得了有益的成果。水土流失预测是水土流失问题研究中很重要的内容,其预测方法也很多,常用的有通用土壤流失方程法、类比法、分类分级法、流失系数法等。在我省由于各地方自然条件、地理环境等存在很大差异,采用各种预测方法对水土流失进行预测时,必须确定该方法是最符合本地区实际情况的,这将直接影响到水土流失量数据的精确性,因此对预测方法和计算公式的选择至关重要。 1水土流失预测常用计算公式 1.1通用土壤流失方程

SPSS Modeler 预测电信客户流失案例

Modeler 帮助电信运营商预测客户流失案例 本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果 引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。 本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。 数据准备 读入数据源 读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。将流失字段churn 角色设置为目标。将所有其他字段的角色设置为输入。 图 1.数据源

移动运营商的客户流失管理案例分析报告

移动运营商的客户流失管理案例分析 发布时间:20070427 作者:转载出处:C114 录入:雷 1. 问题的提出: 近十年来我国电信业以3倍于GDP的速度增长,成为国民经济支柱产业中增长速度最快的行业之一。电信业的急速增长在很大程度上是由电信服务业中移动通讯市场的急速发展所推动的。但是,随着市场的拓展和竞争,移动通讯业也遇到了一些问题,如代理费用的升高和宣传费用的升高,这使发展新客户的难度增加、收益率下降。 价值客户不仅是电信企业的宝贵资源,也是其竞争对手不断争取的对象。电信企业的客户流失非常严重。据某运营商的统计,该运营商的移动客户在2004年1-10月平均每月离网400万户,月平均流失率达4.7%。其他运营商的客户流失率也居高不下。 根据美国市场营销学会顾客满意手册的统计数据表明,吸引一个新顾客所耗费的成本大概相当于保持一个现有客户的5倍。 这使得移动运营商不得不关注客户流失管理,以采取有力措施防止客户流失。 2.中国移动-客户流失管理的支撑系统和策略 中国移动通信主要经营移动话音、数据、IP电话和多媒体业务,其网络规模和客户规模列全球第一。截止到2006年11月底,客户总数已达2.964亿户。 2.1.支撑系统 中国移动已经形成了完整的业务支撑体系,由BOSS系统、经营分析系统(数据仓库)和支撑网网管系统三部分组成。经营分析系统已经成为市场经营过程(包括客户流失管理)的重要支撑环节。

2.1.1.经营分析系统建设概述 从2001年开始规划,2005年底建成世界最大的数据仓库(超过842TB容量),2006年7月容量已达1614TB;应用了OLAP、数据挖掘技术;提高了企业内部数据的标准化程度,有统一的逻辑模型、统一的指标解释;方便指标、报表、即席查询;与BOSS系统进行了互动。 中国移动数据仓库系统的分级结构 2.1.2.经营分析系统的意义 分析内部数据资源,理顺企业管理流程,提升管理模式;提升中国移动的精细化营销能力,降低营销成本(客户营销/服务从地毯式轰炸转向精确式打击)。例如:某地区真实流失人数190人(总样本的6.13%),不用模型就要对1455人(6.13%)做市场活动;采用了流失模型后,仅需要对712人(3.00%)做市场活动。 2.1. 3.经营分析系统的经济效益 中国移动经营分析系统取得了较为显著的经济效果,某个单项的应用就可以带来显著的经济效益:

基于商务智能的客户流失预测模型与算法研究

基于商务智能的客户流失预测模型与算法研究客户流失管理是许多行业关注的一个重要问题,近年来,以传统统计学方法和人工智能方法为基础,客户流失预测研究取得了丰富的研究成果,但尚存许多值得研究的问题。商务智能的崛起为客户流失预测的研究提供了新的思路。本文在商务智能理论和客户关系理论框架下,对现有客户流失预测模型结构进行修订,提出了新的预测模型结构。然后,以新的预测模型结构为基础建立了客户流失策略管理模型、客户流失特征提取与属性选择方法、客户流失预测模型,对电信业的客户流失预测问题进行了实证考察,从一个新的角度加深了对客户流失的规律理解。 最后,对控制客户流失的策略进行了研究。现总结如下一、提出一种新的客户流失预测模型结构,以一种崭新的思路研究客户流失问题。根据客户数据的特点和现用预测方式的不足,采用特征提取、属性选择、预测模型设计的预测新思路来研究客户流失问题。通过对新模型结构实现算法和实证的研究,证明了新模型结构比现用模型结构更加有效。 二、应用基于企业竞争的Delta策略模型,提出一种用于电信业的客户流失管理策略模型(CMSM)。通过使用某电信企业客户流失数据集,对CMSM进行了验证。其结果表明,该模型描述了客户流失的原因且包含了与企业竞争策略相关的主要预测因子,从而使其实际应用更易控制。三、利用特征提取和指标属性选择方法,对电信业客户流失预测进行实证分析。 主要结论是1、将核主成分分析(KPCA)引入到客户流失预测中,提出了相应的特征提取算法,将KPCA与Logistic回归结合,设计了预测模型。对某电信公司客户流失预测的实证结果表明,该方法获得的命中率、覆盖率、准确率、提升系数、命中率置信度区间、覆盖率置信度区间、整体准确率置信度区间和Kappa,高于原始属性集和主成分分析(PCA)特征提取法。这表明KPCA能提取客户数据的非线性特征,是研究客户流失预测问题的有效方法。2、将信息增益(IG)引入到客户流失预测中,提出了相应的属性选择算法,将IG与神经网络(NN)结合,设计信息增益神经网络(IGNN)预测模型。 对某电信公司客户流失预测的实证结果表明,该方法获得的命中率、覆盖率、准确率、提升系数、命中率置信度区间、覆盖率置信度区间、整体准确率置信度

顾客流失的预测分析

5 您能预测哪些客户有可能流失吗? 本章中,我们将阐述可预测哪些客户在不久的将来可能会从您公司流失的数据挖掘方 法,电信业务常将这种方法称为客户流失预测。 如今,电信业务市场日渐成熟,电信公司也意识到主动性客户关系管理的重要性,从而 非常关注对现有客户服务,即如何维系重要客户,以及怎样使之为公司带来更丰厚的利 润? 通过数据挖掘,您可以根据客户历史数据获得数据挖掘模型,从而生成公司很可能流失 的客户列表。最终,这将为您制订有效的市场营销战略提供有价值的业务洞察力,以防 止公司客户的流失。 本章所阐述的客户流失预测过程是以采用数据挖掘方法的预测建模为基础的,包括对每 个客户的流失可能性的预测,以及对可能流失客户及不会流失客户的分类。 73

5.1 业务需求 客户流失预测通常因其市场饱和度和动态市场变化等典型市场特征而成为电信公司首 要考虑的问题。由于电信市场日趋饱和,所以获取新客户的成本比留住现有客户群要昂 贵得多,并且竞争对手、技术,以及法律法规等动态市场变化更容易使客户流失到其他 公司。 5.1.1 数据挖掘的作用何在? 客户流失管理要求对客户行为具有良好的了解。首要问题是要弄清楚哪些客户将会从公 司流失,以及哪些客户会给公司带来利润。为防止客户流失,公司需要采取的首要措施 是在客户流失到其他公司前掌握客户行为,并努力找到客户流失的行为模式,这样公司 就可以提前采取一些规避措施。您可以通过简单的查询方式、OLAP 分析,或仅根据经 验来了解客户行为。但是,在把握与客户流失相关的客户行为的过程中,数据挖掘起着 极其重要的作用,而这些客户行为隐藏在诸如呼叫事务等庞大的数据集中。应当建立合 适的数据挖掘模型来识别客户流失行为模式,并为客户提供适当的产品和服务以防止流 失。在以下章节中,我们将阐述如何应用数据挖掘方法来防止电信企业的客户流失现象, 以及如何将其应用到您的 CRM 系统中。 5.1.2 起点? 该通用方法的第一步是把您要提出的业务需求转换成一个或多个可通过数据挖掘解答 的问题。 客户流失预测是一种不断变化的过程,而非单一事件。客户流失预测与公司的客户保持 过程密切相关。客户保持过程涉及三个方面: 明确哪些客户可能会流失。 确定可能流失的客户中您需要保留哪些客户。 开发客户保持策略(开展客户保持活动)以防止好这些客户流失。 作为客户保持过程的基础,客户流失预测对公司而言是一件非常有意义的工作。然而, 客户流失预测所面临的挑战在于,如何预测未来的客户行为,以及如何根据这一预测针 对客户采取相应的措施。 74

一种确定客户流失的方法和系统

一种确定广电客户流失的方法和系统 作者:胡玉婷袁昊程 版本:v1.0 文档创建日期:2013年9月11日 最后修改日期:2013年9月11日 1.本发明要解决的技术问题是什么? 进入21世纪以来,随着电信与信息技术的飞速发展,在“三网融合”的大趋势下,广电运营商面临着重大挑战,同时也是一次重大机遇。与其它运营商相比,有线运营商在视频传播领域具有资源、技术等全方位的优势,但随着时间的推移和科技的发展,这种优势将会不断弱化,全面的竞争将不可避免。而且对于广电运营商而言,注册客户数动态增长,在大量客户入网的同时,又有大批客户离网流失,业务与收入总量增长相对趋缓,导致出现“增量不增收”现象。从传统意义上讲,发展一个新客户所支出的费用是保留一个老客户的五倍。因此,分析客户流失原因,吸引潜在客户入网,增加现有客户满意度,减少客户流失概率,提高客户消费水平,充分占有市场,是广电运营商在激烈市场竞争中制胜的关键。那么如何保留当前客户资源,采取措施挽留将要流失的客户,降低客户流失率,并为之提供有差别的服务,已成为广电行业目前亟需解决的问题。 2.详细介绍技术背景,并描述已有的与本发明最相近似的技术方案 广电行业中,客户流失是指客户在连续一段时间内发生不同程度的停止贡献价值,甚至拖欠应收费用的行为。客户流失分析是指使用多角度的客户数据进行分析,提炼出已流失和预流失客户的行为特征,利用数据挖掘技术建立客户流失模型,并将流失模型应用在实际运营中,对客户在未来一段时期发生流失的概率进行预测,并输出流失可能性较大的客户清单,从而能提供给CRM 等相关系统做事前的维系挽留工作,降低客户的离网率,减少企业的损失。目前已经有诸多解决客户流失分析的数据挖掘技术方案,主要分为如下几类: 1.决策树算法,这样的系统架构相对简单,系统整体运行效率易于保障。 2.神经网络算法 3.逻辑回归算法

电信企业客户流失及忠诚度分析

东华大学研究生课程论文封面 教师填写: 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的课程论文,是本人独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。 论文作者签名: 注:本表格作为课程论文的首页递交,请用水笔或钢笔填写。

目录 1 引言 (1) 2 数据理解 (1) 3 数据准备 (4) 4 预测模型的建立 (5) 5 模型评估及客户特征分析 (6) 6 客户忠诚度的分析 (8) 7 结论 (12)

电信企业客户流失及忠诚度分析 王丹丹 (东华大学,管理科学与工程,2150863) 摘要:近年来国内电信业的分割、电信体制的激烈变革,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对老客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业面临的重要问题 本文主要在已知数据的基础上利用数据挖掘中的决策树、神经网络以及Logistic 回归算法具体在电信业客户流失分析中的应用。 关键词:客户流失、决策树、神经网络、客户忠诚度 1 引言 2001年开始,中国电信行业就开始规划和实现经营分析系统,初衷就是建立数据仓库及基于数据仓库之上的数据分析和应用,其中主要包含两个主题——流失分析和交叉销售,而之前的相关杂志也发表了很多技术文章,但当时整个电信行业主要以中国移动为主,竞争压力并不大,业务人员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。但2011年之后,电信行业不断竞争,所以各大公司反过头来又做客户流失,意识到挽留一个老客户要比吸引一个新客户对公司的价值会更大。因此,现在移动、联通等电信行业都会付出很大努力来尽量防止客户流失增加客户忠诚度。本文的工作正是基于此为背景通过分析客户的基本数据、交易数据和行为模式,通过spss modeler14.0利用决策树、神经网络、等数据挖掘技术,建立客户流失预测模型,并在此基础进行初步的流失原因分析和客户流失特征,给企业以有效的建议,并利用因子分析对客户的忠诚度进行分析。本文主要以下几个方面来展开:数据理解和准备、建立流失预测模型和模型的验证评估,最后是客户忠诚度分析。 2 数据理解 由于数据信息量比较大,变读入电信客户数据telco.sav,数据有多达42 个字段,我们有必要对原始数据进行探索,找出影响客户流失的最重要的因素,数据探索不是一个一次性的工作,它是一个分布的,需要反复试探和观察的过程。可以通过观察每一个变量与目标变量之间的相互关系作为变量选择和变量衍生的依据之一,并同时评估数据的质量,如检查空值、异常值、缺失值、噪声数据等。随着下面数据准备过程的不断进行。在数据探索中使用SPSS Modeler中的数据

客户流失预测数据挖掘方法对比分析

客户流失预测数据挖掘方法对比分析

客户流失预测数据挖掘方法对比分析 随着市场竞争的加剧,新技术的不断涌现,数据仓库、数据挖掘技术在客户关系管理的应用日益广泛和深入,其中客户行为分析、客户满意度评价、客户细分等是数据挖掘技术在客户关系管理的典型应用。近年来,客户挽留成为客户关系管理的重要内容,在诸多行业,保持高的客户挽留率对于公司利润的增长,超过公司规模、市场份额、单位成本等竞争因素的影响。学术界、企业界提出了以客户关系管理、关系营销为营销模式,以客户需求为核心价值,采用数据挖掘技术对客户流失行为进行分析建模,以期增强客户忠诚度、降低客户流失率。 1客户流失预测常用技术 客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。 学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。 1.1回归分析 回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现1

出来。回归分析的预测效果仅仅依赖于预测的变量与其他变量的关系,即模型的精确度取决于自变量和因变量的分布符合模型的程度,自变量与因变量的分布适合所选取的模型,则预测效果好,反之,预测效果差。根据自变量和因变量的函数关系,分为线性回归和非线性回归。客户关系研究中广泛应用的模型有Linear, Logistic等回归方程。 文献[1]应用Logistic回归对商业银行客户流失进行了分析预测,并以真实数据对模型进行了校验,结果表明模型具有良好的预测效果。文献[2]应用Logistic模型研究了客户生命周期价值及客户流失,研究发现,相比决策树和神经网络技术而言,Logistic模型更适合对客户流失的分析和预测,但同时作者也指出,预测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能表明他们的训练样本更适合Logistic来建模。文献[3]指出,回归分析在客户流失预测中的主要缺点是对训练样本的要求,并且不能以符号化或易于理解的形式直观地表现隐含的模式。 1.2决策树 决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开 1

客户流失预测数据挖掘方法对比分析

客户流失预测数据挖掘方法对比分析 随着市场竞争的加剧,新技术的不断涌现,数据仓库、数据挖掘技术在客户关系管理的应用日益广泛和深入,其中客户行为分析、客户满意度评价、客户细分等是数据挖掘技术在客户关系管理的典型应用。近年来,客户挽留成为客户关系管理的重要内容,在诸多行业,保持高的客户挽留率对于公司利润的增长,超过公司规模、市场份额、单位成本等竞争因素的影响。学术界、企业界提出了以客户关系管理、关系营销为营销模式,以客户需求为核心价值,采用数据挖掘技术对客户流失行为进行分析建模,以期增强客户忠诚度、降低客户流失率。 1客户流失预测常用技术 客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。 学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。 1.1回归分析 回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现出来。回归分析的预测效果仅仅依赖于预测的变量与其他变量的关系,即模型的精确度取决于自变量和因变量的分布符合模型的程度,自变量与因变量的分布适合所选取的模型,则预测效果好,反之,预测效果差。根据自变量和因变量的函数关系,分为线性回归和非线性回归。客户关系研究中广泛应用的模型有Linear, Logistic等回归方程。 文献[1]应用Logistic回归对商业银行客户流失进行了分析预测,并以真实数据对模型进行了校验,结果表明模型具有良好的预测效果。文献[2]应用Logistic模型研究了客户生命周期价值及客户流失,研究发现,相比决策树和神经网络技术而言,Logistic模型更适合对客户流失的分析和预测,但同时作者也指出,预测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能表明他们的训练样本更适合Logistic来建模。文献[3]指出,回归分析在客户流失预测中的主要缺点是对训练样本的要求,并且不能以符号化或易于理解的形式直观地表现隐含的模式。 1.2决策树 决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,4.5,C5.0,CART等。 由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,文献[4]应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferred customers)和一般客户,首选客户指那些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点,提高客户流失预测模型的精确度和可解释性,文献[5]结合了AD Tree模型与Logistic回归方程的优点,提出了TreeLogit模型。 1.3神经网络 神经网络是一组连接的输入/输出单元,其中每个连接都有一个加权值。神经网络的分类知识体现在网络连 1

【参考1】用户流失模型

前面谈到了客户细分,这里说下流失分析吧 流失分析是客户细分大框架里面的一部分最重要的标签。切割用户有很多角度(例如性别、年龄等自然属性;成长状况等生命周期属性;贡献情况等价值属性;问题倾向等风险属性;消费特性等行为属性),我觉得最重要的特征是价值和风险,也就是说切割用户的头两刀应该是分开不同价值、风险倾向的用户 流失分析是获得用户风险倾向的分析,分析的结果是按照业务定义的风险类型,给用户打上不同的风险分值和风险分群 有了客户细分模型后,我们可以尝试在做更复杂模型是,进行模型的交叉,也就是说把细分等一些初等模型的结果成为重要模型的输入变量,这有利于提高精确度,最重要的是给模型的解释和实施代理很大的帮助(试想下,我们知道一个人有问题,但如果知道了这个人的细分标签,就意味着我们可以动手拯救他,而不是卧在桥头看水流) 说说流失分析的过程吧 step1-流失的界定:流失的界定是整个流失分析的重要环节,需要结合业务目的和数据状况界定流失(一般来说业务方界定的流失和技术上界定的流失不一致)。如何才算好的流失界定呢个 1、有业务含义,围绕着用户的业务目的来界定流失,例如:目的是促成用户消费,则xx天前有消费,当前没有消费的界定为流失;目的是促成用户提升价值,曾xx天前比当前消费降低50%以上的用户界定为流失 2、有稳定性:可以引入流动性分析,看用户在什么样的流失界定下,自然回复率低,也就是说如果我们不管他,他一般就挂了 3、操作性:回忆下人生(其实我也很年轻,那就回忆别人的吧,呵呵),最大的流失莫过于失去生命,如果到用户死了后再抢救有效果么??呵呵,所以我们界定的用户流失,一定是在发现流失后,有可以行动的方案 3、churn级别设定:详细分开,用户有几种阶段(好-有点问题-有问题-问题过大),我们需要在数据上给每个用户在churn中打一个级别,这对于模型学习有意义,最终使用好用户和有问题的用户对比建模,而不是用有点问题和问题过大的用户。这样有些复杂,但我对比尝试过,虽然对模型准确率没太大提升,但对模型的解释性有帮助,在稳定性上也会好一些吧 5、可以考虑定义多个流失,分别做模型:有多少种业务情况,就有多少种流失,最终可以考虑再做一个大模型,把所有的流失再封装一层 step2-变量列表:重复我个人的观点,变量列表的设计是以了解业务为基础的,每个变量都应该有业务猜测和原因。常把“变量是否有效要模型结果说了算”挂在嘴边的人,不知道技术如何,模型应用上肯定是傻子,尝试着说服他们更多的关注业务吧 1、尽量选择已有的变量,会使得变量准备的工作量小 2、按照业务内容把变量分类,综合考虑业务需要和计算量选择合适的变量;同时可以衍生一些从数据加工角度看冗余,但建模需要的变量(例如把入网时间->在网月份数) 3、确认变量获取的时间长度是否足够:对于消费总量的纯增量数据,只要系统最近没有大割接问题都不大;对于用户等级等快照变量,要想回溯快照可不是件容易的事情,要想好哦 4、已有的模型结果变量,可以作为准备变量交叉参与模型 step3-数据加工和检验:检验比加工更重要 1、数据加工不说了,有些用数据库,有人用c,有人用sas或climenting挖掘工具处理数据,都可以,没有哪个好,只有熟不熟 2、数据检验非常重要(会决定项目的成败),分成3类:单指标验证(每个指标的数据分布状况)、多指标交叉验证(指标间的大小、量级、加和等关系,需要穷举)、时间序列检验(在时间上的稳定性)--我曾经写了大约2000行代码的sas数据检验程序,可以配置的生成html 报告,感觉对效率提升很大

客户流失案例分析

客户订单流失案例分析 我是做游泳产品的,有一个葡萄牙的客户,去年做了45W。客户关系维护的也很好。08年底时,走了一单,之后客户没有不良反应。 今年过完春节,我回来工作后,曾发送过邮件给客户,向她问好。邮件只有回执,没有回复。当时以为客户忙,没有时间回复。况且根据客户往年的销售记录,2月份到3月份不是出货季节。就没有太在意。 4月初的时候,是该客户下单了,之前每年都有一张30W的单在5月份出货。该下单了,就再发送邮件,有回执没回复;传真,没反应。又过了两周,我急了,就打电话了,前台接的,说跟我司联系的客户请假回家,生小孩去了!我当时就懵了,赶快问是谁接替她的工作。前台回复说客户五月份就回来上班了。 我着急5月份的单啊,就再追问这几个月谁帮她做的工作。前台说是经理。我就请她帮忙接了经理的电话。经理接到后,我询问了客户今年上半年的销售情况,然后就直接了当的谈到了5月份的订单。经理说货已经到仓库了,等待铺货。还反问不是从我司采购的吗?我差点吐血!我说没有啊,一直联系不上她。经理突然明白过来了,说是让另一个人负责的这件事情…… 我这个客户今年的销售计划,就这样泡汤了……

教训: 1.要主动询问客户的休假计划,特别是长假; 2.要跟客户随时保持联系,一旦联系不畅通,要提高警惕; 3.要有客户尽可能多的联系方式,甚至是她同事的联系方式; 4.要有敏锐的洞察力!这一点对外贸人太重要了。 2、服务案例介绍 客户存款金额与柜台机核点金额不符 7月中旬,深圳市民余先生从家里携带2.4万元,来到北大医院后面的某银行莲花北支行的自助存取款一体机前存钱。在柜台机前一番操作后,余先生发现总款数已由2.4万元变为21800元。余先生当即拨通了该银行客服热线。银行方面当晚回复:柜台机未见差错,拒绝担责任。8月27日下午,羊城晚报记者陪同余先生前往银行,调取了当日余先生存款流水账单及柜台机监控录像查看。经对比,流水账单显示的余先生第二次存款操作所放入柜台机的款数与监控录像所显示的款数明显存在偏差。对此,银行方面却表示,“眼见不一定为实”,坚持以柜台机数据为准。

客户流失分析及应对措施(2012)

流失用户分析 从近年来我司在全省流失率排名来看,年度平均流失率保持3%以下,绝对值处在全省最后,用户稳定性良好。但随着市场竞争环境的改变,如何稳定存量客户,降低流失率将关系到公司营销成本的有效使用和后期市场经营竞争能力的持续领先。特对近年来流失整体状况作简要盘点,并以2011年8-10月流失数据为样本,从资费、时长等维度进行了简要分析,现将具体分析汇报如下,由于没有流失客户的详细调查资料,仅限系统中的一些流失用户数据为基础,不妥之处敬请领导批评指正。 一、近年来流失情况整体趋势简析 从2008年1月至2011年11月逐月流失用户数趋势(详见图1,数据来自经营分析系统)来看,伴随着公司总体用户规模的增长,每月流失用户绝对值也呈现出上升趋势,从2008年的2.5万左右上升到2009年3.68万,尤其是2009年3月行业重组以来,流失用户呈现较明显的上升趋势;2011年以来,流失用户数波动幅度增大,截止2011年11月资阳分公司流失总用户数达到50.31万户,与2010年同期39.1万户相比增加11.21万户,增长幅度28.68%。 图1:08年以来逐月流失用户绝对值趋势图

图2:2011年各月流失用户数据图 从上图2可以看出,2011年4月因旺季营销和节后效应影响,流失用户突破5万户,而从8月以来,分公司流失用户数出现较高幅度的增长(9月有一定回落)。反观当期竞争对手市场策略,联通无大的市场促销策略,主要影响因素预判为8月以来电信开展了高补贴的存量用户迁移、天翼0元机和集团策反促销活动,经过我司同期针对性的开展0元心机和座机促销应对、校园促销和大规模存送活动,在9月份抵挡了电信的发展势头,稳定了一定的存量用户,我司流失用户数呈现出下降态势;但随着电信存量用户迁移工作的全面铺开,仍然导致了我司部分中低端用户离网加剧。2011年11月流失用户达到了5.92万户11月的流失率达到3.85%,为2009年以来三年同期最高值。 从图3的逐月流失率来看,伴随着市场竞争环境的加剧,用户流失率

相关主题
文本预览
相关文档 最新文档