商务智能论文-范文

  • 格式:docx
  • 大小:744.01 KB
  • 文档页数:16

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电信客户流失影响因素与预测分析

一、引言

随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。

目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。

当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客

户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。

客户流失会给电信企业的利益带来多方面的损害,使企业在竞争中处于不利地位。电信企业在争取新客户的同时,必须采取有效措施预防老客户的流失,挽留一个老客户能够带来很大的收益,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种

趋势。

二、问题分析

根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),

寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。

对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。

三、算法简介

分类分析

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类(Bayesian),神经网络(neural networks),遗传算法(genetic algorithms)和决策树分类器(decision trees)。在这些分类方法中,决策

树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。

决策树演算法

决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。

一个决策树的架构,是由三个部分所组成:叶节点(Leaf Node)、决策节点(Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。决策树演算法的比较

决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及C&R Tree 四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分将会针对这四类决策树演算法进行简单的介绍和比较,而详细演算法原理将不会在本文中详述。

1. C5.0

由C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准(Information Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段(Target) 测量级别,不适用于连续类型(Continuous) 的测量级别。而输入字段的数据型态则适用连续类型(Continuous) 的测量级别。

2. CHAID (Chi-Square Automatic Interaction Detector)

此演算法和前述的C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定(Chi-square F test) 来进行分支,通过卡方检定来计算节点中的P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段(Target) 的测量级别可适用于连续类型(Continuous) 的测量级别,但在输入字段则只适用分类类型(Categorical) 的测量级别。

3. QUEST (Quick Unbiased Efficient Statistical Tree)

此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟C5.0 一样,目标字段(Target) 测量级别,不适用于连续类型(Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型(Continuous) 的测量级别。

4. C&R Tree (Classification and Regression Tree)

又称为CART,构建决策树的原理是使用Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数(Target) 以及输入字段的测量级别均适用连续类型(Continuous) 的测量级别做分析。

决策树演算法的选择

决策树的几大优点“

第一,与神经网络和贝叶斯分类器相比,决策树提供非常直观的描述,这种描述易于被吸收,转化为标准的数据库查询

第二,训练神经网络模型时要花费大量的时间,要进行大量的重复操作,与之相比决策树效率要高很多,适合于大的训练集。

第三,决策树生成算法除了训练集中包含的信息外不需要附加的信息(即领域知识或类标签以前的分布情况)。

第四,决策树有着可比的或更高的准确率。

在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根