基于clementine神经网络的电信客户流失预测

  • 格式:doc
  • 大小:254.50 KB
  • 文档页数:6

下载文档原格式

  / 6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于clementine神经网络的电信客户流失模型应用

昆明理工大学信息与自动化学院颜昌沁胡建华周海河

摘要

本文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,以电信行业为背景,通过收集客户的基本数据、消费数据和缴费行为等数据,建立离网客户的流失预测模型。进行客户流失的因素分析以及流失预测。以某电信分公司决策支撑系统为背景,通过在电信一年半时间的领域调研和开发实践,以此为基础,使用了统计分析和数据挖掘的技术,对PAS 客户流失主题进行了较为完善、深入的分析与研究,为电信经营分析系统作了有益的尝试与探索。针对PAS客户流失分析主题,本文选取了3个月的PAS在网用户和流失用户及其流失前的历史消费信息为样本,确定了个体样本影响流失的基本特征向量和目标变量。通过对大量相关技术和统计方法的研究,最终确定了clementine的神经网络模型来作为电信客户流失的预测模型。实践证明,本论文整体的技术路线是可行的,神经网络模型对电信客户流失预测有较高的准确性,所发现的知识具有一定的合理性和参考价值, 对相关领域的研究起到了一定的推动作用。

关键词:数据挖掘、客户流失、统计分析、神经网络

一、引言

本文是基于中国电信某分公司经营分析支撑系统项目为背景来展开的。电信分公司经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统。

根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%;向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%。这些数据表明:如何防范老客户流失必须要引起高度重视。对企业而言,长期的忠诚客户比短期获取的客户更加有利可图。因为长期顾客较容易挽留,服务成本比新顾客低,而且能够为公司宣传、带来新的客户,因此客户离网成为电信运营商们最为关注的问题之一。

本文针对电信分公司PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、消费金额、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的神经网络模型,找出PAS客户流失的特征和规律,来辅助电信公司制定营销政策。

二、研究现状及神经网络模型特点

国内的电信企业出于市场竞争的需求,大多己建立或在建“电信经营分析系统”,客观上为深层次的数据分析提供了良好的数据平台。但是在分析及应用开发上,大多数的“经营

分析系统”都基于固定报表、即时查询以及主观探索OLAP基础之上,深层次的数据挖掘大多处于理论探讨和尝试的阶段。在国外,不少知名的电信公司利用数据挖掘技术提升利润空间,通过建立流失客户的预测模型,对高流失概率的客户进行针对性的市场挽留工作,能够明显减小在网客户的离网率。

目前采用的流失预测的数据挖掘模型包括决策树、神经网络、逻辑回归、聚类关联性分析等,其中大多数流失模型采用决策树进行建模,比如C4.5及其扩展、CART等模型。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含生其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

Clementine 是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。 Clementine 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。在clementine中有各种不同的模型节点,如:K-Means 节点将数据集聚类到不同分组(或聚类)。分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法。二元分类器节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。Logistic 回归是根据输入字段值对记录进行分类的统计技术。

本文选择的是神经网络模型节点来进行电信的客户流失预测。神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。神经网络是神经系统运转方式的简单模型。其基本单元是神经元,通常将其组织到层中,这些处理单元都位于层中。通常在神经网络中有三个部分:一个输入层,其中的单元表示输入字段;一个或多个隐藏层;一个输出层,带有一个或多个表示输出字段的单元。这些单元通过可变的连接强度(或权重)连接。输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。最终从输出层中输出结果。

该网络可通过以下过程进行学习,即检查单个记录,然后为每个记录生成预测,并且当生成的预测不正确时,对权重进行调整。在满足一个或多个停止标准之前,此过程会不断重复,而网络会持续提高其预测准确度。最初,所有的权重都是随机生成的,并且从网络输出的结果很可能没有意义的。网络可通过训练来学习。向该网络重复应用已知道结果的示例,并将网络给出的结果与已知的结果进行比较。从此比较中得出的信息会传递回网络,并逐渐改变权重。随着训练的进行,该网络对已知结果的复制会变得越来越准确。一旦训练完毕,就可以将网络应用到未知结果的未来案例中。神经网络节点可以处理数字、符号或标志型输入和输出。神经网络节点应使用一个或多个方向为输入的字段,以及一个或多个方向为输出的字段。设置为双向或无的字段将忽略。执行节点时,字段类型必须已完全实例化。

三、神经网络模型的构建及应用

在clementine中应用神经网络进行电信客户流失预测的过程如下:首先选择数据源:本例中数据源为一个电子表格,打开clementine11在底部的选项板区中选择数据源项,双击其中的excel, 右击excel选择编辑,在导入文件中选择要用的数据源。然后在选项板中选择字段选项,选择其中的类型,进行编辑,读取所有值后将标识客户流失项设置为输出,总的挖掘过程如下图所示: