当前位置:文档之家› 数据挖掘案例库存预测

数据挖掘案例库存预测

数据挖掘案例库存预测
数据挖掘案例库存预测

背景知识

向顾客提供大量产品的国内和国际零售商都面临着共同的挑战:确保其众多的商店具有适当的产品库存级不。确定适当的库存级不问题需要在以下两种竞争成本间进行权衡。

1. 高级不库存的存储成本。这些成本指零售商为安全的实际空间、额外的供应商购买以及

在所有零售商店中与维持高级不产品库存相关的分配所支付的代价。

2. 丧失销售的成本。假如顾客进入商店,想要购买某种特定的产品,但由于该产品已脱销

而无法供货,就形成了这些成本。

面对这种进退两难的情况,零售商通常有两种选择。零售商能够保持高库存,而承担高库存成本;或者保持低库存成本,而承担在顾客需要购买时由于没有产品而丧失销售机会的风险。权衡这些竞争成本的最佳方式是构建预测模型来确保每个连锁商店都具有适当的库存级不。

过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,专门多零售商(从要紧财务主管到库存治理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。

本文介绍如何使用 Microsoft(R) SQL Server(TM) 2005 中的Analysis Services 以及 SQL Server 数据仓库,采纳数据挖掘

技术为产品存储决策提供准确及时的信息。此处介绍的方法用于在商店/产品级不上提供脱销预测。关于某种特定产品,SQL Server 2005 Analysis Services 用于构建数据挖掘模型,该模型为每个连锁商店提供脱销预测。此方法使零售商能够有效地权衡与存储产品库存相关的竞争成本。

返回页首

关于 Project REAL

Project REAL 致力于找出创建基于 SQL Server 2005 的商业智能 (BI) 应用程序的最佳方法。在 Project REAL 中,我们通过创建基于真实客户方案的引用实现来进行。这意味着将客户数据引入内部,并使用这些数据来解决各个客户在部署过程中将会面临的相同问题。这些问题包括:

?架构设计- 关系架构和Analysis Services 中使用的架构。

?数据提取、转换和加载(ETL) 过程的实现。

?客户前端系统的设计与部署,以便进行报告和交互式分析。

?生产系统的规模大小调整。

?对运行中的系统的治理与维护,包括对数据的增量式更新。

通过分析真实的部署情况,我们能够全面了解如何使用 SQL Server BI 工具实现 BI 系统。我们的目标是致力于解决可能希望分析大型数据集的公司在事实上际部署中遇到的所有问题。

本文概述了至今已为 Project REAL 执行的数据挖掘工作。专门多其他文章介绍了差不多完成的工作和在其他领域学过的课程。要查找最新的信息,请访问Project REAL 网站

(https://www.doczj.com/doc/c09085162.html,/sql/bi/ProjectREAL/)。

返回页首

数据仓库讲明

在 Project REAL 中,构建的数据仓库用于为在全国拥有数百家商店的零售商的数百万种产品汇总销售数据。用于构建脱销预测模型的相关数据集有:

?以商店级不、产品(项)级不、天级不合计的销售量事实数据。具体地讲,是为差不多销售的每种产品、零售商的每个连锁商店存储每日销售量。

?以商店级不、产品(项)级不、天级不合计的库存事实数据。具体地讲,这是每种产品、每天、零售商的每个连锁商店的产品在库存中的天数。

?由产品名、讲明、零售价和产品类不层次结构组成的产品(项)信息。

?由商店讲明、商店分类(例如,指定是大型商店依旧小型商店的指标)、商店分区、商店区域、商店地区、都市、邮政编码、省/自治区、货架空间线性尺寸和其他商店信息组成的商店信息。

?日期信息(日期维度),它将事实数据级日期标识符映射到相应的财务周、财务月、财务季、财务年和其他日期信息。

具有一个清晰、最新的数据仓库能够为所有商业智能应用程序利用此有用的信息资产提供可靠的基础。在此专门的构建脱销模型的任务中,数据仓库简化了构建数据集模型的过程。

返回页首

数据挖掘方法和构建数据集模型

依照在 Project REAL 中将数据挖掘技术应用于不同零售销售

量预测和构建脱销模型问题所获得的经验,我们提出了通过两个时期来构建模型,这一过程提高了准确预测的可能性。

构建模型过程的第 I 时期是基于合计销售量模式对零售商的连锁商店进行分类。构建了质量商店分类模型后,在构造模型过程的第 II 时期,这些分类用于使商店/产品级不上的脱销预测更加准确。通过使用 SQL Server 2005 Analysis Services 中的数据挖掘技术能够高效并有效解决这两个时期。

本部分提供了整个脱销预测过程的详细信息,该过程从用于构建数据集模型的过程讲明开始。然后对评估使用 SQL Server 2005 Analysis Services 构建的数据挖掘模型的方法进行了讨论。

构建脱销预测模型的过程

构建脱销模型分为两个时期。

第 I 时期是将具有相似合计销售量模式的连锁商店进行分类。对具有相似合计销售量模式的商店进行分类的过程称为“商店

分类”。通过使用 SQL Server 2005 Analysis Services 中附带的 Microsoft 分类算法完成商店分类,从而将具有相似合计销售量模式的商店进行分类。将 Microsoft 分类算法应用于由

合计销售量模式组成的数据集时,该 Microsoft 分类算法尝试通过以下方式对商店进行分类:属于同一分类的商店比属于不同分类的商店更加相似。构建数据集模型基于从数据仓库派生的合计销售量数据。因此,用于对商店进行分类的“相似性”测度是按照此合计销售量数据计算而来的。

然后,我们使用第 I 时期生成的分类模型在第 II 时期构建更准确的脱销预测模型。这同意预测算法(例如 Microsoft 决策树或 Microsoft 神经网络)使用分类结果来提高预测准确性。实质上,要优化特定商店s的特定产品p的预测,在确定商店s的p是否脱销时,SQL Server 2005 中的预测算法可能使用相似商店s中同一产品p的销售量事实数据,如此能够提高预测的准确性。

为产品p构建脱销预测模型的高级步骤

使用 SQL Server 2005 Analysis Services 构建最佳预测模型的两时期过程由以下高级步骤组成。将在以下的部分详细介绍这些步骤。

1. 使用数据仓库产品信息(维度)部分中的产品层次结构确定产品p的产品类不c(p)。

我们假定连锁商店中同一类不的产品具有相似的合计销售量模式。因此,产品结构层次用于标识特定产品p的相似产品集c(p)。另外,产品分类方法可用于基于连锁商店的销售量通过对产品进行分类来确定与p产品相似的数据驱动分类。

2. 为商店分类预备构建数据集D cluster模型来捕获类不为c(p)(在步骤1 中已确定)

的商店级属性和销售量。

3. 将Microsoft 分类算法应用于数据集D cluster,以便获得k个分类(组)的商店,这

些商店在类不c(p) 的商店级属性和销售量上相似。

4. 关于在步骤3 中获得的每个分类,l= 1,…,k:

i 使S(l) 成为商店集,该商店集属于分类l。注意,关于类不c(p),这些商店具

有相似的类不级合计销售量。

ii 创建数据集D OOS(p,S(l)),它由S(l) 中每个商店s的历史和当前每周销售量合计以及每周销售量合计变化组成。另外,还包括布尔标志,用于指明产品p在

以后一周和以后两周是否脱销。

iii 将SQL Server 2005 Analysis Services 中的构建预测模型算法(例如Microsoft 决策树或Microsoft 神经网络)应用于数据集D OOS(p,S(l))。将历

史和当前每周销售量合计作为输入属性,将一周和两周脱销布尔标志作为输出或

仅预测属性。这将使SQL Server 2005 Analysis Services 生成如此的模型:

该模型将其输入用作历史和当前每周销售量以及每周销售量变化,然后进行布尔

标志的预测,该标记指明产品p 将在以后一周和以后两周内是否脱销。

在接下来的两部分中将更加详细地介绍数据预备和构建模型步骤。

在 Project REAL 环境中,零售商为 Barnes & Noble。Project REAL(引用实现、端到端、大规模和大量用户的缩写词)是Microsoft Corporation、Apollo Data Technologies 和其他中坚技术合作伙伴(包括 UNISYS、EMC2、ProClarity、Panorama、Scalability Experts 和 Intellinet)协作的成果,目的在于创建 BI 系统的可引用的实现。

使用 Barnes & Noble 提供的可信企业数据,Project REAL 合作者能够发觉创建 BI 应用程序的最佳方法,这些 BI 应用程序基于 Microsoft SQL Server 2005。此完整系统通过以一种全面的方式分析大型数据集从而解决所有客户操作难题。

注意以下五个产品(书),这五个产品属于同一类不 (Chapter Books)。

?Captain Underpants & The Invasion of the Incredibly Naughty Cafeteria Ladies from Outer Space (Captain Underpants Series)

?Junie B Jones Is a Graduation Girl

?Dinosaurs:A Nonfiction Companion to Dinosaurs Before Dark (Magic Tree House Research Guide Series #1)

?City in the Clouds (Secrets of Droon Series #4)

?Twisters and Other Terrible Storms (Magic Tree House Research Guide Series)

第 I 时期:商店分类

注意,商店分类的目标是获得具有相似销售量模式的商店组,着重于产品p所属的类不c(p) 中产品的销售量。

第 I 时期首先构建将用于商店分类的数据集。为了将对活动零售销售量和库存数据仓库的计算阻碍降低到最低程度,我们建议您创建独立的 SQL 数据库来存储数据集,这些数据集用于使用SQL Server 2005 Analysis Services 构建模型。

商店分类数据集构建

用于商店分类的数据集由 2004 年 1 月到 2004 年 12 月这段时刻内的商店级合计销售量组成。该数据集由具有关键字StoreID的单个表组成。StoreID是整数,用于唯一标识每个连锁商店。

由于商店分类任务的目标是依照合计销售量模式的相似性将商店进行分类,因此我们与零售商合作以便标识对此练习有用的一组合计销售量属性。用于构建模型的这组属性的类型和信息内容通常会阻碍生成的输出模型。标识用于构建模型的一组属性时,我们发觉与对差不多业务过程有深刻理解的利益关系人合作会有好处。另外,依照在直接零售过程中差不多完成的工作,我们能够建议可能有用的属性。关于每个商店,基于数据仓库中的事实数据对属性进行合计。这些销售级合计如下。有关所有用于商店分类问题的商店级属性的详细讲明,请参见附录 A。

?产品(书)p所属的类不[在往常的部分中称为c(p)] 的特定类不的派生属性。它们是:?Category Average Weekly Modeled:特定商店中预期每周要出售的某类不的书的可能数量。

?Category Average Weekly On Hand:特定商店中某类不的每周可售(库存)平均值。

?Category Average Weekly On Order:特定商店中某类不的每周预定书平均数。

?Category Fraction Holiday Sales:特定商店中来自类不为c(p) 的书的节假日总销售量部分。注意,节假日销售量是在2004 年11 月15 日到2004 年12

月末之间所销售的书。

?Category Fraction Sales:特定商店中来自类不为c(p) 的书的非节假日总销售量部分。注意,非节假日销售量是在2004 年1 月1 日到2004 年11 月14 日之间所销售的书。

?Category Holiday Discount Amount:特定的商店的节假日期间,类不为c(p) 的折扣书总数。

?Category Holiday Markdown Amount:特定的商店的节假日期间,类不为c(p) 的减价书总数。

?Category Holiday Member Discount Amount:特定的商店的节假日期间,类不为c(p) 的书的总会员折扣。

?Category Holiday Sales Amount:特定的商店的节假日期间,类不为c(p) 的书的总销售量。

?Category Holiday Sales Quantity:特定的商店的节假日期间,类不为c(p) 的书的总数量。

?Category Total Discount Amount:特定的商店的非节假日期间,类不为c(p) 的折扣书总数。

?Category Total Markdown Amount:特定的商店的非节假日期间,类不为c(p) 的减价书总数。

?Category Total Member Discount Amount:特定的商店的非节假日期间,类不为c(p) 的书的总会员折扣。

?Category Total Sales Amount:特定的商店的非节假日期间,类不为c(p) 的书的总销售量。

?Category Total Sales Quantity:特定的商店的非节假日期间,类不为c(p) 的书的总销售量。

?关于以下每个类不,均计算属于该类不的节假日总销售量部分(例如附录 A 中的Cat Frac Holiday Sales)。另外,还将计算属于该类不的非节假日总销售量部分(例如附录 A 中的Cat Frac Sales 属性)。依照零售商的反馈,考虑用于捕获高级整个销售量的类不为:Beginning Reader、BG Bestseller、BGCKBKS Under 15、BG Reference、Blank Books、Board Block Touch、Chapter Books、Christian Insp、Cooking、Current Affairs、Family Child Care、Fantasy、Fiction、Fiction PB Young Readers、Hist Biog、Humor、Juv Activity、Juv Christmas、Juv Series HC、Juv

Series PB、Juv Work Books、Literature、Magazines、Management、Manga Japanese、Mystery、New Age、Newspapers、Pict Sty Bks、Pop Rock、Romance、Science Fiction、Self Improvement、Single Cards、Spinner、Techno Thriller Espionage 和Teen Fiction。

?还包括以下商店级合计。

?Total Holiday Sales:节假日期间,商店所有书的总销售量。

?Total Sales:非节假日期间,商店所有书的总销售量。

?Total Weekly Average Modeled:商店所售书的总量的平均每周可能值。?Total Weekly Average On Hand:特定商店可售书的每周平均总量。

?Total Weekly Average On Order:特定商店预定书的每周平均总量。

?以下商店属性也包括在商店分类数据集中:City、Linear Ft(商店中货架空间的直线英尺数)、(商店的)Square Feet和State。

通过 SQL 计算这些商店级属性和合计值,并存储于单独的、不规范的表中。注意,此表仅用于通过 SQL Server 2005 中的数据挖掘组件构建模型。假如某个组织想更新运行中的商店分类模型,我们建议您自动化此不规范的表的构建来预备数据。另外,能够定义视图(而不是表),从而从规范的事实数据和维度数据创建不规范的结果集。

该表的每行都由唯一的整数StoreID进行索引,同时对往常列表中的每个属性/合计都对应地包含一列,这些属性/合计在附录A 中有详细介绍。关于商店分类练习和构建脱销模型,考虑至少开业一年的商店。关于此特定零售商,这将为 794 个商店。因此,用于商店分类的单个 SQL Server 2005 关系表由 846 行和

100 列(1 列为 StoreID,其他 99 列用于存储在往常的属性值列表中定义的属性值)组成。

商店分类挖掘模型构建

构建源关系表后,我们通过 Microsoft Visual Studio(R) 2005 来接着构建商店分类挖掘模型。首先,在 Visual Studio 2005 中创建 Analysis Services 项目,然后创建连接到包含商店分类数据集的 SQL Server 实例的 Data Source 对象。还必须创建数据源视图。此数据源视图仅选择包含商店级属性和合计属性的单个表。参见图 1。

图 1:商店分类数据源视图

查看原尺寸图像

添加数据源视图后,将为商店分类练习创建新的挖掘结构和挖掘模型。挖掘结构定义将用于构建商店分类模型的列结构。除了Cat Fraction Sales和Cat Total Sales Qty属性以外,选择其他所有属性作为 Input 属性。选择 Cat Fraction Sales 和Cat Total Sales Qty 属性作为 Predict(Input 和Predictable)属性。参见图 2。

图 2:商店分类挖掘结构

查看原尺寸图像

与 Microsoft 分类算法相关联的 CLUSTER_COUNT 参数指定最大分类数,以便在源数据中搜索。在默认情况下,值为 10。为

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 购物篮分析的算法很多,比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。 缘起 “啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

大数据挖掘商业案例

1.前言 随着中国加入WTO,国金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。 从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。

大数据应用案例

四大经典大数据应用案例解析 什么是数据挖掘(Data Mining)?简而言之,就是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。 数据挖掘是如何解决问题的? 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。

一、尿不湿和啤酒 很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。按常规思维,尿不湿与啤酒风马牛不相及,若不是

数据挖掘商业案例

金融行业应用 1.前言 随着中国加入WTO,国内金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。

数据挖掘应用案例:RFM模型分析与客户细分完整版

数据挖掘应用案例:R F M模型分析与客户 细分 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

数据挖掘应用案例:RFM模型分析与客户细分 分类:| 标签: 2012-01-21 21:39阅读(16854) 这里,我先给各位朋友拜年,祝大家新春快乐! 兔年就要过去了,本命年的最后一天再不更新博客有点对不住大家!正好刚帮某电信行业完成一个数据挖掘工作,其中的RFM模型还是有一定代表性,就再把数据挖掘RFM模型的建模思路细节与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模型的交易数据要求。 根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。 我早期两篇博文已详述了RFM思想和IBM Modeler操作过程,有兴趣的朋友可以阅读! RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额。一般原始数据为3个字段:客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,Customer Level Value得分排序等,实现数据库营销!

这里再次借用@数据挖掘与数据分析的RFM客户RFM分类图。 本次分析用的的软件工具:IBM SPSS Statistics 19,IBM SPSS ,,EXCEL和PPT 因为RFM分析仅是项目的一个小部分分析,但也面临海量数据的处理能力,这一点对计算机的内存和硬盘容量都有要求。 先说说对海量数据挖掘和数据处理的一点体会:(仅指个人电脑操作平台而言) 一般我们拿到的数据都是压缩格式的文本文件,需要解压缩,都在G字节以上存储单位,一般最好在外置电源移动硬盘存储;如果客户不告知,你大概是不知道有多少记录和字段的; Modeler挖掘软件默认安装一般都需要与C盘进行数据交换,至少需要100G 空间预留,否则读取数据过程中将造成空间不足 海量数据处理要有耐心,等待30分钟以上运行出结果是常有的现象,特别 是在进行抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断就悲剧了,呵呵; 数据挖掘的准备阶段和数据预处理时间占整个项目的70%,我这里说如果是超大数据集可能时间要占到90%以上。一方面是处理费时,一方面可能就只能这台电脑处理,不能几台电脑同时操作; 多带来不同,这是我一直强调的体验。所以海量数据需要用到抽样技术,用来查看数据和预操作,记住:有时候即使样本数据正常,也可能全部数据有问题。建议数据分隔符采用“|”存储; 如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好的数据挖掘一定是市场导向的,当然也需要IT人员与市场人员有好 的沟通机制;

数据挖掘经典案例

数据挖掘经典案例 当前,市场竞争异常激烈,各商家企业为了能在竞争中占据优势,费劲心思。使用过OLAP技术的企业都知道,OLAP技术能给企业带来新的生机和活力。OLAP技术把企业大量的数据变成了客户需要的信息,把这些信息变成了价值,提高了企业的产值和效益,增强了客户自身的竞争实力。 “啤酒与尿布”的故事家喻户晓,在IT界里,几乎是数据挖掘的代名词,那么各商家企业受了多少启发,数据挖掘又给他们带来了多少价值呢? 客户需求 客户面对大量的信息,用OLAP进行多维分析。如:一个网上书店,用OLAP技术可以浏览到什么时间,那个类别的客户买了多少书等信息,如果想动态的获得深层次的信息,比如:哪些书籍可以打包推荐,哪些书籍可以在销售中关联推出等等,就要用到数据挖掘技术了。 当客户在使用OLAP技术进行数据的多维分析的时候,联想到“啤酒与尿布”的故事,客户不禁会有疑问,能不能通过数据挖掘来对数据进行深层次的分析呢,能不能将数据挖掘和OLAP结合起来进行分析呢? SQL Server 2005 数据挖掘: SQL Server 2005的Data Mining是SQL Server2005分析服务(Analysis Services)中的一部分。数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之,数据挖掘派生数据中存在的模式和趋势。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案,例如:预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。 Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法 (SSAS),可以预测离散属性,例如,预测目标邮件活动的收件人是否会购买某个产品。 Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性,预测连续属性,例如,预测下一年的销量。 Microsoft 顺序分析和聚类分析算法预测顺序,例如,执行公司网站的点击流分析。 Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组,例如,使用市场篮分析来建议客户购买其他产品。 Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法,查找相似项的组,例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 巅峰之旅之案例一:网上书店关联销售 提出问题 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务,等方式吸引更多的读者。

《数据挖掘:你必须知道的32个经典案例》

第五章 经典的机器学习案例 机器学习是一门成熟的学科,它所能解决的问题涵盖多种行业。本章介绍了四种经典的机器学习算法,它们所关心的重点在于机器学习是如何将统计学和数据挖掘连接起来的。通过学习本章,读者可以见识到机器学习的特殊魅力,并明白机器学习与其他学科的异同。使读者可以熟练地应用机器学习算法来解决实际问题是本章的目标。 5.1 机器学习综述 在正式开始了解机器学习之前,我们首先要搞清楚这样一个问题:世界上是不是所有的问题都可以使用一行一行清楚无误的代码解决?举个例子,倘若我们想让一个机器人完成出门去超市买菜并回家这一任务,我们能不能在程序里详详细细地把机器人所有可能遇到的情况以及对策都写下来,好让机器人一条一条按着执行? 答案是“很难”。机器人在路上可能遭遇塑料袋儿、石头、跑动的儿童等障碍物,在超市可能遇到菜卖完了、菜篮挪动了位置等问题,把这些问题全部罗列出来是不太可能的,因此我们就难以使用硬性的、固定的程序来命令机器人完成这件事,我们需要的是一种灵活的、可以变化的程序。就像你去买菜时不用你妈告诉你路上看见有人打架要躲开,你就知道要躲开一样(即便你以前从来没有遇见过这种情况),我们希望机器人也可以根据经验学习到正确的做法,而不是必须依赖程序员一条一条地输入“IF……THEN……”。 美国人塞缪尔设计的下棋程序是另一个的经典机器学习算法。塞缪尔设计了一个可以依靠经验积累概率知识的下棋程序,一开始这个程序毫无章法,但四年以后,它就能够打败塞缪尔了,又过了三年,它战胜了美国的围棋冠军。这个下棋程序进步的方式和人类学习下棋的过程非常类似,如何让机器像人类一样学习,正是机器学习关心的事情。 不难想象,机器学习是一门多领域交叉的学科,它主要依赖统计学、概率论、逼近论等数学学科,同时也依赖算法复杂度、编译原理等计算机学科。通俗的说,机器学习首先将统计学得到的统计理论拿来进一步研究,然后改造成适合编译成程序的机器学习算法,最终才会应用到实际中。但机器学习和统计学仍有不同的地方,这种差异主要在于统计学关心理论是否完美,而机器学习关心实际效果是否良好。同时,机器学习侧重于归纳和总结,而不是演绎。 机器学习将统计学的研究理论改造成能够移植在机器上的算法,数据挖掘将机器学习的成果直接拿来使用。从这一意义上来说,机器学习是统计学和数据挖掘之间的桥梁。机器学习也是人工智能的核心,机器学习算法普遍应用于人工智能的各个领域。此外,机器学习和模式识别具有并列的关系,它们一个注重模仿人类的学习方式,一个注重模仿人类认识世界的方式。因此机器学习、数据挖掘、人工智能和模式识别等本来就属于一个不可分的整体,离开其他学科的支持,任何学科都难以独立生存下去。 本章介绍了语义搜索、顺序分析、文本分析和协同过滤这四种经典的机器学习算法,它们不仅理论完善,同时也具有广泛的应用。通过本章的学习,读者将看到机器学习在各行各业中的神奇作用以及广阔前景,并学会如何使用机器学习算法来解决实际问题。

数据挖掘在Web中的应用案例分析

[数据挖掘在Web中的应用] 在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?挑战的背后机会仍存,所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。 [问题]: 1.根据你所学的知识,思考从网站中所获取的大量数据中,我们能做哪些有意义的数据分 析? 基于WEB 使用的挖掘,也称为WEB 日志挖掘(Web Log Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。 基于WEB 内容的挖掘:非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式. 基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类. 基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学(修改后的)关联规则\站点建设改进与管理销建立用户模式. 2.根据你所学的数据挖掘知识,谈谈哪些数据挖掘技术可以应用于Web中,以这些数据挖 掘技术可以完成哪些功能? Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在: (1)对网站的修改能有目的有依据稳步的提高用户满意度 发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。 (2)测定投资回报率 测定广告和促销计划的成功度 找到最有价值的ISP 和搜索引擎 测定合作和结盟网站对自身的价值

网络游戏运营中的数据挖掘技术及相关案例分析

网络游戏运营中的数据挖掘技术及相关案例分析 摘要 数据挖掘技术在网络游戏客户关系管理中的应用现今,数据挖掘技术已经在各个领域得以应用,并有了相当的发展。许多学者对数据挖掘的研究及其在客户关系管理中的应用上获得了相当的突破,很多行业因此获益匪浅。在我国,网络游戏作为一个新兴不久的行业,拥有着巨大的市场和庞大的潜力,但随之而来的是愈发激烈的市场竞争,一些主流的游戏运营商已经把目光投向了在传统行业中取得了巨大成功的客户关系管理体制。但是,不同于其他行业,网络游戏是建立在网络信息交流平台之上,它所搜集到的客户数据更为庞大和繁杂,那么怎样从如此庞大的数据中找到有效资料呢?这就需要应用到数据挖掘技术。本文简要介绍了网络游戏客户关系管理的模式和内容以及几种主要的数据挖掘技术;着重利用决策树玩家进行了分类、利用神经网络对玩家流失进行了分析、利用粗糙集对玩家信息进行了挖掘。通过上述分析论证了数据挖掘技术在网络游戏客户关系管理中应用的可行性和有效性。 关键词:网络游戏;客户关系管理;数据挖掘;应用 1 综述 “网络游戏”也被成为“在线游戏”(Online Games),是通过互联网进行、可以多人同时参与的电脑游戏,是通过人与人之间的互动以达到交流、娱乐和休闲的目的。网络游戏不同于其他行业,它建立在网络信息交流平台之上,因此,它所搜集到的客户数据更为庞大和繁杂,那么如何从如此庞大的数据中找到有效资料,又如何应用于客户关系管理之上,这便是我们需要去研究的问题。在我国,网络游戏是一个新兴的行业,对其研究多集中于法律的虚拟财产案件上,网络游戏客户关系管理方面的研究寥寥无几。虽然如此,但我们仍旧可以通过数据挖掘技术在其他行业上的客户关系管理中的应用里进行参考,进而对数据挖掘技术在网络游戏客户关系管理中的应用的可行性,有效性进行探讨。哈尔滨工程大学的鞠伟平,邓忆瑞所刊登的《基于决策树的数据挖掘方法在C R M 中的应用研究》中指出:“客户关系管理是一种旨在加强企业与客户之间关系的新的管理机制。其如何利用数据挖掘技术对客户数据进行深层分析,保留高价值客户、发掘潜力客户,实现在恰当的时间,为客户提供合适产品和服务是现在客户关系管理中的研究重点。本文将数据挖掘中的ID3 分类算法应用于CRM 系统中,不仅可以使企业更好地发现客户群特征,掌握市场动态,同时也将有助于企业的管理全面走向信息化。[3]” 山东财政学院的董宁所刊登的《数据挖掘技术在CRM 中的应用》中指出:“数据挖掘技术帮助企业管理客户生命周期的各个阶段,包括客户的识别、获取新的客户、让已有的客户创造更多的利润、保持住有价值的客户等。它能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务……客户识别的关键问题是确定对企业有意义客户的标准……数据挖掘技术应用在对营销的反映情况的预测上。根据历史数据运用数据挖掘技术建立“客户行为反应”预测模型,对客户的未来行为进行预测……解决客户流失问题,可以使用数据挖掘方法对已经流失客户进行分类,并对每类流失客户的特征进行描述。然后,使用关联、近邻等挖掘技术和方法对现有客户消费行为进行分析,以确定每类客户流失的可能性,其中着重于发现那些流失可能性大的优质客户。[4]” 华中师范大学经济学院的曹萍刊登的《利用数据挖掘技术(DM)提升客户关系

数据挖掘 应用案例

数据挖掘应用案例 1. 哪些商品放在一起比较好卖? 这是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。 另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。 2. 库存预测 过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。 使用Microsoft(R) SQL Server(TM) 2005 中的Analysis Services 以及SQL Server 数据仓库,采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为86.45%。详情见https://https://www.doczj.com/doc/c09085162.html,/china/technet/prodtechnol/sql/2005/ipmvssas.mspx 3. 股票预设 预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。 4. NBA教练如何布阵以提升获胜机会? 美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。 在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。 Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策

数据挖掘十大算法及案例

数据挖掘十大算法及经典案例 一、数据挖掘十大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 (一)C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1. 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2. 在树构造过程中进行剪枝; 3. 能够完成对连续属性的离散化处理; 4. 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

(二)The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 (三)Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和Barnard 将支持向量机和其他分类器进行了比较。 (四)The Apriori algorithm Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 (五)最大期望(EM)算法

数据挖掘应用20个案例分析之电信3G客户识别系统

数据挖掘技术及工程实践系列丛书之数据挖掘应用20个案例分析 (V01.00.000) 广州太普信息技术有限公司 地址:广州市经济技术开发区科学城232号 网址:https://www.doczj.com/doc/c09085162.html, 邮箱:5iai2008@https://www.doczj.com/doc/c09085162.html, 热线:40068-40020 邮编:510663 电话:(020)85661483/85666585

案例三电信3G客户识别系统 挖掘目标的提出 有专家预计,目前我国3G普及率约14%,2012年或能达到20%以上,中国已经步入进入3G快速增长期。3G已经是我国电信运营市场毫无争议的主角。三大运营商都纷纷采取各种方法争夺3G市场,竞争趋于白热化。移动借由2G时代积累的优势,在3G用户总数上暂时领先,但优势已不明显,目前3G市场已成“三分天下”之势,未来运营商角力的关键还在于各自的网络质量和发展客户的手段。其中,发展客户的手段与对客户信息的掌握有很大的关系[19]。 如何在海量的数据中识别出3G客户?并进而认知3G客户的特征特点,为相关部门对这部分客户进行重点宣传、发送E-mail提供决策支持,以提升预期的宣传效果? 本案例的挖掘目标是: 1)构建3G客户识别分类模型,并进行特征分析 建模方法与过程 图2_11和图2_12分别是3G客户识别数据挖掘建模过程和数据流程。 图2_113G客户识别数据挖掘建模过程

图2_123G客户识别建模数据流程 下面对3G客户识别主要过程加以说明。 1.数据抽取 本案例数据来源于某电信运营公司,该数据总量为24000条。每一条对应一个客户近六个月的统计信息。其中已知分类(2G、3G)的为18000条,未知分类6000条。其中包括客户年龄,月平均消费额,月平均通话时长等属性250个(包括客户类型)。 本例利用18000条已知分类的数据进行分类模型的建立,随机抽取训练数据10000条,测试数据8000条。 2.数据预处理 有效的数据预处理能使数据挖掘事半功倍。经统计,该数据有缺失数据多,数据取值范围广,数据取值类型多样的特点。因此建模前的预处理是必不可少的。比如采集的样本数据存在一些属性值的缺省或空值,如果不做处理,将直接影响后续算法的挖掘效果,严重时甚至得到错误的结果。采用相关的算法,如用该属性值的平均值、固定值或出现最多属性值,对缺省的属性值进行补充,也可以去除属性值缺省的那个实例,为后续的数据挖掘提供高效可用的数据。 1)数据清洗 数据清洗分为类型转换和缺失数据填补两部分。具体操作如表2_7和表2_8:

相关主题
文本预览
相关文档 最新文档