当前位置：文档之家› 交通行业统计分析及数据挖掘的研究

交通行业统计分析及数据挖掘的研究

公共交通行业统计分析及数据挖掘的研究

-------V1.0.1

作者：夏玮

使用工具：R，SPSS Statistics，SPSS Modeler，

常用算法：

研究目标

研究目标1及步骤简述

形成公共交通行业客流量的数学模型如下：

分析式1：Y= z+a1 X1n + a2 X2 n + a3 X3 n…….

其中：

Y 是因变量（Y1表示客流量，Y2表示消费金额，Y3表示优惠金额）

X1, X2, X3…..是影响客流量变化的自变量

a1, a2, a3…..是对自变量X1, X2, X3…...分别影响Y的变化程度的度量，即相关系数

当n=1时为线型关系，z为线型方程的截距；n>1时为非线性关系

第一步，通过变量散点图的形状，可以判断变量之间相关程度的强弱，方向和性质，但并不能得知其相关的确切程度。较常用的指标为协方差Covariance和correlation。

第二步，进一步的统计分析求出描述变量间相关程度与变化方向的量数，即相关系数。通过初步分析可推断公式中因变量Y是否与各变量X1（行业大类），X2（高峰时段），x3（日期类型）等等有相关性关系，即是否会随着自变量的变化，因变量也会随着变化。

并量化出每一个变量X1, X2……对因变量Y的影响程度a1, a2…..，形成公式Y= a1 X1 + a2 X2。。。。。。（其中a1, a2…….是通过量化分析得出的常数）。

第三步，还需要对X4日期类型中（如工作日或节假日），X5每周休假天数（即包含节假日或不包含节假日天数），X6天气情况（阴天，雨天，晴天；春夏秋冬）等各种不同影响客流量的因素进行分析，方法如使用主成分分析（Principal Component Analysis，PCA），将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法，又称主分量分析。完成此步骤能够对轨道交通或公交的影响程度分析将会进一步精确客流量分析模型。

交通发生预测的目的是建立分区产生的交通量与分区土地利用、社会经济特征等变量之间的定量关系，推算规划年各分区所产生的交通量。因为一次出行有两个端点，所以我们要分别分析一个区生成的交通和吸引的交通。交通发生预测通常有两种方法：回归分析法和聚类分析法。[1]

回归分析法是根据对因变量与一个或多个自变量的统计分析，建立因变量和自变量的关系，最简单的情况就是一元回归分析，一般式为：Y=α+βX式中Y是因变量，X是自变量，α和β是回归系数。若用上述公式预测小区的交通生成，则以下标i 标记所有变量；如果用它研究分区交通吸引，则以下标j 标记所有变量。而运用公式的过程中需要利用最小二乘法来求解，上述公式中的回归系数根据最小二乘法可得：

研究目标2及步骤简述

主要目标：分析整个公共交通行业，当出行成本有调整时比如公交换乘优惠从1元变成了1.5元或者地铁或公交的票价的调整，对客流量及消费金额产生的影响。

例如: 北京地铁票价的上调，会对用户的出行习惯产生如何的影响。本来习惯乘地铁的人由于成本的增长改成了公交, 那就需要调整公交线网的分布。

又例如由于天气的欠佳使得公交不够便利又有部分人在雨天的时候会选择地铁，类似情况零零总总，在此不列数。

数学模型设因变量Y中增加另一变量票价Y4，

当每变动一个单位的票价会对客流量，消费金额，优惠金额分别产生如何的影响。

式1：delta Y4 delta Y1 || delta Y2 || delta Y3

式2：Y（Y1，Y2，Y3）= a1 X1n + a2 X2 n + a3 X3 n……. + delta Y4 n

研究目标3及步骤简述

充资金额的研究，卡公司可以通过研究结果对特定用户人群实施特定的营销策略，增加充资金额的沉淀。

此类研究的方法主要分2步，

1.用户人群的分析

2.用户人群对营销目标（充资金额）的分析

此种分析方法可以适用于任何需要做营销的行业，其中对用户人群性质的分析，用户习惯的分析及特定目标人群的结果预测，比如现在很多网站都会推荐给用户商品，可能你会感兴趣的就是一种应用。

研究目标4及步骤简述

宕帐分析，又称异常点分析。即在正常的消费充资模式中，找出异常模式，最终能够了解宕帐各种出现模式。做到防范于未然，而不是简单的在消费充资结果中找宕帐。

研究目标5及步骤简述

典型卡出行链分析，当前用户定义的需求在数据仓库中典型卡的实现对于典型卡出行链的判断并不理想。在此需要用更高级的方法，找出典型卡出行链的出行模式。

研究目标1：

数据基础性研究

1.相关系数分析- Pearson相关系数的计算

方法限制:

a. 两变量来自的总体都应是正态分布或接近正态的单峰对称分布

b. 两变量间为线型关系

当前统计方法的不足之处：

a)统计样本数据量较少取的仅仅是201405一个月的数据，根据中心极限定理，从样

本数据推断总体情况会产生统计误差，如果标准误较大，可以通过标准误的分析，然后增加样本量逐步减少统计误差。

b)需与总体相关系数P=0 比较，要求进行假设检验，判断结果不等于0是由于抽样误

差所致，还是两个变量之间确实存在相关关系。

c)对于变量较多的分析，需要使用PCA或多元线性回归分析建立最终的结果模型。随

着变量的增加，会增加线性回归分析的复杂性，对计算量要求较大。但会增加模型

的精确度。

1.1客流量数据-1

1.2统计结果

a.数据1, 描述如下：

b.数据1，客流量Y1，消费金额Y2，优惠金额Y3做配对图

按高峰时段分析，从图中不同的聚簇看应该是按行业的，KYL和XF_JE，具有强烈的线型关系，每一个聚簇都可以产生不同的函数，右边数值是变量之间的相关系数。

数据1，Y1，Y2，Y3相关系数矩阵：

1.3分析检验结果

a.对客流量数据1中201405月的数据以行业大类X1与客流量Y1做显著性检验:

结论1：行业大类X1与客流量Y1统计性无线性关系

b.对客流量数据1中201405月的数据以高峰时段X2与客流量Y1做显著性检验:

结论2：高峰时段X2与客流量Y1统计性无线性关系。

c.对客流量数据1中201405月的数据以客流量Y1和消费金额Y2做显著性检验:

结论3：客流量Y1和消费金额Y2统计性有极大线性关系。

d.对客流量数据1中201405月的数据以客流量Y1和优惠金额Y3做显著性检验:

结论3：客流量Y1和优惠金额Y3统计性有极大线性关系。

e.对客流量数据1中201405月的数据以消费金额Y2和优惠金额Y3做显著性检验:

结论3：消费金额Y2和优惠金额Y3统计性有较大线性关系

f.客流量数据1 的数据性质分析：

在所有行业的数据集合上看，应对行业1地铁和3公交先做分析，因为比其他行业的离散程度更大，数据量（指数级别）更大，包含的信息更多，其次可以再分析行业5出租。

（直接从示例数据上也能看出差异，但无法度量方差和标准差，而且最终的分析是针对交通卡海量的历史数据建立有价值的系统模型，所以建立一套完整的系统是必然的）

客流量数据-1分析总结1：初步分析可推断公式中Y1（客流量）与变量X1（行业大类），X2（高峰时段）没有线型关系，即并不存在Y= a1 X1 + a2 X2.。

分析总结2：Y1，Y2，Y3之间都有线性关系，客流量Y1和优惠金额Y3的线性关系最大；消费金额Y2和优惠金额Y3线性关系最小，因为优惠金额是人为设定的应该还包含其他的关系。

从实际理解上看，上海的客流人群不乘公交就乘地铁，并无完全的独立性。

某些因素会对客流量的变化产生影响，比如外在的因素如下雨天乘公交不方便的人，会改成地铁，节假日或工作日对于时间的急迫性；舒适程度如拥挤程度，便利度都会影响人群对于出行方式的选择，公交站点离下车地点更近时间也不紧急，会偏向于乘公交；个人价值因素如个人的偏好及不同的价值取向，如节约时间或费用无所谓的人会更偏向于乘地铁。

对于零零总总的情况则需要建立神经网络等更高级的非线性模型进行量化分析及预测。

2.1 客流量数据-2

通过对客流量数据1的分析，需要对数据做相应调整。

调整原因：在客流量数据1中，行业大类X1、高峰时段X2与客流量Y1并没有统计学上的线性相关性。

所以在客流量数据源2将行业分开。重点对行业1地铁，行业3公交分别分析，其他行业的数量波动相对较低，数量级也较小。

2.2 统计结果

数据2-1，数据描述如下：

数据2-2，描述如下：

数据2-2，相关系数矩阵：

2.3 分析检验结果

a. 对客流量数据2中201405月行业=1地铁数据，客流量Y1和消费金额Y2做显著性检验:

结论：地铁的客流量Y1和地铁的消费金额Y2统计上有极大的正相关关系。

数据2-1，地铁的关系图如下图所示:

上图横坐标是201405月地铁的所有客流量，纵坐标是201405地铁的所有消费金额，颜色分别代表了高峰时段0=低峰，1=早高峰，2晚高峰，中间相应颜色的连线是对所有点趋势的曲线拟合图，周边灰色带是对应的距离。

说明1，地铁行业，因为Y1与Y2之间具有极大的正相关性关系，相关系数a1, a2, a3…..对自变量X1, X2, X3…...的影响系数，都同样适用于对客流量Y1及消费金额Y2的度量。

说明2，此处低峰时段客流量的增加消费金额较为平滑，从右上部分是有一部分向下凹。此客流量说明有一定程度的消费金额的减少。而超过灰色部分的数值可以被认为是异常点部分。这些数据应该是由特殊因素造成的。

b. 对客流量数据2-2中201405月行业=3的公交数据以客流量Y1和消费金额Y2做显著性检验:

cor.test(~pg3$KYL_TTL+pg3$XF_JE_TTL, pg3)

结论：公交的客流量Y1和公交的消费金额Y2统计上有极大的正相关关系。

公交的关系图如下图所示：

此图横坐标是201405月公交的所有客流量，纵坐标是201405公交的所有消费金额，颜色分别代表了高峰时段0=低峰，1=早高峰，2晚高峰，中间相应颜色的连线是对所有点趋势的曲线拟合图，周边灰色带是对应的距离。

说明1，公交行业，因为Y1与Y2之间具有极大的正相关性关系，相关系数a1, a2, a3…..对自变量X1, X2, X3…...的影响系数，都同样适用于对客流量Y1及消费金额Y2的度量。

说明2，此处低峰时段客流量的增加消费金额有很明显的减少。从右上图中是明显的向下凹部分，早高峰也有轻微的向下倾斜。

比较说明3，从地铁和公交的上下两个图可以区别出，201405月，地铁图中左下方高峰时段客流量和消费金额的关系更平滑；而在公交的低峰时段有明显向下凹的部分，可以知道的是客流量增加但是消费金额有减少趋势，可理解是公交的优惠程度大于地铁，而在这个数量级的时候会产生较大的优惠，而奇怪的是更大的客流量反而会恢复正线性关系。

大部分点也集中于下凹区域附近。总体上看公交的优惠力度比地铁要大。

线性回归分析

a.前提假设：

样本变量必须正态分布，根据中心极限定理可以确定

两个变量必须是线性关系：已通过前一步得到验证

b.步骤：建立回归模型，求解回归模型中的参数，对回归模型进行检验

对数据集2-1 做线性回归：

总结：201405，地铁的线型回归模型方程为：

XF_JE = 375.2 * KYL + 4231717

#回归系数的假设检验

1.1地铁全量分析

数据集1，描述如下：

数据集足够大后就能看到有明显的正相关性，其中有少数的异常点都是3个点对总体样本偏差不会造成太大影响。。。

客流量VS消费金额：XF_JE = 372.9 * KYL + 3864784

截距和系数都非常合理，极度显著！

客流量VS优惠金额：YH_JE = 4.736e+01 * KYL -6.797e+06

截距和系数都非常合理，极度显著！但是误差有点大，尝试了其他的非线性模型。都没有这个好。。。。。

1.2客流量VS消费金额by高峰时段-

通过分开高峰时段，可以增加模型的精确度

GFSD_DM=0

a. 客流量VS消费金额_LN：XF_JE = 370.6 * KYL + 8824615

截距不合理？系数非常合理，极度显著！

客流量VS消费金额_LOG:

客流量VS消费金额_EXP:

客流量VS消费金额_POW: 最佳！！！

GFSD_DM=1

数据挖掘可视化系统研究与实现

数据挖掘可视化系统设计与实现摘要：针对当前数据可视化工具的种类、质量和灵活性的存在的不足，构建一个数据挖掘可视化平台。将获取的数据集上传到系统中，对数据集进行预处理，利用Mahout提供的分类、聚类等挖掘算法对数据集进行挖掘，使用ECharts将挖掘产生的结果进行可视化展示。关键词：数据挖掘；可视化展示；数据预处理；挖掘算法 1引言大数据时代，通过数据挖掘，可以对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从而提取辅助商业决策的关键性信息。丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来，加深用户对数据含义的理解，更好地了解数据之间的相互关系和发展趋势。然而当前数据可视化工具的种类、质量和灵活性较大的影响数据挖掘系统的使用、解释能力和吸引力。为此，本系统使用分布式大数据处理技术进行数据的存储和计算，构建一个数据挖掘可视化平台，以多种挖掘算法的实现对原始数据集进行挖掘，从而发现数据中有用的信息。 2.关键技术 (1)MapReduce离线计算框架一种在YARN系统之上的大数集离线计算框架，使用MapReduce可以并行的对原始数据集进行计算处理，从而高效的得出结果。 (2)HBase分布式数据库 HBase是一个构建在Hadoop之上分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，他是一个适合于非结构化数据存储的数据库。 (3)Mahout Mahout是Apache Software Foundation旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现。包括聚类、分类、推荐过滤、频繁子项挖掘等算法的实现。 (4)ECharts Echarts是百度团队对ZRender做了一次大规模重构的产物。他被定义为商业级报表，创建了坐标系，图例，提示，工具箱等基础组件，并在此上构建出折线图、柱状图、散点图、K线图、饼图、雷达图、地图、和弦图、力导向布局图、仪表盘以及漏斗图，同时支持任意纬度的堆积和多图表混合实现。 3.研究思路数据挖掘可视化系统包括以下模块： (1)前台展示通过对上传的数据集处理、挖掘、分析，将有价值的信息结果以图形化的形式展现给用户。 (2)数据集的存储将要处理的数据集存储到HBase数据库中。HBase数据库能够对大数据提供随机、实时的读写访问功能。 (3)后台数据处理通过使用Mahout数据挖掘包，对挖掘算法进行相关参数的设定，对从数据库中提取的数据集进行挖掘，从而提取出有用的信息。具体如图1所示：

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科，涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘（Data Mining）指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息，提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说，数据挖掘是在对数据全面了解认识的基础之上进行的一次升华，是对数据的抽象和概括。如果把数据比作矿产资源，那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比，原始的数据信息可以是结构化的，数据库中的数据，也可以是半结构化的，如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法：使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

基于数据挖掘技术的学生成绩分析系统

本科毕业设计（论文）题目: 基于数据挖掘技术的学生成绩分析系统的设计与实现姓名张宇恒学院软件学院专业软件工程班级2010211503 学号10212099 班内序号01 指导教师牛琨 2014年5月

基于数据挖掘技术的学生成绩分析系统的设计与实现摘要随着科技的不断发展和中国教育制度的日趋完善，各大高校对教务管理工作提出了越来越高的要求。各大高校不再满足于传统的成绩管理方式，开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。教务工作人员使用关联规则挖掘算法分析课程间的内在联系，可为学校的改进教学工作提供依据，并为学生的选课和学业规划提供指导；对学生进行分类，让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解，方便学生扬长避短选择选修课程，及时对可能在学习上遇到困难的学生进行预警；运用聚类算法对学生进行聚类，找出具有共同特征的学生，并对不同学生群体分别采取不同的教学方法，初步体现因材施教的教育理念，最终探索出适合中国国情和教育制度的个性化培养模式。本系统采用Eclipse作为开发平台，以Java作为开发语言。通过对高校学生成绩分析系统的需求分析，本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系，使用分类算法对学生进行分类，使用聚类算法对学生进行聚类。希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。关键词成绩分析关联规则分类聚类

Design and implementation of student achievement analysis system based on data mining technology ABSTRACT With the continuous development of technology and the Chinese education system maturing, Universities have put higher requirements to their academic administration. Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students’ achievement. Staff of academic affairs use association rule mining algorithm to analysis intrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the student's enrollment and academic planning. Using classification algorithm to classify the students, so that students can have a clear understanding in their academic performance, and facilitate students in selecting courses. Warning students who probably face difficulties in the academic. Using clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in different way, embodies the concept of individualized education, finally discover a personalized education model, which is suitable for China's national conditions and education system. The system was developed in Eclipse, with java as a development language. By analyzing the need of student achievement analysis system, this system uses association rule mining algorithm to analysis intrinsic link between courses, uses classification algorithm to classify the students, uses clustering algorithm to cluster the students to identify students.I hope this system can provide some reference value to the future development of college student s’ achievement analysis system. KEY WORDS achievement analysis association rules classification clustering

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

大数据及数据挖掘方法

山东科技大学本科毕业设计（论文）题目大数据及数据挖掘方法学院名称数学与系统科学学院专业班级统计学10 学生姓名周广军学号201001051633 指导教师高井贵二0一四年六月

大数据及数据挖掘方法摘要随着计算机技术的革新，互联网新媒体的快速发展，人们的生活已经进入高速信息时代。我们每天的生活都要产生大量数据，因此我们获取数据的速度和规模不断增长，大量数据不断的被存入存储介质中形成海量数据。海量数据的存储、应用及挖掘已成为人们研究的重要命题。数据挖掘是从存放在数据库、数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但潜在有用的信息和知识过程。表现形式为：规则、概念、规律及模式等。数据挖掘是一门广义的交叉学科，从一个新的角度把数据库技术、人工智能、统计学等领域结合起来，从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式。在数据挖掘中，数据分为训练数据、测试数据、和应用数据。数据挖掘的关键是在训练数据中发现事实，以测试数据作为检验和修正理论的依据，把知识应用到数据中去。本文首先说明了大数据的概念及兴起与发展历程，然后介绍各种主流的数据分析挖掘方法。关键词：大数据数据挖掘数据分析方法

Abstract With the development of computer technology, the rapid development of Internet and new media, people's life has entered the information era. Our everyday life is to have a large amount of data, so we get the growing data speed and scale, a large amount of data have been stored in the form of mass data storage medium.The storage, application and mining massive data has become an important proposition that people study. Data mining is stored in the database from the data warehouse, or other information in the library a lot of incomplete, noise fuzzy random data in which the extraction of implicit previously unknown, but potentially useful information and knowledge process. Manifestation: the rules, concepts, rules and patterns. Data mining is a crossed subject, database technology, artificial intelligence, statistics and other fields together to from a new point of view, from a more deep excavation in data within a novel, effective, with potentially useful and ultimately understandable patterns. In data mining, data is divided into training data, test data, and the application of data. The key to data mining is fact finding in the training data, the test data as test and modify the theory basis, the application of knowledge to the data. This paper firstly illustrates the concept and the rise and development of large data, and then introduce various mainstream data mining method. Keywords: large data data mining method of data analysis

数据挖掘之专家系统

《数据挖掘》期末总结 ——专家系统有关专家系统：定义：是一个（或一组）能在某特定领域内，以人类专家水平去求解该领域中困难问题的计算机智能程序系统。构成：完整的专家系统包括人机接口、推理机、知识库、数据库、知识获取器和解释机构六部分，如下图：用户领域专家知识工程师其核心在于推理机与知识库和综合数据库的交互作用，使得问题得以解决。工作过程： 1）根据用户的问题对知识库进行搜索，寻找有关的知识；（匹配）2）根据有关的知识和系统的控制策略形成解决问题的途径，从而构成一个假设方案集合；

3）对假设方案集合进行排序，并挑选其中在某些准则下为最优的假设方案；（冲突解决） 4）根据挑选的假设方案去求解具体问题；（执行） 5）如果该方案不能真正解决问题，则回溯到假设方案序列中的下一个假设方案，重复求解问题； 6）循环执行上述过程，直到问题已经解决或所有可能的求解方案都不能解决问题而宣告“无解”为止。企业、政府机构用的专家系统都是有严密的逻辑、也涉及大量的数据分析、并且是经过领域专家、工程师的经验校验，详细用户需求分析后的结果。而实际上，在我们的日常生活中，也不经意的在思维过程中用到了专家系统，譬如在游戏“你来描述我来猜”的过程中，我们就可以抽取出一个专家系统——、动物识别专家在推理过程中，会同时推出几个结论。如：有毛发、会吃肉、有斑点——首先推出金钱豹有黑色条纹——再推出老虎有蹄——再推出斑马

有关学科总结一学期结束，静下心复习总结时，才发现，这一学期无数次与数据挖掘打交道。还记得《应用统计学》第一次作业：谈谈统计学与数据挖掘的关系。还记得《管理信息系统》中CRM（客户关系管理系统），客户细分时提到的数据挖掘；决策支持系统以及BI中用到的数据挖掘。还记得《信息系统分析与设计》做需求分析时要用到数据挖掘。还记得跟老师做项目，查找信息可视化及知识图谱原理时，再一次提到数据挖掘。就像课堂上说的：“互联网的时代，我们缺的不再是数据本身，而是海量数据包含的、隐含的信息，而这一信息的获取，除了我们敏锐的观察力从数据本身看到以外，还有太多有价值的信息需要我们运用相当的工具去深入挖掘——数据挖掘，理所应当成为了时代的必须，也是我们取胜的必须”。《数据挖掘》课程本身更多的是给我们一种思想，一种看待、解决问题的新途径。通过课程的学习，我们不再简简单单的追求数据，我们会更多的去思考数据。《应用统计学》也在讲数据处理，但应用统计学更多的是对已知数据分布的描述和趋势的预测，抑或是结论的检验。而《数据挖掘》所讲的数据是更倾向于如何把表面无关的数据建立联系，并从中获取有用信息。《应用统计学》是现状的描述和预测的检验，而《数据挖

分析报告、统计分析和数据挖掘的区别

分析报告、统计分析和数据挖掘的区别关于数据挖掘的作用，Berry and Linoff的定义尽管有些言过其实，但清晰的描述了数据挖掘的作用。“分析报告给你后见之明 (hindsight)；统计分析给你先机 (foresight)；数据挖掘给你洞察力(insight)”。举个例子说。你看到孙悟空跟二郎神打仗，然后写了个分析报告，说孙悟空在柔韧性上优势明显，二郎神在力气上出类拔萃，所以刚开始不相上下；结果两个人跑到竹林里，在竹子上面打，孙悟空的优势发挥出来，所以孙悟空赢了。这叫分析报告。孙悟空要跟二郎神打架了，有个赌徒找你预测。你做了个统计，发现两人斗争4567次，其中孙悟空赢3456次。另外，孙悟空斗牛魔王，胜率是89%，二郎神斗牛魔王胜率是71%。你得出趋势是孙悟空赢。因为你假设了这次胜利跟历史的关系，根据经验作了一个假设。这叫统计分析。你什么都没做，让计算机自己做关联分析，自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫练得刻苦；打架经验丰富的人因为擅长利用环境而机会更多；在都遇得到明师的情况下，贫苦出身的孩子功夫可能会高些；单身的人功夫总比同样环境非单身的高。孙悟空遇到的名师不亚于二郎神，而打架经验绝对丰富，并且单身，所以这次打头，孙悟空赢。这叫数据挖掘。数据挖掘跟LOAP的区别在于它没有假设，让计算机找出这种背后的关系，而这种关系可能是你所想得到的，也可能是所想不到的。比如数据挖掘找出的结果发现在2亿条打斗记录中，姓孙的跟姓杨的打，总是姓孙的胜利，孙悟空姓孙，所以，悟空胜利。用在现实中，我们举个例子来说，做OLAP分析，我们找找哪些人总是不及时向电信运营商缴钱，一般会分析收入低的人往往会缴费不及时。通过分析，发现不及时缴钱的穷人占71%。而数据挖掘则不同，它自己去分析原因。原因可能是，家住在五环以外的人，不及时缴钱。这些结论对推进工作有很深的价值，比如在五环外作市场调研，发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。

数据挖掘系统设计技术分析

数据挖掘系统设计技术分析【摘要】数据挖掘技术则是商业智能（Business Intelligence）中最高端的，最具商业价值的技术。数据挖掘是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉，随着海量数据搜集、强大的多处理器计算机和数据挖掘算法等基础技术的成熟，数据挖掘技术高速发展，成为21世纪商业领域最核心竞争力之一。本文从设计思路、系统架构、模块规划等方面分析了数据挖掘系统设计技术。【关键词】数据挖掘；商业智能；技术分析引言数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它可广泛应用于电信、金融、银行、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。数据挖掘应用的领域非常广阔，广阔的应用领域使用数据挖掘的应用前景相当光明。我们相信，随着数据挖掘技术的不断改进和日益成熟，它必将被更多的用户采用，使企业管理者得到更多的商务智能。 1、参考标准 1.1挖掘过程标准：CRISP-DM CRISP-DM全称是跨行业数据挖掘过程标准。它由SPSS、NCR、以及DaimlerChrysler三个公司在1996开始提出，是数据挖掘公司和使用数据挖掘软件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商用来指导其开发数据挖掘软件，同时也是开发数据挖掘项目的过程的标准方法。挖掘系统应符合CRISP-DM的概念和过程。 1.2ole for dm ole for dm是微软于2000年提出的数据挖掘标准，主要是在微软的SQL SERVER软件中实现。这个标准主要是定义了一种SQL扩展语言：DMX。也就是挖掘系统使用的语言。标准定义了许多重要的数据挖掘模型定义和使用的操作原语。相当于为软件提供商和开发人员之间提供了一个接口，使得数据挖掘系统能与现有的技术和商业应用有效的集成。我们在实现过程中发现这个标准有很多很好的概念，但也有一些是勉为其难的，原因主要是挖掘系统的整体概念并不是非常单纯，而是像一个发掘信息的方法集，所以任何概念并不一定符合所有的情况，也有一些需要不断完善和发展中的东西。 1.3PMML

史上最系统的大数据挖掘技术及其应用介绍

藏的秘密，大量的数据可以按0或1的二进制方式存储半导体材料内，它们的存储能力如此巨大，成本如此低廉，以至于以往被轻易忽略的数据都能被忠实的保存下来：我们每一下轻微的呼吸、每一次心脏的跳动、每一下鼠标的点击，企业里员工的每一次出勤、财务的每一笔账单、客户的每一个评论，包罗万象都能一一记录。与此同时，数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容，通称为结构化数据，而大数据时代涌现出了大量新型数据的、非结构化的数据。例如人群之间看不见的社交关系（Social Relationships），移动设备发射的GPS位置，网络传播的图像、视频信号，可穿戴设备采集的健康数据等。对这些各种各样

的数据的采集、挖掘、运用，也是现代大数据挖掘的重要研究课题。正在发生的大数据变革，恐怕是人类技术发展中最重要的话题之一，它冲击着许多主要的行业，包括零售业、服务业、电子商务和金融领域等，同时大数据技术也正在彻底的改变我们的日常生活。如果把数据比作是矿石的话，大数据挖掘技术就是要从矿石中提炼出黄金，并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质，也能为现代企业带来更高效和稳健的管理方式。小到个人，大到企业和国家，大数据均是极度重要的一个议题，需要我们真正的深入理解它，因此本文将对大数据挖掘技术给出全景式的介绍，首先

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向摘要：数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展方向。关键词：数据挖掘；神经网络；决策树；粗糙集；模糊集；研究现状；发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现（Knowledge Discovery in Databases），是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。 1 数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择：确定发现任务的操作对象,即目标对象；预处理：包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等；转换：消减数据维数或降维；数据开采：确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等，并确定使用什么样的开采算法；解释和评价：数据挖掘阶段发现的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要剔除，使用户更容易理解和应用。十大经典算法如图2：目前，数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

统计学和数据挖掘区别

统计学和数据挖掘区别数据分析微信公众号datadw——关注你想了解的，分享你需要的。 1．简介统计学和数据挖掘有着共同的目标：发现数据中的结构。事实上，由于它们的目标相似，一些人（尤其是统计学家）认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上，有时候还导致了反感。统计学有着正统的理论基础（尤其是经过本世纪的发展），而现在又出现了一个新的学科，有新的主人，而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字，势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话，统计的最初含义是“陈述事实”，以及找出枯燥的大量数据背后的有意义的信息。当然，统计学的现代的含义已经有很大不同的事实。而且，这门新学科同商业有特殊的关联（尽管它还有科学及其它方面的应用）。本文的目的是逐个考察这两门学科的性质，区分它们的异同，并关注与数据挖掘相关联的一些难题。首先，我们注意到“数据挖掘”对统计学家来说并不陌生。例如，Everitt定义它为：“仅仅是考察大量的数据驱动的模型，从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析，因为他们知道太细致的

研究却难以发现明显的结构。尽管如此，事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意，也是当前数据挖掘的任务。 2．统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到，但会引来很多异议。相反，我要关注统计学不同于数据挖掘的特性。差异之一同上节中最后一段提到的相关，即统计学是一门比较保守的学科，目前有一种趋势是越来越精确。当然，这本身并不是坏事，只有越精确才能避免错误，发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法，我是不同意这个观点的。尽管统计学确实以数学为基础（正如物理和工程也以数学为基础，但没有被认为是数学的分支），但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势：在采用一个方法之前先要证明，而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法，但它却不能被证明（或还不能被证明）。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合，已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确，而只是说明如果方法不能产生结果的话就会被放弃。

史上最系统的大数据挖掘技术及其应用介绍

从人类文明诞生的那一刻起，数据就伴随我们而生——人类交流信息所用的文字和语言，计量距离或数量使用的记号和图案，观察自然所积累和传承的经验等，都是数据构成的。这些数据在百万年历史长河里，为人类文明的发展进化带来了难以估量的巨大价值。自从人类发明了纸和笔，创造了数字、文字、几何技术后，数据有了更精确的描述和记录的方法，在此基础上催生出了数字、物理、化学，以及文学、艺术、管理等学科，我们今天所享受的现代文明，都深深的植根于数据技术。随着互联网时代的大发展，数据记录逐步脱离了纸笔的限制，人类发明了廉价的硅晶半导体所蕴藏的秘密，大量的数据可以按0或1的二进制方式存储半导体材料内，它们的存储能力如此巨大，成本如此低廉，以至于以往被轻易忽略的数据都能被忠实的保存下来：我们每一下轻微的呼吸、每一次心脏的跳动、每一下鼠标的点击，企业里员工的每一次出勤、财务的每一笔账单、客户的每一个评论，包罗万象都能一一记录。与此同时，数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容，通称为结构化数据，而大数据时代涌现出了大量新型数据的、非结构化的数据。例如人群之间看不见的社交关系（Social Relationships），移动设备发射的GPS位置，网络传播的图像、视频信号，可穿戴设备采集的健康数据等。对这些各种各样的数据的采集、挖掘、运用，也是现代大数据挖掘的重要研究课题。正在发生的大数据变革，恐怕是人类技术发展中最重要的话题之一，它冲击着许多主要的行业，包括零售业、服务业、电子商务和金融领域等，同时大数据技术也正在彻底的改变我们

的日常生活。如果把数据比作是矿石的话，大数据挖掘技术就是要从矿石中提炼出黄金，并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质，也能为现代企业带来更高效和稳健的管理方式。小到个人，大到企业和国家，大数据均是极度重要的一个议题，需要我们真正的深入理解它，因此本文将对大数据挖掘技术给出全景式的介绍，首先给出大数据的背景、原理和概念，然后阐述大数据挖掘的方法和步骤，再讲解大数据在企业应用中的方式和收益，最后分享大数据时代的产业状况，和我们面临的挑战与机遇。 2、大数据技术的背景、概念和意义 2.1大数据的产生背景大数据热潮诞生的先决条件是计算机存储能力的迅速扩大和成本的一再降低。得益于半导体技术在过去20年里持续快速的发展，今天我们用500元人民币就能轻松买到一块能装得下63万本《红楼梦》的1T 容量的移动硬盘；价值2000元的一块PC硬盘甚至能存储下全世界迄今为止所有的音乐内容。在很多大型互联网公司里，拿一台较好配置的服务器，就可以一举装下美国国家图书馆里所有纸质书的内容——纵观整个人类文明发展史，今天人类拥有了史无前例的海量信息的存储能力，并且这个能力仍然在日新月异的向前发展着。与此同时，人类创造数据的能力也同样在高速增长。传统社会只有文人墨客、达官显贵才能青史上留下只言片语，而互联网时代里所有人都能轻松成为数据的生产者，例如Facebook 上每月被用户分享500亿条新信息，全球的社交网络每天产生1亿张新照片。能够产生和

数据挖掘技术的研究现状及发展方向_陈娜

数据挖掘技术的研究现状及发展方向陈娜1.2 （1.北京交通大学计算机学院，北京100044；2.石家庄铁路运输学校，河北石家庄050021）第 !" 电脑与信息技术卷（ ! ）可视化技术［ " ］通过直观的图形方式将信息数据、关联关系以及发展趋势呈现给决策者，使用最多的方法是直方图、数据立方体、散点图。其中数据立方体可以通过 #$%& 操作将更多用户关心的信息反映给用户。（ ’ ）遗传算法［ ( ］是一种模拟生物进化过程的算法，最早由 )*++,-. 于 /0 世纪 (0 年代提出。它是基于群体的、具有随机和定向搜索特征的迭代过程，包括 ! 种典型的算子：遗传、交叉、变异和自然选择。遗传算法作用于一个由问题的多个潜

在解（个体）组成的群体上，并且群体中的每个个体都由一个编码表示，同时个体均需依据问题的目标函数而被赋予一个适应值。另外，为了应用遗传算法，还需要把数据挖掘任务表达为一种搜索的问题，以便发挥遗传算法的优势搜索能力。同时可以用遗传算法中的交叉、变异完成数据挖掘中用于异常数据的处理。（ "）统计学方法［ 1 ］在数据库字段项之间存在着两种关系：函数关系（能用函数公式表示的确定性关系）和相关关系（不能用函数公式表示，但仍是相关确定关系）。对它们的分析采用如下方法：回归分析、相关分析、主成分分析。主要用于数据挖据的聚类方法中。（ (）模糊集（23445 678）方法利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高，精确化能力就越低，即模糊性就越强，这是 9,.7: 总结出的互克性原理。 / 数据挖掘的算法（ ;）关联规则中的算法 %<=>*=>算法是一种最具有影响力的挖掘布尔关联规则频繁项集的算法，该算法是一种称为主层搜索的迭代方法，它分为两个步骤： ,?通过多趟扫描数据库求解出频繁;@项集的集合 $ ; ； A?不断的寻找到/@项集$ / … -@项集$ - ，最后利用频繁项集生成规则。随后的许多算法都沿用

2018年度大数据挖掘大作业

数据挖掘在航空CRM中的应用 1、引言运输业是国家经济的一个重要的组成部分，其发展水平已经成为一个国家和地区综合实力的重要体现。随着经济全球化，我国对物流的需求将大幅度的增加，物流将呈现跳跃式发展趋势。企业开始改变那种以商品为导向的观念，开始注重发掘，通过收集整理繁多的信息，量化分析需求，提供优质的售后服务，保持稳定的关系等措施，来加强对客户关系的管理。CRM的主要含义就是通过对详细资料的深入分析，来提高满意程度，从而提高企业的竞争力的一种手段，CRM最大程度地改善、提高了整个关系生命周期的绩效。CRM整合了、公司、员工等资源，对资源有效地、结构化地进行分配和重组，便于在整个关系生命周期内及时了解、使用有关资源和知识；简化、优化了各项业务流程，使得公司和员工在销售、服务、市场营销活动中，能够把注意力集中到改善关系、提升绩效的重要方面与核心业务上，提高员工对的快速反应和反馈能力；也为带来了便利，能够根据需求迅速获得个性化的商品、方案和服务。要在激烈的市场竞争中获得主动，越来越多的民航企业把保持客户作为企业的重要任务，谁能留住那些能给企业带来丰厚利润的关键客户，并获得他们长久的信任和支持，谁就能获得满意的回报，进而赢得持续的竞争优势。在航空业，客户关系管理的应用有其特别的原因。面对航空公司的管理需求，急需引入先进的客户关系管理理念。在航空公司引入电子商务后，公司关注的重点由提高内部效率向尊重外部转移。而CRM理念正是基于对客户的尊重，要求公司完整地认识整个客户生命周期，提供与客户沟通的统一平台，提高员工与接触的效率和反馈率。随着“以客户为中心"的客户关系管理技术在航空业的不断应用和发展，航空服务质量的改善提高的同时，产生了大量的客户数据，充分挖掘这些数据中隐藏的有用信息可以为航空公司的经营决策带来极大的帮助。 2、设计思路与方案概述 1.研究方法数据仓库与数据挖掘是CRM的重要组成部分，航空公司与客户的交流会产生大量的数据，这些数据一般由交易系统收集而来，然后将这些数据集中、清理、汇总后进入数据仓库，设计良好的数据仓库包含客户与公司交流的历史记录。将数据挖掘工具用于处理这些历史记录，可以帮助公司将来更好的服务客户。 2研究思路 1、通过对比国内外航空公司关系管理应用现状，分析出我国航空公司客户关系管理存在的主要问题。 2、针对存在的问题，构建我国航空公司客户关系管理系统模型，并在此基础上，应用数据仓库的相关知识，建立我国航空公司客户信息数据仓库，最后应用数据挖掘技术对航空公司客户群体进行划分。 3、构建CRM数据仓库，对客户信息数据模型进行建立，同时对操作数据存储(ODS)进行分析。 4、对OLAP技术和数据挖掘技术(基于互动循环过程和SEMMA的数据挖掘实施方法)在CRM 中研究分析，并分析了金字塔模型和收转发分析模型，得出有利于航空公司营运的分析结论。 3、航空公司CRM体系结构与数据挖掘的应用分析

基于数据挖掘技术的企业智能竞争情报系统研究

收稿日期:2007 07 12 基金项目:本文是河南省教育厅自然科学基金项目(编号:200787003)的研究成果之一。作者简介:闫晓妍(1985 ),女,郑州大学信息管理系06级硕士研究生,研究方向:网络信息资源管理,已发表论文1篇。基于数据挖掘技术的企业智能竞争情报系统研究闫晓妍 (郑州大学,郑州450001) 摘要! 现代意义的企业竞争是经济发展的动力所在,许多大中型企业都非常重视竞争情报策略的制定,纷纷建立企业竞争情报系统,以提高企业竞争力。随着网络技术、数据库技术的不断发展,将数据挖掘技术引入企业竞争情报系统是一个崭新的、有重要意义的课题。本文从数据挖掘的含义和一般过程入手,分析了数据挖掘的相关技术及数据挖掘在企业竞争情报系统中的应用,重点探讨如何构建基于数据挖掘技术的企业竞争情报系统。关键词! 数据挖掘;竞争情报;企业竞争情报系统 Abstract ! Modern competition between en terprises is the dynamic force of economy.Many large enterpri ses pay more attention to information strategy,and they build enterp r i se competi tion intelli gence systems in order to enhance their competitive abili ty.Along with the development of network technology and data base technology ,enterprise com petition intelligence systems based on data mining is a new and i mportant topic.T his paper introduces the concep t of da ta mining and the general process,analyzes relevant technologies and its applications in the enterprise competition intel li gence system,then discusses how to build enterprise competiti on system based on data mining to strengthen the com petitive of enterprise. Key words ! data mining;competi tive intelli gence;enterprise competitive in telligence system 中图分类号!F270 05 文献标识码!A 文章编号!1008-0821(2007)11-0187-03 现代意义的企业竞争是经济发展的动力所在,?适者生存,优胜劣汰#这一市场竞争法则的客观存在迫使企业必须不断提高自身的竞争力。企业想要顺应环境变化,做出最优决策,赢得竞争优势,就必须在充分了解和分析竞争环境及竞争对手的基础上,制定科学的竞争战略。竞争情报可以说是企业赖以生存的继人才、资金、技术之后的第四种要素,是现代企业竞争战略的关键部分。 1 企业竞争情报与竞争情报系统 ?竞争情报#是从英文Competiti ve Intelligence 翻译过来的,简称CI 。关于竞争情报,国际上有来自不同领域、不同研究方向的学者的多种解释,如Cottrill 和Kotler 、斯丹文?德迪约的过程说,认为竞争情报是一种过程,即情报的采集、加工和分析过程;也有不少学者认为竞争情报是一种产品,是上述过程的产物,德迪约?伯恩哈特、戈登都持有此观点。我国学者包昌火认为:?竞争情报是关于竞争环境、竞争对手和竞争策略的信息和研究。它既是一种过程,又是一种产品。过程是对竞争情报的搜集和分析;产品是指由此形成的情报或策略。#竞争情报的目的是为企业经营决策提供情报保障,提高企业的核心竞争力。企业竞争情报系统是企业为了增强竞争力而建立起来的,以人工智能为主导、信息网络为手段,人机结合的战略决策系统和咨询系统。竞争情报系统通过对竞争对手的追踪分析及企业自身和外部竞争环境的相关竞争性情报的收集、存储、处理、分析,并以适当方式为企业决策者提供信息支持。数据挖掘过程主要通过聚类分析(clustering/segmentation )、可视化(visualization)、预测模型(predictive modeling)、分析关联(link analysis)、偏差检测(deviation detection)、建立依赖模型(dependency modeling)和概括总结(summarization)。在国外,数据挖掘主要应用在金融业、零售业等行业,涉及市场营销、风险管理、欺诈侦测(Fraud detection)、客户关系的建立和维护等过程。 2 数据挖掘数据挖掘(Data Mining)是指从大型数据库或数据仓库中的大量数据中提取辅助决策的关键性知识,这些知识是隐含的、未知的、非平凡的及潜在有用的信息或模式,其目的是为了提高市场决策能力、环境监视、风险预警、在经验模型基础上预测未来趋势等,把握行业结构的进化,跟踪正在出现的连续性和非连续性变化,以及分析现有和潜在竞争对手的能力和方向,从而帮助企业赢得竞争优势。这些知识的表现形式可以是概念(Concepts )、规则(Rules)、规律(Regulari ties)、模式(Partems)、约束(Con straints)、可视化(Visualizations)等。 2 1 数据挖掘的一般过程数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘过程包括数据准备、挖掘过程和模式的解释和评价等几个阶段。数据挖掘的一般过程如图1所示。 2 1 1 数据准备阶段数据准备对于数据挖掘的成功应用至关重要,数据准备阶段需要进行数据集成、数据选择、数据缩减和转化。数据集成从多个文件、异构数据库中提取并集成数据,需 187 2007年11月第11期November 2007No.11 现代情报 % 企业情报工作