当前位置：文档之家› 第2章数据挖掘过程与知识发现_2.0

第2章数据挖掘过程与知识发现_2.0

第2章数据挖掘过程与知识发现

第一节CRISP_DM介绍

一、数据挖掘阶段

跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：

1.业务理解：业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。

应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。

2.数据理解：一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据。

这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的，不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息。

3.数据准备：确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式。

数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。

4.数据预先处理：

噪声问题和缺失问题

数据重复；

数值错误；

数据缺失

数据的变换

数据类型的变换；

数据的平滑；

数据的概化；

数据的规范化

十进制缩放：将某个数据全部除以10的相同的幂；

通过极值来转化：

新数据=（原数据-最小数值）/（最大数值-最小数值）

通过均值和标准差来转化：

新数据=（原数据-均值）/标准差

通过对数来转化

对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到0-1之间：O=1/(1+exp(-x))

5.建立模型：数据模型建立是应用数据挖掘软件不同的情景下获得结果的过程。

首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任务是估计，在连续数据类型的情况下，回归分析就可以运用，对于不连续的数据则可以运用逻辑回归分析，神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具，在以后的章节中将要进行介绍。

6.数据处理：数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割，一部分成为训练集，另外一部分成为测试集。一部分进行模型开发，另外一部分成为模型检验的部分。

数据挖掘就是可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。

7.模型评估：数据解释阶段是至关重要的，要对建立的模型是否能够达到问题解决的目的进行研究，即包括模型是否能够达到研究的目标；模型是否能够用合适的方法显示。

8.模型发布：数据挖掘既可以应用于核实先前的假设，也可以应用于知识发现（识别未预期的有用的关系）。显然，这几个步骤不是一成不变的，而是互相作用的。

9.评估办法：一般来说，研究中把大规模数据集合分为两个部分：训练集和测试集，分类误差通常运用错差矩阵（干扰矩阵）表现出来，它可以表示出正确分类的案例数目，以及分到不正确类别的案例数。错差矩阵中所揭示的两类错误的损害有时候不是一样的，例如，银行贷款给一个希望偿还但是没有能力偿还的，比起没有把款项贷给实际会偿还的客户更加令人痛苦。运用成本分析方法可以比较不同的预测判别方法的成本，运用错差矩阵来度量，并且计算成本函数，例如：

表1：错差矩阵：误分类成本相等

总分类正确率等于可用正确分类数量（50+578=628）除以总案例（718）数量而得到，于是，案例中有87.5%的数据得到了正确的分类。这里的成本函数：

190×关闭良好帐户+10×保留帐户

= 190×76+10×14=14580美圆

实际上，把好的当作不好的比例相当高，是实践中难以接受的。

如果充分运用先验概率对此进行研究，则可以得到如下矩阵：

表2：错差矩阵：误分类成本不相等

案例中93%得到了正确地执行，说明方法得到了显著的改进。

二、讨论：

1.将下列客户年龄的数值转换为年轻（40岁以下）、中年（40-60）和老人（60岁以上）的类别。

成本是多少？

第二节数据挖掘的数据库支持

1.数据仓库：因为存在大量的数据、所以才有数据挖掘。这些数据必须以结构化和可靠的形式存在。数据仓库是已知事实和相关数据有序保存、容易读取的存储地，而这些数据可以更好地有利于决策。

数据仓库通常整合不同的来源的信息，需要识别、获取数据并对其进行清理、分类，以利于组织决策的方式进行存储。通常数据仓库处理流程包括以下三点：数据产生流程；数据管理流程；信息分析流程。

数据仓库具有以下作用：为商业用户提供完成任务所需要的数据支持；通过合并和协调，消除业务元素间的屏障；提供组织中重要部分的宏观视野；使信息获取更加及时和详细；为特定的团队提供特定的信息；提供判断未来发展趋势的能力。

2.数据集市：是用来为数据挖掘分析进行特定的服务提取的特定信息。最初，数据集市从独立的数据仓库中区别开来。现在，许多数据集市是用于连接数据仓库而不是数据仓库的竞争产品，但是因为价格比较低廉，仍有很多数据集市被独立使用。

度量数据仓库的详细程度的单位是粒度，数据挖掘关注于近乎原始形式的数据，所以需要处理数据，因为数据必须完整、正确、格式正确。

3.联机分析处理：

联机分析处理(OLAP)是用于数据共享的多维电子表格，可以让用户在他们认为重要的维度上提取处理，生成报表。数据被分割成不同维度，并按照层级组织起来。OLAP可以生成许多变量和扩展元素。

在由数据仓库、OLAP服务器和客户端组成的系统中，OLAP产品是组成部分，通常位于本地网络中，系统连接了客户端用户。

OLAP服务器将信息从数据仓库中重新提取信息，然后对数据进行处理并发送至主服务器，用户通过网络或者电子表格获取这些信息。

4.数据仓库的实现：

通过提供可靠的、完整的和干净的数据来源，数据仓库能够减轻上述情况的发生。从技术上来说，“脏数据”是不正确的、不完整的或格式是错误的。与实现数据仓库系统相关的三个主要步骤如下：

系统开发；数据获取；依据用途提取数据。

https://www.doczj.com/doc/e215027362.html, https://www.doczj.com/doc/e215027362.html,

5.元数据：

数据挖掘管理不同于数据管理，数据管理关注于管理企业的所有数据，而数据仓库管理指的是数据仓库生命周期中各个阶段的设计和操作。生命周期包括以下内容：管理元数据：设计数据仓库；确保数据质量；

在操作中管理系统元数据（metadata）是跟踪数据所需要的参数集合，用于描述仓库的组织。数据目录使得用户能够有针对性地了解数据仓库包含什么内容。数据仓库的内容由元数据定义，还提供数据的商业目的和技术目的。元数据包括以下内容：

可获得的数据；各数据元素的来源；指定数据的位置；数据更新频率；预定义报表和查询；数据读取方法。

技术元素仅仅数据仓库管理员可见：

数据来源、内部和外部；数据准备特征；数据的逻辑结构；数据仓库的物理结构和内容；数据所有权；安全权限；系统信息。

第三节数据挖掘方法概述

本节准备介绍数据挖掘的基本方法，可依任务类别、估计、聚类和概要进行分类，类别和预测属于事前性质的，而聚类和概要属于事后性质的。

1.数据挖掘方法：由于目的不同，数据挖掘使用了大量的模型化工具。很多作者通过可行的工具来阐释这些目的。这些研究方法既包括人工智能工具，也包括历史统计学方法的结晶。统计方法是强有力的诊断工具，能够以此促进参数估计、假设检验和其他方法的发展。而人工智能（artificial intelligence）方法不需要对数据做太多的假设。

表1：数据挖掘模型化工具

2.数据挖掘方法视野：根据上述表格可以知道，若从统计学的角度看数据挖掘，其方法应该包括以下几类：聚类分析、各种形式的回归、判别分析、多目标线性回归方法等；从人工智能的角度看数据挖掘，其方法有：神经网络、规则推理、遗传算法等。

对于数据的处理，不同的方法的处理优劣如表2所示，即处理不同数据的能力有显著的差别，应该根据实际情况进行处理。

表2：数据挖掘方法处理数据的综合能力

3.数据挖掘的作用：通过公开出版物中的信息可以发现问题可以分为以下几类：

分类：用测试数据集来识别常被用来分类数据的类别和聚类，这方法典型的应用有投资风险和回报特征进行分类，以及对贷款人员的信用风险分类。

预测：识别数据的关键特征，以便于找到公式来预测未来的事件，回归模型就是如此。

关联：识别决定实体关系的规则，这方面的例子主要有企业财务特征分析。

检测：确定不规则属性，对于欺诈检测特别有价值。

表3：按照方法分类的数据挖掘应用领域

第四节实证数据集演示

1.贷款申请数据：下组数据包含了贷款申请人，完整的数据集共有650个上述的观察目标。申请人信息有年龄、收入、资产和信用等级等变量，信用等级数据来自于信用机构，红色表示不良信用，黄色表示信用问题，绿色表示良好的信用记录，这些信息披露被假定为对申请贷款是有用的。按时偿还表示为1，反之表示为0。如果债务超过资产则表示为高风险，反

之为低风险。

表4：申请贷款训练数据集

表5是一组测试数据集。

作业：(TRY,TRY,TRY)

1.下载软件：SAS Enterprise Miner

2.下载软件：SPSS Clementine

《数据挖掘》试题与标准答案

一、解答题（满分3０分，每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集;再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有: １)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。２）、随机时间序列预测方法：通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Ｒegressiｖe，简称AR)模型、移动回归模型(Ｍovｉng Ａveｒage,简称ＭＡ）或自回归移动平均(Aｕto Regrｅssive Moｖiｎg Aｖeraｇe，简称AＲMＡ)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型,用于时间序列的预测。

数据挖掘与预测分析

数据挖掘是一个多学科交叉研究领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。预测分析是一种统计或数据挖掘解决方案，包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率，预测未来业绩并采取预防措施。数据挖掘的含义是广泛的，每个人有每个人不同的体会，每个人有每个人的见解。但这些体会、见解是有许多共通之处的，从而可以归纳出数据挖掘的技术定义以及商业定义：从技术角度，数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同，这个定义可以被解读为以下几个层次：①数据源必须是真实的、大量的、含噪声的；②发现的是用户感兴趣的知识；③发现的知识要可接受、可理解、可运用；④这些知识是相对的，是有特定前提和约束条件的，在特定领域中具有实际应用价值。预测是大数据的核心，数据挖掘之后的预测分析无疑成为开拓市场的重要环节。预测分析是一种统计或数据挖掘解决方案，包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率，以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息，并对企业未来提供关键洞察。不仅可提供预测分析，使用户可以执行高级分析、发布并与更广泛的用户群交流。还可以提供

数据挖掘试题与答案

一、解答题（满分30分，每小题5分） 1. 怎样理解数据挖掘和知识发现的关系？请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后，调用相应的算法生成所需的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤：先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有： 1）、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。 2）、随机时间序列预测方法:通过建立随机模型，对随机时间序列进行分析，可以预测未来值。若时间序列是平稳的，可以用自回归(Auto Regressive，简称AR)模型、移动回归模型(Moving Average，简称MA)或自回归移动平均(Auto Regressive Moving Average，简称ARMA)模型进行分析预测。 3）、其他方法:可用于时间序列预测的方法很多，其中比较成功的是神经网络。由于大量的时间序列是非平稳的，因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型，用于时间序列的预测。

机器学习_KDD Cup 1999 Data Data Set(知识发现和数据挖掘杯1999数据集)

KDD Cup 1999 Data Data Set(知识发现和数据挖掘杯1999数据集) 数据摘要： This is the data set used for The Third International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-99 中文关键词：多变量,分类,知识发现和数据挖掘,UCI, 英文关键词： Multivariate,Classification,KDD,UCI, 数据格式： TEXT 数据用途： This data set is used for classification. 数据详细介绍：

KDD Cup 1999 Data Data Set Abstract: This is the data set used for The Third International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction Data Set Information: Please see task description. Relevant Papers: Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, and Philip K. Chan. Cost-based Modeling and Evaluation for Data Mining With Application to Fraud and Intrusion Detection: Results from the JAM Project. [Web Link] 数据预览：

数据挖掘复习章节知识点整理

数据挖掘：是从大量数据中发现有趣（非平凡的、隐含的、先前未知、潜在有用）模式，这些数据可以存放在数据库，数据仓库或其他信息存储中。挖掘流程： 1.学习应用域 2.目标数据创建集 3.数据清洗和预处理 4.数据规约和转换 5.选择数据挖掘函数（总结、分类、回归、关联、分类） 6.选择挖掘算法 7.找寻兴趣度模式 8.模式评估和知识展示 9.使用挖掘的知识概念/类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过（1）数据特征化：目标类数据的一般特性或特征的汇总；（2）数据区分：将目标类数据的一般特性与一个或多个可比较类进行比较；（3）数据特征化和比较来得到。关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件，通常要满足最小支持度阈值和最小置信度阈值。分类：找出能够描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析。导出模型的算法：决策树、神经网络、贝叶斯、（遗传、粗糙集、模糊集）。预测：建立连续值函数模型，预测空缺的或不知道的数值数据集。孤立点：与数据的一般行为或模型不一致的数据对象。聚类：分析数据对象，而不考虑已知的类标记。训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组，从而产生类标号。第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。从一个或多个数据源收集信息，存放在一个一致的模式下，并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题：排除无用数据，提供特定主题的简明视图。集成的：多个异构数据源。时变的：从历史角度提供信息，隐含时间信息。非易失的：和操作数据的分离，只提供初始装入和访问。联机事务处理OLTP：主要任务是执行联机事务和查询处理。联系分析处理OLAP：数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）单选题 1．下面哪种分类方法是属于神经网络学习算法？（） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4．数据归约的目的是（） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？ A.数据清理 B.数据集成 C.数据变换 D.数据归约 6．假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8．关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

知识发现与数据挖掘

知识发现与数据挖掘 https://www.doczj.com/doc/e215027362.html, 2007-6-12 宋利【摘要】本文介绍了知识发现及其数据挖掘的发展历史，数据挖掘常用技术及应用。【关键词】知识发现，数据挖掘１、引言随着数据库技术的成熟和数据应用的普及，人类积累的数据量正在以指数速度迅速增长。进入九十年代，伴随着因特网（Internet）的出现和发展，以及随之而来的企业内部网（Intranet）和企业外部网（Extranet）以及虚拟私有网（VPNVirtualPrivatenetwork）的产生和应用，将整个世界联成一个小小的地球村，人们可以跨越时空地在网上交换数据信息和协同工作。这样，展现在人们面前的已不是局限于本部门，本单位和本行业的庞大数据库，而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识，人们也会感到面对信息海洋像大海捞针一样束手无策。据估计，一个大型企业数据库中数据，只有百分之七得到很好应用。这样，相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”（Informationpoor）和数据关在牢笼中”(datainjail)，奈斯伯特(JohnNaisbett)惊呼“Wearedrowningininformation，butstarvingforknowledge”（人类正被数据淹没，却饥渴于知识）。面临浩渺无际的数据，人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。２、知识发现过程知识发现（KDD）是从数据中发现有用知识的整个过程；数据开采（DM）是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patterns）。1996年，Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为：从数据中鉴别出有效模式的非平凡过程，该模式是新的、可能有用的和最终可理解的。 KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包括： ①学习某个应用领域：包括应用中的预先知识和目标。

数据挖掘和知识工程

1、给出KDD的定义和处理过程。答：KDD的定义是：从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此，KDD是一个高级的处理过程，它从数据集中识别出以模式形式表示的知识。这里的"模式"可以看成知识的雏形，经过验证、完善后形成知识："高级的处理过程"是指一个多步骤的处理过程，多步骤之间相互影响反复调整，形成一种螺旋式上升的过程。 KDD的全过程有五个步骤：1、数据选择：确定发现任务的操作对象，即目标数据，它是根据用户的需要从原始数据库中抽取的一组数据；2、数据预处理：一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等；3、数据转换：其主要目的是消减数据维数或降维，即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数；4、数据挖掘：这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘；5、模式解释/评价：数据挖掘阶段发现出来的模式，经过用户或机器的评价，可能存在冗余或无关的模式，需要剔除；也有可能模式不满足用户的要求，需要退回到整个发现阶段之前，重新进行KDD过程。 2、阐述数据挖掘产生的背景和意义。答：数据挖掘产生的背景：随着信息科技的进步以及电子化时代的到来，人们以更快捷、更容易、更廉价的方式获取和存储数据，使得数据及信息量以指数方式增长。据粗略估计，一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多，剧增的数据背后隐藏着许多重要的信息，人们希望对其进行更高层次的分析，以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系与规则，无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了"数据爆炸但知识贫乏"的现象。于是人们开始提出"要学会选择、提取、抛弃信息"，并且开始考虑：如何才能不被信息淹没？如何从中及时发现有用的知识、提高信息利用率？如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息？这给我们带来了另一些头头疼的问题：第一是信息过量，难以消化；第二是信息真假难以辨别；第三是信息安全难以保证；第四是信息形式不一致，难以统一处理。面对这一挑战，面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源，随着计算机数据仓库技术的不断成熟，从数据中发现知识（Knowledge Discovery in Database）及其核心技术--数据挖掘（Data Mining）便应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。数据挖掘的意义：数据挖掘之所以被称为未来信息处理的骨干技术之一，主要在于它正以一种全新的概念改变着人类利用数据的方式。在20世纪，数据库技术取得了重大的成果并且得到了广泛的应用。但是，数据库技术作为一种基本的信息储存和管理方式，仍然是以联机事务处理为核心应用，缺少对决策、分析、预测等高级功能的支持机制。众所周知，随着硬盘存储容量及的激增以及磁盘阵列的普及，数据库容量增长迅速，数据仓库以及Web 等新型数据源出现，联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。面对这样的挑战，数据挖掘和知识发现技术应运而生，并显现出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。它不仅能对过去的数据进行查询，而且能够找出过去数据之间的潜在联系，进行更高层次的分析，以便更好地作出决策、预测未来的发展趋势等等。通过数据挖掘，有价值的知识、规则或更高层次的信息就能够从数据库的相关数据集合中抽取出来，从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务。3、给出一种关联规则的算法描述，并举例说明。

数据挖掘与数据仓库知识点总结

1、数据仓库定义：数据仓库是一种新的数据处理体系结构，它与组织机构的操作数据库分别维护，允许将各种应用系统一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合，为企业决策支持系统提供所需的集成信息。设计和构造步骤：1）选取待建模的商务处理；2）选取商务处理的粒变；3）选取用于每个事实表记录的维；4）选取事实表中每条记录的变量系统结构：（1）底层是仓库数据服务器，总是关系数据库系统。（2）中间层是OLAP服务器，有ROLAP 和MOLAP，它将对多维数据的操作映射为标准的关系操作（3）顶层是前端客户端，它包括查询和报表工具、分析工具和数据挖掘工具 2、数据仓库的多维数据模型：（1）星形模式：在此模型下，数据仓库包括一个大的包含大批数据并且不含冗余的中心表，一组小的附属表，维表围绕中心事实表显示的射线上。特征：星型模型四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩小访问围。每个维表都有自己的属性，维表和事实表通过关键字相关联。【例子：sales数据仓库的星形模式，此模式包含一个中心事实表sales，它包含四个维time, item, branch和location。（2）雪花型模式：它是星形模式的变种，其中某些维表是规化的，因而把数据进一步分解到附加的表中。特征：雪花模型通过最大限度地减少数据存储量和联合较小的维表来改善查询性能，增加了用户必须处理的表数量和某些查询的复杂性，但同时提高了处理的灵活性，可以回答更多的商业问题，特别适合系统的逐步建设要求。【例子同上，只不过把其中的某些维给扩展了。（3）事实星座形：复杂的应用可能需要多个事实表共享维表，这种模式可看作星形模式的汇集。特征：事实星座模型能对多个相关的主题建模。例子：有两个事实表sales和shipping，它们可以共享维表time, item和location。 3、OLAP：即联机分析处理，是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。特点：1.实时性要求不是很高。2.数据量大。3.因为重点在于决策支持，所以查询一般是动态的，也就是说允许用户随机提出查询要求。 OLAP操作：上卷：通过沿一个维的概念分层向上攀登，或者通过维归约，对数据立方体进行类聚。下钻：是上卷的逆操作，它由不太详细的数据得到更详细的数据，下钻可以通过沿维的概念分层向下或引入附加的维来实现。切片：对给定方体的一个维进行进行选择，导致一个子立方体。切块：通过对两个或多个维执行选择，定义子立方体。转轴：是一种可视化操作，它转动数据的视角，提供数据的替代表示。 OLTP：即联机事务处理，是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。OLTP的特点有：a.实时性要求高；b.数据量不是很大。C.交易一般是确定的，是对确定性数据进行存取。d.并发性要求高且严格的要求事务的完整性，安全性。 OLTP和OLAP的区别：1）用户和系统的面向性:OLTP面向顾客，而OLAP面向市场；2）数据容：OLTP 系统管理当前数据，而OLAP管理历史的数据；3）数据库设计：OLTP系统采用实体-联系（ER)模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型；4）视图：OLTP系统主要关注一个企业或部门部的当前数据，而OLAP 系统主要关注汇总的统一的数据；5）访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询。 7、PageRank算法原理：1）在初始阶段：构建Web图，每个页面初始设置相同的PageRank 值，通过迭代计算，会得到每个页面所获得的最终PageRank值。2）在一轮中更新页面 PageRank得分的计算方法：每个页面将其当前的PageRank值平均分配到本页面包含的出链上。每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。缺点：1）人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低。2）旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游，除非它是某个站点的子站点。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘第一章课后习题一：填空题 1）数据库中存储的都是数据，而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2）数据仓库中的数据分为四个级别：早起细节级、当前细节级、轻度综合级、高度综合级。3）数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括业务数据和历史数据。4）元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5）数据处理通常分为两大类：联机事务处理和联机事务分析 6）Fayyad过程模型主要有数据准备，数据挖掘和结果分析三个主要部分组成。 7）如果从整体上看数据挖掘技术，可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8）那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9）按照挖掘对象的不同，将Web数据挖掘分为三类：web内容挖掘、web结构挖掘和web 使用挖掘。 10）查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层，它们各自的侧重点不同，因此适用范围和针对的用户也不相同。二：简答题 1）什么是数据仓库？数据仓库的特点主要有哪些？数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支

持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据挖掘相关论文

数据挖掘论文题目：数据挖掘技术在电子商务中的应用系别：计算机学院专业：11网络工程1班学生姓名：黄坤学号：1110322111 指导教师：江南 2014年11月06 日

数据挖掘技术在电子商务中的应用一、研究原因电子商务在现代商务活动中的正变得日趋重要，随着大数据时代的到来，商务信息显得尤为重要，在电子商务中谁掌握了有利的市场信息，谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法，具体阐述了数据挖掘技术在电子商务中的作用及应用。在信息经济时代，对企业来说，谁对市场变化反应速度快，谁将在激烈的市场竞争中占据有利的地位，竞争的结果最终将促使企业价值从市场竞争输家转移到赢家，这样就使企业面临一个问题：如何才能把大量的数据资源，转化成自身价值呢？要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，面对“人们被数据淹没，人们却饥饿于知识”的挑战，数据挖掘和知识发现(DMKD)技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。二、2.1国内研究现状 KDD（从数据库中发现知识）一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建

数据挖掘复习知识点整理超详细

必考知识点：信息增益算法/ ID3决策树(计算) (详细见教材) 使用朴素贝叶斯分类预测类标号(计算) FP-TREE(问答) (详细见教材) 数据仓库的设计(详见第二章)(问答) (见PPT) 数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材) BUC (这个也要考，但不记得怎么考的了) 后向传播神经网络(名词解释) K-平均，K-中心点，DBSCAN 解析特征化(这个也要考) 总论数据挖掘：是从大量数据中发现有趣（非平凡的、隐含的、先前未知、潜在有用）模式，这些数据可以存放在数据库，数据仓库或其他信息存储中。挖掘流程： (1)学习应用域（2）目标数据创建集（3）数据清洗和预处理（4）数据规约和转换（5）选择数据挖掘函数（总结、分类、回归、关联、分类）（6）选择挖掘算法（7）找寻兴趣度模式（8）模式评估和知识展示（9）使用挖掘的知识概念/类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过（1）数据特征化：目标类数据的一般特性或特征的汇总；（2）数据区分：将目标类数据的一般特性与一个或多个可比较类进行比较；（3）数据特征化和比较来得到。关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件，通常要满足最小支持度阈值和最小置信度阈值。分类：找出能够描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析。导出模型的算法：决策树、神经网络、贝叶斯、（遗传、粗糙集、模糊集）。预测：建立连续值函数模型，预测空缺的或不知道的数值数据集。孤立点：与数据的一般行为或模型不一致的数据对象。聚类：分析数据对象，而不考虑已知的类标记。训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组，从而产生类标号。第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。从一个或多个数据源收集信息，存放在一个一致的模式下，并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题：排除无用数据，提供特定主题的简明视图。集成的：多个异构数据源。时变的：从历史角度提供信息，隐含时间信息。非易失的：和操作数据的分离，只提供初始装入和访问。联机事务处理OLTP：主要任务是执行联机事务和查询处理。联系分析处理OLAP：数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。

数据挖掘过程中的预处理阶段

数据挖掘过程中的预处理阶段整个数据挖掘过程中，数据预处理要花费60％左右的时间，而后的挖掘工作仅占总工作量的10％左右[1]。经过预处理的数据，不但可以节约大量的空间和时间，而且得到的挖掘结果能更好地起到决策和预测作用。一般的，数据预处理分为4个步骤，本文把对初始数据源的选择作为数据预处理过程中的一个步骤，即共分为5个步骤。因为，如果在数据获得初期就有一定的指导，则可以减少数据获取的盲目性以及不必要噪声的引入且对后期的工作也可节约大量的时间和空间。整个预处理过程见下图： 1 初始源数据的获取研究发现，通过对挖掘的错误结果去寻找原因,多半是由数据源的质量引起的。因此，原始数据的获取，从源头尽量减少错误和误差，尤其是减少人为误差，尤为重要。首先应了解任务所涉及到的原始数据的属性和数据结构及所代表的意义，确定所需要的数据项和数据提取原则，使用合适的手段和严格的操作规范来完成相关数据的获取，由于这一步骤涉及较多相关专业知识，可以结合专家和用户论证的方式尽量获取有较高含金量（预测能力）的变量因子。获取过程中若涉及到多源数据的抽取，由于运行的软硬件平台不同，对这些异质异构数据库要注意数据源的连接和数据格式的转换。若涉及到数据的保密，则在处理时应多注意此类相关数据的操作且对相关数据作备注说明以备查用。

2 数据清理数据清理数据清理是数据准备过程中最花费时间、最乏味，但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理： 1）含噪声数据。处理此类数据，目前最广泛的是应用数据平滑技术。1999年，Pyle系统归纳了利用数据平滑技术处理噪声数据的方法，主要有：①分箱技术，检测周围相应属性值进行局部数据平滑。②利用聚类技术，根据要求选择包括模糊聚类分析或灰色聚类分析技术检测孤立点数据，并进行修正，还可结合使用灰色数学或粗糙集等数学方法进行相应检测。③利用回归函数或时间序列分析的方法进行修正。④计算机和人工相结合的方式等。对此类数据，尤其对于孤立点或异常数据，是不可以随便以删除方式进行处理的。很可能孤立点的数据正是实验要找出的异常数据。因此，对于孤立点应先进入数据库，而不进行任何处理。当然，如果结合专业知识分析，确信无用则可进行删除处理。 2）错误数据。对有些带有错误的数据元组，结合数据所反映的实际问题进行分析进行更改或删除或忽略。同时也可以结合模糊数学的隶属函数寻找约束函数，根据前一段历史趋势数据对当前数据进行修正。 3）缺失数据。①若数据属于时间局部性的缺失，则可采用近阶段数据的线性插值法进行补缺；若时间段较长，则应该采用该时间段的历史数据恢复丢失数据。若属于数据的空间缺损则用其周围数据点的信息来代替，且对相关数据作备注说明，以备查用。②使用一个全局常量或属性的平均值填充空缺值。③使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复④忽略元组。 4）冗余数据。包括属性冗余和属性数据的冗余。若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策，可通过用相关数学方法找出具有最大影响属性因子的属性数据即可，其余属性则可删除。若某属性的部分数据足以反映该问题的信息，则其余的可删除。若经过分析，这部分冗余数据可能还有他用则先保留并作备注说明。

电子科大数据挖掘作业1-6

数据挖掘课后习题数据挖掘作业1——6 第一章绪论 1)数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。实际生活的例子： ①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。 ③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 2)给出一个例子，说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？以一个百货公司为例，它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘，百货公司可以根据销售记录挖掘出强关联规则，来诀定哪一类商品是消费者在购买某一类商品的同时，很有可能去购买的，从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地，简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术 1)简述数据立方体的概念、多维数据模型上的OLAP操作。 ●数据立方体数据立方体是二维表格的多维扩展，如同几何学中立方体是正方形的三维扩展一样，是一类多维矩阵，让用户从多个角度探索和分析数据集，通常是一次同时考虑三个维度。数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据。 ●多维数据模型上的OLAP操作 a)上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约 b)下卷(drill-down):上卷的逆操作由不太详细的数据到更详细的数据，可以通过沿维的概念分层向下或引入新的维来实现 c)切片和切块(slice and dice) 投影和选择操作 d)转轴(pivot) 立方体的重定位，可视化，或将一个3维立方体转化为一个2维平面序列 2)OLAP多维分析如何辅助决策？举例说明。 OLAP是在多维数据结构上进行数据分析的，一般在多维数据上切片、切块成简单数据来进行分析，或是上卷、下卷来分析。OLAP要查询大量的日常商业信息，以及大量的商业活动变化情况，如每周购买量的变化值，经理通过查询变化值来做决策。例如经理看到利润小于预计值是，就会去深入到各地区去查看产品利润情况，这样他会发现一些比较异常的数据。经过进一步的分析和追踪查询可以发现问题并解决 3)举例说明OLAP的多维数据分析的切片操作。切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为（地区，时间，产品，销售额），如果在地区维度上选定一个维成员，就可以得到在该地区的一个切片（关于时间和产品的切片）。

数据挖掘 - 知识点

1、数据库与数据仓库的对比数据库数据仓库面向应用面向主题数据是详细的数据是综合和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据的操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析 2、OLTP与OLAP 联机事物处理（On Line Transaction Processing，OLTP）是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。 OLTP OLAP 数据库数据数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新，但周期刷新对响应时间要求高响应时间合理用户数量大用户数量相对较小面向操作人员，支持日常操作面向决策人员，支持决策需要面向应用，事务驱动面向分析，分析驱动 3、数据字典和元数据：数据字典：是数据库中各类数据描述的集合，它在数据库设计中具有很重要的地位。由：数据项；数据结构；数据流；数据存储；处理过程5部分组成。元数据（metadata）定义为关于数据的数据（data about data），即元数据描述了数据仓库的数据和环境。数据仓库的元数据除对数据仓库中数据的描述（数据仓库字典）外，还有以下三类元数据：(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据

基于知识工程的工程设计

基于知识工程的工程设计摘要介绍了一种新型的工程设计方法—基于知识的工程，并对这一新型设计系统的定义，研究和现状、关键技术以及生产中的应用作了分析和介绍。关键词工程设计；KBE 1，知识工程（KBE）的概述 1.1 知识工程的定义知识工程（Knowledge Engineering）是美国Stanford大学的E. A. Feigenbaum教授于1977年在第五届国际人工智能会议上提出的。他认为:“知识工程是人工智能的一种技艺。他运用人工智能的运力和方法对那些需要专家知识才能解决的应用难题提供求解手段。恰当地运用专家知识的获取、表达和推理过程的构成与解释，是设计基于知识系统的重要技术问题"。KE概念的提出，使AI从学科研究走向实际应用。20世纪90年代开始，以CAD/CAE/CAM /PDM /A I技术的集成作为典型特征的知识工程( Knowledge Based Engineering)技术开始在工业领域广泛应用.知识工程的主要内容是知识的获取、推理机制和知识库。 1.2 知识工程的内涵知识工程（简称KBE)的本质就是知识的再利用.即工业产品在其生命开发周期的每个阶段.是否能够充分利用各种实践经验、专家知识及其它有关信息，它是一种存储并处理与产品模型有关的知识.且基于产品模型的计算机软件系统。上海交通大学提出:KBE是通过知识驱动和繁衍.对工程问题提供最佳解决方案的计算机集成处理技术.是领域专家知识的继承、集成、创新和管理，是CAX技术与AI技术的集成。 2，知识工程的研究和应用现状 2.1 知识工程在国外的发展自从KBE的概念提出之后，工业化国家在工业领域内广泛引人了KBE技术，美国、日本和欧洲各国政府在KBE技术的开发与应用方面给予了有力的支持，将其列为国家未来发展战略的重要核心技术。许多跨国公司和著名大学也纷纷开展研究，以提高企业产品开发的创新能力，美国福特汽车公司，英国空中客车公司，日本Hitachi, Mazda, Honda等公司普遍在计算机辅助产品设计和辅助制造中引人了KBE技术，取得了很好的效果。面对KBE领域的潜在市场，国外著名的CAD/CAM系统开发商，如EDS, DASSAULT(CATIA )等均开展了基于知识的工程设计系统的开发，主要在于建立基于产品的几何和非几何特征的模型，使工程师在设计时能得到基于产品领域知识的帮助，从而提高产品的创新设计能力。福特汽车公司的A.L.Clark提出了KBE技术应用的实体模型服务体系；G.E.Kaiser等人提出了KBE环境下的数据库支持系统；R.E.Phillip应用KBE技术，用动态对象模型快速建立工程自动化系统，实现了企业间工程知识的共享; W.Y.Zhang等人建立了基于知识的功能设计专家系统，该系统基于柔性的、分级的功能模型框架，借助于基于知识的功能模型推理方式，实现了工程系统功能设计的智能化; M.Pinfold和C.Chap利用KBE技术组织数据流的能力获取产品和流程信息，使有限元模型创建过程实现了自动化。 2.2 知识工程在国内的发展国内对KBE技术的研究刚刚起步，许多院校和科研院所投人到KBE研究中。上海交通大学模具CAD国家工程研究中心开发模具设计KBE系统，取得了一系列的进展。如基于对注塑模设计过程的分析，将KBE技术应用于能有效提高模具设计效率的模架设计中，给出了模架设计KBE系统的数据流图和基本框架，由于该系统结合了模架设计的领域知识，在实际应用中有效地提高了设计效率；另外提出了基于KBE技术的常规战斗部设计方案，该系统可模仿人类的设计思想和设计方法，构造基于知识的辅助设计环境，根据输人的战斗

数据挖掘知识点归纳

知识点一数据仓库 1.数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。 2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。 3.数据仓库围绕主题组织 4.数据仓库基于历史数据提供消息，是汇总的。 5.数据仓库用称作数据立方体的多维数据结构建模，每一个维对应于模式中的一个或者一组属性，每一个单元存放某种聚集的度量值 6.数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据 7.提供提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理，允许在不同的抽象层提供数据，这种操作适合不同的用户角度 8.OLAP例子包括下钻和上卷，允许用户在不同的汇总级别上观察数据 9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘，允许在各种粒度进行多维组合探查，因此更有可能代表知识的有趣模式。知识点二可以挖掘什么数据 1.大量的数据挖掘功能，包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析 2.数据挖掘功能用于指定数据挖掘任务发现的模式，分为描述性和预测性 3.描述性挖掘任务刻画目标数据中数据的一般性质 4.预测性挖掘任务在当前数据上进行归纳，以便做出预测 5.数据可以与类或概念相关联 6.用汇总、简洁、精确的表达描述类和概念，称为类/概念描述 7.描述的方法有数据特征化（针对目标类）、数据区分（针对对比类）、数据特征化和区分 8.数据特征化用来查询用户指定的数据，上卷操作用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化，而不必与用户交互。形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或者规则（也叫特征规则）提供。 9.用规则表示的区分描述叫做区分规则。 10.数据频繁出现的模式叫做频繁模式，类型包括频繁项集、频繁子项集（又叫频繁序列）、频繁子结构。 11.频繁项集一般指频繁地在事务数据中一起出现的商品的集合 12.频繁子序列就是一个频繁序列模式 13.子结构涉及不同的结构，可以与项集和子项集一起出现 14.挖掘频繁模式导致发现数据中有趣的关联和相关性 15.包含单个谓词的关联规则称作单维关联规则。多个谓词的关联规则叫做多维关联规则。 16.如果不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规则。 17.频繁模式挖掘的基础是频繁项集挖掘 18.分类找出描述和区分数据类或概念的模型或者函数来预测类标号未知对象的类标号。 19.导出模型是基于训练数据集的分析，预测类标号未知对象的类标号。形式有分类规则、决策树、数学公式或者神经网络 20.决策树类似流程图的树结构，每一个结点代表一个属性上的测试，每一个分支代表测试

文档之家

第2章 数据挖掘过程与知识发现_2.0