数据分析与数据挖掘

  • 格式:ppt
  • 大小:731.50 KB
  • 文档页数:81

下载文档原格式

  / 81
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• E.F.Codd在1993年提出了多维数据库和多维分析 的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。
• 关系数据库是二维数据(平面),多维数据库是 空间立体数据。
• OLAP的基本思想是决策者从多方面和多角度以 多维的形式来观察企业的状态和了解企业的变化。
(1) 联机事物处理(OLTP)
• 联机事物处理(On Line Transaction Processing, OLTP)是在网络环境下的事务处理工作,以快速的 响应和频繁的数据修改为特征,使用户利用数据库 能够快速地处理具体的业务。
• OLTP应用要求多个查询并行,以便将每个查询分布 到一个处理器上。
(3) OLTP与OLAP的对比
(二)数据挖掘的兴起
• 1 从机器学习到数据挖掘 • 2 数据挖掘含义 • 3 数据挖掘与OLAP的比较 • 4 数据挖掘与统计学
1 从机器学习到数据挖掘
• 学习是人类具有的智能行为,主要在于获取知识。 • 机器学习是研究使计算机模拟或实现人类的学习行为,即
让计算机通过算法自动获取知识。 • 机器学习是人工智能领域中的重要研究方向。
3 数据挖掘与OLAP的比较
• OLAP:多维、多层次分析
– OLAP的典型应用,通过商业活动变化的查询发现的问 题,经过追踪查询找出问题出现的原因,达到辅助决 策的作用。
• 数据挖掘:发现规律、预测未来
– 数据挖掘任务在于聚类(如神经网络聚类)、分类 (如决策树分类)、预测等。
4 数据挖掘与统计学
• 由于数据仓库中有大量稳定的数据,基于数据仓库 的数据挖掘,是数据挖掘的重要方向之一
(3)数据仓库中数据挖掘特点
• 数据挖掘从数据仓库中挖掘更深层次的信息
• 数据仓库为数据挖掘提出了新要求
– ①数据挖掘需要可扩展性 – ②数据挖掘方法需要能挖掘多维知识
2 基于数据仓库的决策支持系统
• 数据仓库的决策支持功能有: (1) 对当前和历史数据完成查询和报表处理 (2) 可以用不同方法进行“如果,将怎样 (what-if)”分析 (3) 从综合数据到细节数据,深入追踪钻取查 询,寻找问题出现原因 (4) 认清过去的发展趋势,并将其应用于对未 来结果的分析
数据仓库与数据挖掘
• 数据仓库与数据挖掘简介 • 数据仓库基本原理与应用 • 数据挖掘基本原理与应用
1 从数据库到数据仓库
如何处理一下问题? (1)“数据太多,信息不足” (2)异构环境的数据的转换和共享 (3)从进行数据处理发展为利用数据支持决策
(1)数据库:用于事务处理
• 数据库作为数据资源用于管理业务中的事务处理。 它已经成为了成熟的信息基础设施。
• 数据库中存放的数据基本上是保存当前数据,随 着业务的变化随时在更新数据库中的数据。
• 不同的管理业务需要建立不同的数据库。例如, 银行中储蓄业务、信用卡业务分别要建立储蓄数 据库和信用卡数据库。
(2)数据仓库:用于决策分析
• 数据仓库用于决策分析
• 数据仓库既保存过去的数据又保存当前的数据
• 数据仓库的数据是大量数据库的集成
1 数据仓库和数据挖掘的区别与联系 2 基于数据仓库的决策支持系统
1 数据仓库和数据挖掘的区别与联系
(1)数据仓库与数据挖掘的区别 (2)数据仓库与数据挖掘的关系 (3)数据仓库中数据挖掘特点
(1) 数据仓库与数据挖掘的区别
• 数据仓库是一种存储技术,它能适应于不同用户 对不同决策需要提供所需的数据和信息。
• OLTP的特点在于事务处理量大,但事务处理内容 比较简单且重复率高。
• OLTP处理的数据是高度结构化的,涉及的事务比 较简单,数据访问路径是已知的,至少是固定的。
• OLTP面对的是事务处理操作人员和低层管理人员。
(2) 联机分析处理(OLAP)
• 决策分析需要对多个关系数据库共同进行大量的 综合计算才能得到结果。
• 数据挖掘研究各种方法和技术,从大量的数据中 挖掘出有用的信息和知识。数据挖掘的数据源可 以是数据仓库,也可以是其它形式(数据文件等)
(2)数据仓库与数据挖掘的关系
• 数据仓库与数据挖掘都是数据分析和决策支持的新 技术。但它们有着完全不同的辅助决策方式。
• 在数据仓库系统的前端的分析工具中,数据挖掘是 重要工具之一。它可以帮助决策用户挖掘数据仓库 的数据中隐含的规律性。
(4) ห้องสมุดไป่ตู้国于1987年召开了第一届全国机器学习研讨会。
2 数据挖掘含义
知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。
如在人类数据库中挖掘知识为: (头发=黑色)∨(眼睛=黑色)→亚洲人
该知识覆盖了所有亚洲人的记录。
• 统计学与自然、经济、社会都有紧密的关系。 • 其法则和方法是概率论。 • 通过对全部对象(总体)进行调查,为制定计划
和决策提供依据。
统计学中应用于数据挖掘的内容
• 常用统计(均值、方差等) • 相关分析 • 回归分析 • 假设检验 • 聚类分析 • 判别分析 • 主成份分析
统计学与数据挖掘的比较
• 20世纪60年代开始了机器学习的研究。
(1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向
(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD) 国 际学术会议; 首次提出知识发现概念
(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM) 国际学术会议; 首次提出数据挖掘概念
• 对数据库的操作比较明确,操作数据量少。对数 据仓库操作不明确,操作数据量大
(3)数据库与数据仓库对比
数据库
细节的 在存取时准确的
可更新的 一次操作数据量小
面向应用 支持管理
数据仓库
综合或提炼的 代表过去的数据
不更新 一次操作数据量大
面向分析 支持决策
2 从OLTP到OLAP
(1) 联机事物处理(OLTP) (2) 联机分析处理(OLAP) (3) OLTP与OLAP的对比
• 统计学主要是对数量数据(数值)或连续值数据 (如年龄、工资等),进行数值计算(如初等运 算)的定量分析,得到数量信息。
• 数据挖掘主要对离散数据(如职称、病症等)进 行定性分析(覆盖、归纳等),得到规则知识。
• 统计学与数据挖掘是有区别的。但是,它们之间 是相互补充的。
(三)数据仓库和数据挖掘的结合