数据挖掘介绍资料

  • 格式:ppt
  • 大小:214.00 KB
  • 文档页数:25

下载文档原格式

  / 25
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


风险分析和管理

预测, 消费能力, 质量控制,竞争力分析

欺骗探测 和不寻常行为探测

其他应用

Web 挖掘
DNA 和生物信息挖掘
Data Mining: Concepts and Techniques
2018年10月24日星期三
6
市场分析和管理

数据来源?

信用卡事务, 折扣优待卷,客户投诉电话, 公众生活方式调查 发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式 随着时间发展,决定消费者购买的模式


同义词


注意事项: Is everything “data mining”?
Hale Waihona Puke Baidu
专家系统或统计程序
Data Mining: Concepts and Techniques
2018年10月24日星期三
5
为什么要数据挖掘?—潜在的应用

数据分析与决策支持

市场分析和管理

目标市场,客户关系管理, 市场销售分析, 交叉销售, 市场分割
11
知识发现过程步骤:




了解应用领域 相关前提知识和应用目标 数据清理 和数据集成: (可能需要付出 60%的努力!) 数据选择 数据变换 选择数据挖掘功能 特征化、关联、分类、聚类分析以及演变和偏差分析. 选择挖掘算法 数据挖掘 模式评价 和 知识表达 可视化,转换,排除冗余模式, etc. 使用发现知识

应用和社会影响

2018年10月24日星期三
23
汇总

数据挖掘: 从大量数据中发现有趣模式


数据库技术在大量需求,广泛应用驱动下自然发展
不同概念层上多种挖掘功能结合 Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc.
Retail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis, Web mining, etc.

数据来源

Relational, data warehouse, transactional, stream, objectoriented/relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW Characterization, discrimination, association, classification, clustering, trend/deviation, outlier analysis, etc.
2018年10月24日星期三
Data Mining: Concepts and Techniques
17
所有模式都是有趣的吗

数据挖掘会生成很多模式:并不是所有模式都是有趣的

建议方法: Human-centered, query-based, focused mining

有趣模式

易于被人理解;在某种程度上,对于新的或测试数据是有效的;是 潜在有用的;是新颖的。
2018年10月24日星期三
Data Mining: Concepts and Techniques
10
数据挖掘: 知识发现过程

数据挖掘—知识发现过程 的核心
评估与表示
数据挖掘 选择与转变 数据仓库
清理与集成
数据库
2018年10月24日星期三 Data Mining: Concepts and Techniques

1960s:

数据收集,数据创建
关系数据模型, 关系数据库管理系统

1970s:


1980s:


高级数据模型 (扩充关系, 面向对象, etc.)
面向应用的数据库管理系统 (空间的,时间的,知识库, etc.) 数据挖掘,数据仓库,Web 数据库 面向各种应用的数据挖掘 Web 技术 和 全球信息系统
2018年10月24日星期三 Data Mining: Concepts and Techniques
DBA
13
结构: 典型数据挖掘系统
图形用户界面
模式评估 数据挖掘引擎
数据库或数据仓库 服务器
数据清理 数据集成
知识库
过虑
Databases
2018年10月24日星期三
Data Warehouse
14

1990s:


2000s

2018年10月24日星期三
Data Mining: Concepts and Techniques
4
什么是数据挖掘?

数据挖掘 (从数据中提取或“挖掘”知识)

从大量数据中提取有兴趣 (不琐碎的, 固有的, 先前未
知的 和 潜在有用的) 知识 数据挖掘: 用词不当? 数据库中知识挖掘、知识提取、数据/模式分析、数据 考古和数据捕捞 查询处理.
Data Mining: Concepts and Techniques
我们可以发现所有有趣模式吗?

发现所有的兴趣模式: 完全的

数据挖掘系统可以发现所有有趣模式吗? 启发式 vs. 穷举搜索
联合 vs. 分类 vs. 聚类
数据挖掘系统能仅产生有趣模式吗? 方法


仅产生有趣的模式: 最优化问题
Business Analyst Data Analyst
数据查询 Statistical Analysis, Querying and Reporting
数据仓库 /数据集市 OLAP, MDA 数据源 Paper, Files, Information Providers, Database Systems, OLTP

分析显示: 38% 的零售收缩归咎于不诚实雇员

反对恐怖主义
2018年10月24日星期三
Data Mining: Concepts and Techniques
9
其他应用

运动

IBM高级侦察系统统计NBA比赛

天文学

喷气推进实验所(JPL) 与 Palomar 天文台在数据挖掘帮 助下发现22类星体
Data Mining: Concepts and Techniques

知识被挖掘



运用技术


面向应用

2018年10月24日星期三
22
数据挖掘的主要问题

挖掘方法

在数据库中挖掘不同知识, e.g., bio, stream, Web
性能: 有效性,可伸缩性, 并行处理 模式评估: 兴趣度问题 结合背景知识
20
数据挖掘: 分类方案

一般功能

描述性数据挖掘 预测性数据挖掘

不同的观点, 不同的分类

根据挖掘的数据类型分类 根据挖掘的知识类型分类 根据所用的技术分类 根据应用分类
Data Mining: Concepts and Techniques
2018年10月24日星期三
21
数据挖掘多维角度
Data Mining: Concepts and Techniques
7
公司分析 & 风险管理

经费计划与资产评估

现金流转分析 和 预测 临时问题分析进行评估资产 交叉组合和时间序列分析 (财政比率, 趋势分析, etc.) 总结、比较资源花费 监控竞争者和市场方向 划分消费群和基于分类的定价程序 制定具有高度市场竞争力的定价策略
聚类分析 类标记是未知的:聚类数据以形成新类标记 最大化类内的相似性、最小化类间的相似性 孤立点分析 孤立点: 数据对象与数据的一般行为或模型不一致 噪声 or 异常丢掉? 不! 在欺骗探测, 罕见事件分析中有用 演变分析 趋势 和 背离 连续时间序列数据分析, 周期模式匹配分析 基于类似性的数据分析
数据进行分析。

我们溺死在数据坟墓中,却难以提取有效信息
解决方法:数据仓库与数据挖掘

数据仓库 and 联机分析处理(OLAP)

在大型数据库数据中挖掘有趣知识 (规则, 模式, 约束)
Data Mining: Concepts and Techniques
2018年10月24日星期三
3
数据库技术发展

目标市场


交叉市场分析

产品间的销售联系, 基于这些联系进行预测
什么样的消费者买什么样的产品 (聚类 or 分类)

消费者类型


消费需求分析

为不同消费者提供最好产品 预测吸引新消费者的因素

提供信息总结

多维总结报告 分析汇总信息 (数据集中趋势和变化)
2018年10月24日星期三
数据挖掘 概念与技术
— Chapter 1 —
© Jiawei Han and Micheline Kamber
2018年10月24日星期三
Data Mining: Concepts and Techniques
1
Chapter 1. 引言

什么激发了数据挖掘,为什么它是重要的? 什么是数据挖掘? 在何种数据上进行数据挖掘?


处理噪声和不完全数据
整合从已知信息中发现的知识: knowledge fusion 数据挖掘查询语言 表示和可视化数据挖掘结果 多个抽象层的交互知识挖掘 特定范围数据挖掘应用 保护数据安全性, 完整性, 保密性
Data Mining: Concepts and Techniques

用户交互

Data Mining: Concepts and Techniques

资源计划


竞争

2018年10月24日星期三
8
欺骗探测 & 挖掘不寻常模式

方法: 聚类 进行欺骗模式构造, 孤立点分析

应用: 卫生保健, 零售业, 信用卡服务.

汽车保险: 洗钱: 可疑金钱事务 医疗保险 长途通讯 零售产业
Data Mining: Concepts and Techniques
2018年10月24日星期三
12
数据挖掘 和 商业智能
Increasing potential to support business decisions End User
决策
知识表示 Visualization Techniques 数据挖掘 Information Discovery
Data Mining: Concepts and Techniques
在何种数据上进行数据挖掘

关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库应用 面向对象数据库 对象关系数据库 空间数据库 时间数据库和时间序列数据库 多媒体数据库 异种数据库和遗产数据库 WWW


数据挖掘功能
所有模式都是有趣的吗?


数据挖掘系统的分类
数据挖掘的主要问题
2018年10月24日星期三
Data Mining: Concepts and Techniques
2
需要是发明之母

数据爆炸问题

自动数据收集工具和成熟的数据库技术导致海量数据累 积,需要对数据库、数据仓库及其他信息存储设备中的
Data Mining: Concepts and Techniques
2018年10月24日星期三
15
数据挖掘功能

概念/类描述: 特征化和区分

归纳, 总结, 对比数据特征, e.g., dry vs. wet regions
Diaper Beer [0.5%, 75%]

关联分析 (相关性和因果关系)

首先生成所有模式,然后过虑非兴趣模式.
仅生成有趣模式—优化数据挖掘查询
Data Mining: Concepts and Techniques
2018年10月24日星期三
19
数据挖掘: 多学科汇总
数据库技术
统计学
信息科学
数据挖掘
机器学习
可视化
其他学科
2018年10月24日星期三
Data Mining: Concepts and Techniques


分类和预测

模型构造:描述和预测类标记未知的对象类

例如,基于气候划分国家, 基于汽油消耗定额划分汽车


表示: 判定树,分类规则,神经网络
预测空缺或不知道的数据值
2018年10月24日星期三
Data Mining: Concepts and Techniques
16
数据挖掘功能 (2)




客观 vs. 主观兴趣度度量

客观: 基于所发现模式的结构和关于它们的统计, e.g., support, confidence, etc. 主观: 基于用户对数据的确信, e.g., unexpectedness, novelty, actionability, etc.
18

2018年10月24日星期三