数据仓库与数据挖掘-教学大纲

  • 格式:docx
  • 大小:17.81 KB
  • 文档页数:5

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据仓库与数据挖掘》教学大纲

一、课程概况

课程名称:数据仓库与数据挖掘

英文名称:Data warehousing and data mining

课程性质:选修

课程学时:32

课程学分:2

授课对象:信息类的大学本科高年级学生

开课时间:三年级下学期

讲课方式:课堂+实验

主讲老师:

二、教学目的

本课程把数据视为基础资源,根据软件工程的思想,总结了数据利用的历程,讲述了数据仓库的基础知识和工具,研究了数据挖掘的任务及其挑战,给出了经典的数据挖掘算法,介绍了数据挖掘的产品,剖析了税务数据挖掘的案例,探索了大数据的管理和应用问题。

三、教学任务

完成《数据仓库与数据挖掘》教材内容,及教学计划中的互动实践内容,另有学生自主选题的大作业、选作的论文报告。32学时:课堂24、实验2、课外2、研讨4学时。

四、教学内容的结构

课程由9个教学单元组成,对应于《数据仓库与数据挖掘》的内容。

第1章数据仓库和数据挖掘概述

1.1概述1

1.2数据中心4

1.2.1关系型数据中心

1.2.2非关系型数据中心

1.2.3混合型数据中心(大数据平台)1.3混合型数据中心参考架构

第2章数据

2.1数据的概念

2.2数据的内容

2.2.1实时数据与历史数据

2.2.2时态数据与事务数据

2.2.3图形数据与图像数据

2.2.4主题数据与全部数据

2.2.5空间数据

2.2.6序列数据和数据流

2.2.7元数据与数据字典

2.3数据属性及数据集

2.4数据特征的统计描述22

2.4.1集中趋势22

2.4.2离散程度23

2.4.3数据的分布形状25

2.5数据的可视化26

2.6数据相似与相异性的度量29

2.7数据质量32

2.8数据预处理32

2.8.1被污染的数据33

2.8.2数据清理35

2.8.3数据集成36

2.8.4数据变换37

2.8.5数据规约38

第3章数据仓库与数据ETL基础39 3.1从数据库到数据仓库39

3.2数据仓库的结构39

3.2.1两层体系结构41

3.2.2三层体系结构41

3.2.3组成元素42

3.3数据仓库的数据模型43

3.3.1概念模型43

3.3.2逻辑模型43

3.3.3物理模型46

3.4 ETL46

3.4.1数据抽取47

3.4.2数据转换48

3.4.3数据加载49

3.5 OLAP49

3.5.1维49

3.5.2 OLAP与OLTP49

3.5.3 OLAP的基本操作50

3.6 OLAP的数据模型51

3.6.1 ROLAP52

3.6.2 MOLAP52

3.6.3 HOLAP53

第四章数据仓库和ETL工具54

4.1 IBM DB2 V10

4.1.1自适应压缩54

4.1.2多温度存储55

4.1.3时间旅行查询56

4.1.4 DB2兼容性功能60

4.1.5工作负载管理61

4.1.6 PureXML62

4.1.7当前已落实63

4.1.8 DB2 PureScale Feature63

4.1.9 分区特性65

4.1.10并行技术67

4.1.11 SQW68

4.1.12 Cubing Services68

4.1.13 列式存储及压缩技术(BLU)70 4.2 InfoSphere Datastage71

4.2.1基于Information Server的架构72 4.2.2企业级实施和管理75

4.2.3高扩展的体系架构79

4.2.4具备线性扩充能力81

4.2.5 ETL元数据管理82

4.3 InfoSphere QualityStage82

第5章数据挖掘基础84

5.1数据挖掘的起源84

5.2数据挖掘的定义85

5.3数据挖掘的任务86

5.3.1分类

5.3.2回归分析

5.3.3相关分析

5.3.4聚类分析

5.3.5关联规则

5.3.6异常检测

5.4数据挖掘标准流程

5.4.1商业理解

5.4.2数据理解

5.4.3数据准备

5.4.4建立模型

5.4.5模型评估

5.4.6结果部署

5.5数据挖掘的十大挑战性问题

5.5.1数据挖掘统一理论的探索

5.5.2高维数据和高速数据流的研究与应用

5.5.3时序数据的挖掘与降噪

5.5.4从复杂数据中找寻复杂知识

5.5.5网络环境中的数据挖掘

5.5.6分布式数据挖掘

5.5.7生物医学和环境科学数据挖掘

5.5.8数据挖掘过程自动化与可视化

5.5.9信息安全与隐私保护

5.5.10动态、不平衡及成本敏感数据的挖掘

第6章数据挖掘算法

6.1算法概述

6.1.1分类算法及评估指标

6.1.2聚类算法及其评价指标

6.2 C4.5

6.3 CART算法

6.4 K-Means 算法

6.5 SVM算法121

6.6 Apriori算法

6.7 EM算法

6.8 PageRank

6.9Adaboost算法

6.10KNN算法

6.11Naive Bayes

第7章数据挖掘工具与产品

7.1 数据挖掘工具概述

7.2 商业数据挖掘工具IBM SPSS Modeler

7.3 开源通用的数据挖掘工具WEKA

第8章数据挖掘案例

8.1概述

8.2纳税评估示例

8.3税收预测建模示例

8.4税务行业纳税人客户细分探索

8.5基于Hadoop平台的数据挖掘思考题

第9章大数据管理

9.1 什么是大数据

9.2 Hadoop介绍

9.3 NoSQL介绍

9.4 InfoSphere BigInsights 3.0介绍

五、教学活动以及教学方法上的基本要求

课堂教学、实验、课外作业、自选题目的大作业、论文和报告结合,另有课