数据仓库与数据挖掘课程设计
- 格式:docx
- 大小:102.13 KB
- 文档页数:10
一、上机目的及内容目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。
内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出购买自行车模式。
请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。
然后算法将使用决策树从中确定模式。
下一步需要训练模型,以便能够浏览树视图并从中读取模式。
市场部将根据这些模式选择潜在的客户发送自行车促销信息。
要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。
实验完成后,应根据实验情况写出实验报告。
二、实验原理及基本技术路线图(方框原理图或程序流程图)关联分析:关联分析是从数据库中发现知识的一类重要方法。
时序模式:通过时间序列搜索出重复发生概率较高的模式。
分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。
三、所用仪器、材料(设备名称、型号、规格等或使用软件)1台PC及Microsoft SQL Server套件四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等)创建 Analysis Services 项目1.打开 Business Intelligence Development Studio。
2.在“文件”菜单上,指向“新建”,然后选择“项目”。
3.确保已选中“模板”窗格中的“Analysis Services 项目”。
4.在“名称”框中,将新项目命名为 AdventureWorks。
5.单击“确定”。
更改存储数据挖掘对象的实例1.在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”。
数据仓库与数据挖掘实验报告一、实验目的和意义数据仓库和数据挖掘是现代大数据时代中关键的技术与方法,本实验旨在通过实践操作,了解数据仓库和数据挖掘的基本概念、流程和方法,并基于实验数据进行数据仓库与数据挖掘的实际应用。
二、实验内容及步骤本实验基于某电商平台的网购数据,通过数据仓库的建立和数据挖掘的过程,探索和发现隐藏在数据中的有价值信息。
具体步骤如下:1. 数据收集和预处理获取电商网购数据集,对数据进行清洗和预处理,如缺失值处理、异常值处理和数据集整合等,以保证数据的质量和可用性。
2. 数据仓库的建立基于处理后的数据,进行数据仓库的建立。
根据业务需求和分析目标,确定维度表和事实表的建模方法和关联关系,设计和构建星型或雪花模式的数据仓库。
3. 数据挖掘的实践基于已建立的数据仓库,进行数据挖掘的实践,包括关联规则挖掘、分类与预测、聚类分析、异常检测等。
通过使用数据挖掘工具,如R、Python中的Scikit-learn等,进行模型构建和算法实施,得到数据挖掘结果。
4. 结果分析与应用对数据挖掘结果进行分析和解读,发现和总结其中的规律和知识,得到业务价值和应用建议,为业务决策和目标达成提供支持和参考。
三、实验结果与分析本实验得到了以下数据挖掘结果:1. 关联规则挖掘通过关联规则挖掘的过程,发现了一些有趣和有用的关系,如购买商品A的用户有70%的概率也会购买商品B,可以利用这些关联规则进行交叉销售和推荐。
2. 分类与预测通过构建分类和预测模型,成功预测了用户的购买行为,可以预测出用户未来可能会购买的商品,为精准市场营销和库存管理提供决策支持。
3. 聚类分析通过聚类分析,将用户分为不同的群体,可以对不同群体采取不同的营销策略,提高用户满意度和购买转化率。
4. 异常检测通过异常检测,发现了一些异常行为和欺诈行为,可以及时进行监控和防范,保护用户权益和平台安全。
此外,还通过数据可视化的方式,将分析结果展示出来,如通过柱状图、折线图、散点图等方式进行可视化展示,直观地呈现数据的分布和关系。
一、实验内容和目的目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。
内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。
请将要挖掘的维度(事例维度)设置为客户,再将Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。
然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。
下一步需要训练模型,以便能够浏览树视图并从中读取模式。
市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。
二、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Windows 7数据库平台:SQL Server 2008 SP2三、实验原理知识发现被认为是从数据中发现有用知识的整个过程。
数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。
KDD过程定义为:KDD是从数据集中识别出有效出、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
KDD过程可以概括为3部分:数据准备(data preparation),数据挖掘及结果的解释和评估(interpretation & evaluation)。
数据挖掘的对象主要是关系数据库和数据仓库,这是典型的结构化数据。
随着技术的发展,数据挖掘对象逐步扩大到半结构化或非结构化数据,这主要是文本数据、图像与视频数据以及Web数据等。
数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测。
数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据挖掘方法和技术。
数据挖掘方法和技术可以分为6大类:1.归纳学习的信息论方法:ID3等方法(决策树方法)、IBLE方法(决策规则树方法)2.归纳学习的集合论方法:粗糙集(rough set)方法、关联规则挖掘、覆盖正例排斥反例方法、概念树方法。
数据仓库与数据挖掘教学大纲引言概述:数据仓库与数据挖掘是现代信息技术领域中的重要概念,对于培养学生的数据分析和决策能力具有重要意义。
因此,制定一份完善的数据仓库与数据挖掘教学大纲是必不可少的。
本文将从数据仓库与数据挖掘的基本概念、教学目标、教学内容、教学方法和评价方式五个方面,详细阐述数据仓库与数据挖掘教学大纲的内容。
一、基本概念1.1 数据仓库的定义与特点数据仓库是指将各类数据按照一定的结构和规范集成到一个统一的存储空间中,以支持决策分析和业务智能的技术体系。
它具有数据集成、主题导向、面向决策支持等特点。
1.2 数据挖掘的定义与作用数据挖掘是指通过自动或者半自动的方式,从大规模数据中发现隐藏的模式、关联和规律,用于预测、分类、聚类和异常检测等任务。
它可以匡助人们更好地理解数据,提供决策支持和业务洞察。
1.3 数据仓库与数据挖掘的关系数据仓库提供了数据挖掘所需的高质量、一致性和集成性数据,而数据挖掘则通过对数据仓库进行分析和挖掘,发现有价值的信息和知识。
二、教学目标2.1 知识目标学生应该掌握数据仓库和数据挖掘的基本概念、原理和方法,了解数据仓库与数据挖掘在实际应用中的意义和作用。
2.2 技能目标学生应该具备数据仓库和数据挖掘的建模、设计和实施能力,能够运用相应的工具和算法进行数据分析和挖掘。
2.3 态度与价值观目标学生应该培养数据驱动决策的思维方式,注重数据的质量和准确性,提高数据分析和决策的能力。
三、教学内容3.1 数据仓库的建设与管理包括数据仓库的设计原则、数据抽取与清洗、数据集成与转换、数据加载与更新、数据仓库的查询与分析等内容。
3.2 数据挖掘的基本方法与算法包括分类与预测、聚类分析、关联规则挖掘、时序模式挖掘等数据挖掘的基本方法和常用算法。
3.3 数据挖掘的应用案例通过实际案例的分析和讨论,让学生了解数据挖掘在不同领域中的应用,如市场营销、金融风控、医疗健康等。
四、教学方法4.1 理论讲授予案例分析通过教师的讲解和案例的分析,向学生介绍数据仓库与数据挖掘的基本概念和方法,培养学生的理论思维和实际应用能力。
叁握鱼生刍叁捱捡握课程教学大纲一、课程的基本信息适应对象:信息与计算科学专业课程代码:15E003027学时分配:54赋予学分:3先修课程:数据库原理与技术、概率论与数理统计、数据分析后续课程:毕业综合训练二'课程性质与任务数据仓库与数据挖掘技术是信息与计算科学专业方向选修课程,本课程反映了信息与计算科学专业具有数学学科与信息学科交叉的学科背景;数据仓库与数据挖掘主要运用概率论、统计学、神经网络、关联规那么等数学理论来挖掘海量数据中有价值的信息,为各领域的决策提供数据的支撑;通过本课程的学习,拓宽学生专业视野,有利于培养学生的数学应用能力,提高专业综合素养。
三、教学目的与要求通过本课程使学生理解数据仓库的概念和体系结构、数据仓库的数据存储和处理及数据仓库系统的设计与开发。
掌握数据挖掘的常用方法,如关联规那么、数据分类、数据聚类、贝叶斯网络、粗糙集、神经网络、遗传算法、统计分析,并能使用R语言做相关的数据挖掘; 培养学生运用各中数据挖掘算法解决实际的数据分析问题的能力,为从事信息科学的研究和应用打下一个坚实的基础。
四、教学内容与课时安排1数据仓库的概念概述(4课时)数据仓库概述数据挖掘概述数据挖掘工具(R语言)2数据仓库(4课时)数据仓库的概念及体系结构数据仓库的模型与设计3联机分析处理技术(6课时)OLAP概述多维分析操作OLAP的基本数据模型4数据预处理(4课时.)数据清洗数据集成和变换数据规约5关联规那么(6课时)关联规那么的概念与分类 Apriori算法FP-Growth算法6决策树方法(6课时)信息论基本原理常用决策树算法决策树剪枝和分类规那么提取7统计学习方法(4课时)朴素贝叶斯分类贝叶斯信念网络的预测、诊断和训练算法回归分析8神经网络(6课时)人工神经网络BP神经网络和SOFM神经网络Elman神经网络Hopfield 神经网络9聚类分析(6课时)聚类分析概率聚类分析的相异度聚类分析的算法10粗糙集(6课时)粗糙集概述粗糙集的属性约简粗糙集的决策规那么约简11文本和Web挖掘(2课时)文本挖掘Web挖掘空间数据挖掘和多媒体数据挖掘五、附录教学参考文献目录【1】陈志泊《数据仓库与数据挖掘》清华大学出版社2009 [2]周根贵《数据仓库与数据挖掘》浙江大学出版社2011 【3】夏火松《数据仓库与数据挖掘技术》科学出版社2014。
数据仓库与数据挖掘学习计划一、引言数据仓库与数据挖掘是当今信息技术领域中备受关注的热门话题之一。
数据仓库是一种用于管理和分析企业数据的技术,而数据挖掘则是通过分析大量数据来发现其内在的规律和趋势。
本文将围绕数据仓库与数据挖掘展开,制定一项系统的学习计划,以便帮助学习者更加系统地掌握相关知识和技能。
二、学习目标1. 掌握数据仓库与数据挖掘的基本概念和原理;2. 能够熟练应用相关工具和技术进行数据仓库的设计和数据挖掘的实施;3. 能够分析和解决实际问题,并提出相应的建议和决策;4. 能够跟上数据仓库与数据挖掘领域的最新发展和趋势。
三、学习内容1. 数据仓库的基本概念和原理- 数据仓库的定义和特点- 数据仓库的架构和组成- 数据仓库的实施和管理2. 数据仓库的设计和构建- 数据仓库的需求分析和规划- 数据仓库的数据模型设计- 数据仓库的ETL过程和工具3. 数据挖掘的基本概念和原理- 数据挖掘的定义和分类- 数据挖掘的过程和方法- 数据挖掘的应用领域和案例4. 数据挖掘的技术和工具- 数据挖掘的算法和模型- 数据挖掘的工具和软件- 数据挖掘的实践案例和应用5. 数据仓库与数据挖掘的整合- 数据仓库与数据挖掘的关系和作用- 数据仓库与数据挖掘的集成和应用- 数据仓库与数据挖掘的最佳实践四、学习方法1. 自主学习通过阅读相关的专业书籍和文献,并结合实际案例进行分析和探讨,以了解数据仓库与数据挖掘的基本概念和原理。
2. 实践探究通过实际的数据仓库设计和数据挖掘项目,运用相关工具和技术,进行实践性的探究和应用,以提高实际操作能力。
3. 多元交流通过参加相关的学术研讨会和行业论坛,与专业人士和同行业者进行交流和分享,获取更多的实践经验和最新信息。
4. 持续学习在学习过程中,要时刻关注数据仓库与数据挖掘领域的最新发展和趋势,保持持续学习的动力和热情。
五、学习计划1. 学习阶段一(基础知识学习)- 时间安排:3个月- 学习内容:数据仓库与数据挖掘的基本概念和原理- 学习方法:自主学习+实践探究- 学习目标:掌握数据仓库与数据挖掘的基本概念和原理2. 学习阶段二(技术工具学习)- 时间安排:3个月- 学习内容:数据仓库与数据挖掘的技术和工具- 学习方法:实践探究+多元交流- 学习目标:熟练掌握数据仓库与数据挖掘的技术和工具3. 学习阶段三(实践应用学习)- 时间安排:3个月- 学习内容:数据仓库与数据挖掘的实际应用和案例- 学习方法:实践探究+多元交流- 学习目标:能够应用数据仓库与数据挖掘解决实际问题4. 学习阶段四(持续学习)- 时间安排:持续学习- 学习内容:数据仓库与数据挖掘领域的最新发展和趋势- 学习方法:多元交流+持续学习- 学习目标:跟上数据仓库与数据挖掘领域的最新发展和趋势六、总结数据仓库与数据挖掘是当今信息技术领域中备受重视的技术,通过系统学习和实践探究,学习者可以掌握相关的基本知识和技能,并能够应用于实际工作中。
《数据仓库与数据挖掘》课程实验报告一一、实验目的、内容、原理与环境1.实验目的:掌握在SQL Server 2005示例数据仓库环境下数据加载和建立多维数据模型过程的知识, 训练其把教材上的内容应用到实际中的技能, 为今后继续数据挖掘技术的学习奠定基础。
2.实验内容:在SQL Server 2005示例数据仓库环境下加载数据仓库, 建立多维数据模型。
具体内容包括:创建 Analysis Services 项目 , 定义数据源 , 定义数据源视图 , 修改表的默认名称, 定义多维数据集 , 检查多维数据集和维度属性 , 部署 Analysis Services 项目, 浏览已部署的多维数据集等知识。
3、实验原理与环境:数据仓库环境下数据加载过程和多维数据模型建立的方法。
SQL Server 2005示例数据仓库环境。
二、实验步骤(一)本实验的主要步骤(7步)分别介绍如下:(二)创建 Analysis Services 项目(二)创建数据源(三)定义数据源视图(四)定义多为数据源集(五)部署 Analysis Services 项目(六)浏览已部署的多维数据集(七)提高多维数据集的可用性和易用性三、实验总结通过数据仓库与数据挖掘的这门课的学习, 掌握了数据仓库与数据挖掘的一些基础知识和基本概念, 了解了数据仓库与数据库的区别。
下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。
数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。
主题是数据数据归类的标准, 每个主题对应一个客观分析的领域, 他可为辅助决策集成多个部门不同系统的大量数据。
数据仓库包含了大量的历史数据, 经集成后进入数据仓库的数据极少更新的。
数据仓库内的数据时间一般为5年至10年, 主要用于进行时间趋势分析。
数据仓库的数据量很大。
数据仓库的特点如下:。
数据仓库与数据挖掘课程教学大纲课程名称:数据仓库与数据挖掘课程编码:0403230学分:3总学时: 48=36(授课)+12(上机)适用专业:计算机科学与技术本科及研究生先修课程:离散数学、数据库系统原理、算法分析与设计一、课程的性质、目的与任务:本课程属于计算机科学与技术学科的专业必修课。
课程要达到的目的是:使学生初步具有利用数据仓库技术对业务活动中产生的海量数据的采集、清理、存储、分析、使用与维护;利用数据挖掘技术在数据仓库中发现隐藏在海量数据中人们未知的、有价值的信息的能力。
二、教学基本要求:本课程理论知识与实践能力并重,具有良好的应用背景。
学生通过本课程的理论学习与实践,教学的基本要求分三个层次:了解:数据仓库与数据挖掘的产生、发展,数据挖掘的应用,操作型处理(事务型处理)和分析型处理,数据仓库的应用,熟悉应用领域与管理,数据挖掘动机、数据挖掘功能,数据挖掘系统的分类和数据挖掘实施控制,多层关联规则、多维关联规则的基本思想,利用神经网络算法进行数据挖掘的应用。
理解:OLAP概念,以多维数据库为基础的OLAP服务,数据仓库的设计步骤,数据仓库的数据组织目的,学习组织方法和方式,认识决策数分类的基本思想,神经网络原理等掌握:数据库中的知识发现过程,数据仓库的基本原理,展现方式、OLAP的体系结构和分类,螺旋式开发过程, 熟悉应用领域与管理,掌握数据仓库开发设计过程,数据仓库的开发方法等。
三、教学内容:(一)数据仓库与数据挖掘概述1、数据仓库的兴起(1学时)2、数据挖掘的兴起(1学时)3、数据仓库和数据挖掘的结合(1学时)(二)数据仓库原理1、数据仓库结构体系(1学时)2、数据仓库的数据模型(2学时)3、数据抽取、转换和装载(2学时)4、元数据(1学时)(三)联机分析处理1、OLAP概念(1学时)2、OLAP的数据模型(1学时)3、多维数据的显示(1学时)4、OLAP的多维数据分析(2学时)5、OLAP结构与分析工具(1学时)(四)数据仓库设计与开发1、数据仓库分析与设计(4学时)2、数据仓库开发(4学时)3、数据仓库技术与开发的困难(4学时)(五)数据仓库管理和应用1、数据仓库管理(1学时)2、数据仓库的决策支持与决策支持系统(1学时)3、数据仓库应用实例(1学时)(六)数据挖掘原理1、知识发现过程(1学时)2、数据挖掘方法和技术(1学时)3、数据挖掘的知识表示(1学时)(七)决策树1、决策树方法(1学时)2、决策树概念(1学时)3、ID3方法基本思想,ID3算法(2学时)4、7.2.5C4.5方法(2学时)(八)关联规则1、关联规则的挖掘原理(1学时)2、Apriori算法的基本思想,Apriori算法程序(1学时)3、基于FP一树的关联规则挖掘算法(1学时)(九)神经网络1、神经网络概念及几何意义(1学时)2、感知机(1学时)3、反向传播模型(1学时)(十)数据仓库与数据挖掘的发展(3学时)四、实验/上机目的、内容与要求1、数据仓库的构建(4学时)目的:1.理解数据库与数据仓库之间的区别与联系;2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3.掌握数据仓库建立的基本方法及其相关工具的使用。
《数据仓库与数据挖掘》实验大纲引言概述:数据仓库与数据挖掘是现代信息技术领域中的重要概念,它们在数据管理和分析方面发挥着重要作用。
本文将介绍《数据仓库与数据挖掘》实验大纲,以帮助读者了解实验的目的和内容,并为他们提供实验的指导。
一、实验目的1.1 理解数据仓库的概念和作用1.2 掌握数据仓库的设计与建模方法1.3 学习数据仓库的实施与管理技术二、实验内容2.1 数据仓库的设计与建模2.1.1 确定数据仓库的业务需求和目标2.1.2 设计数据仓库的物理和逻辑模型2.1.3 实施数据仓库的ETL(抽取、转换、加载)过程2.2 数据仓库的实施与管理2.2.1 选择合适的数据仓库平台和工具2.2.2 构建数据仓库的基础设施和架构2.2.3 管理数据仓库的运行和维护三、实验步骤3.1 确定实验需求和目标,制定实验计划3.2 进行数据仓库的设计与建模实验3.3 实施数据仓库的ETL过程3.4 进行数据仓库的实施与管理实验3.5 进行数据仓库的运行和维护实验四、实验要求4.1 熟悉数据库管理系统和SQL语言4.2 具备数据分析和数据挖掘的基本知识4.3 具备数据仓库的基本概念和理论知识五、实验评估5.1 根据实验报告和实验成果进行评估5.2 考核学生对数据仓库和数据挖掘的理解和应用能力5.3 评估学生对实验过程和结果的分析和总结能力总结:通过本次实验,学生将能够深入了解数据仓库与数据挖掘的概念、设计与实施方法,并能够应用所学知识解决实际问题。
同时,实验大纲的设计也能够帮助学生系统地学习和掌握相关知识,提高他们在数据管理和分析方面的能力。
希望本文所介绍的《数据仓库与数据挖掘》实验大纲能够为读者提供实验指导和学习参考。
数据仓库设计课程设计一、教学目标本课程的数据仓库设计课程设计旨在达到以下教学目标:1.学生能够理解数据仓库的基本概念、特点和架构。
2.学生能够掌握数据仓库设计的原则和方法。
3.学生能够了解数据仓库设计中的关键技术和工具。
4.学生能够运用数据仓库设计原则和方法进行实际项目的数据仓库设计。
5.学生能够使用相关技术和工具进行数据仓库的建模和实现。
情感态度价值观目标:1.学生能够认识到数据仓库在现代信息社会中的重要性和应用价值。
2.学生能够培养对数据仓库设计工作的兴趣和热情。
二、教学内容本课程的教学内容将围绕数据仓库设计的核心概念、方法和工具展开,具体包括以下方面:1.数据仓库的基本概念和特点:数据仓库的定义、数据仓库与传统数据库的区别、数据仓库的特点和优势。
2.数据仓库架构:数据仓库的层次结构、数据仓库的组件和它们之间的关系。
3.数据仓库设计原则:数据仓库设计的目标和原则、数据仓库设计的方法和步骤。
4.数据仓库建模:实体关系模型、维度模型、星型模式和雪花模式。
5.数据仓库实现:数据仓库的实现技术、数据仓库的构建工具和平台。
三、教学方法为了提高学生的学习效果和兴趣,将采用多种教学方法进行教学,包括:1.讲授法:通过教师的讲解,向学生传授数据仓库设计的基本概念和方法。
2.案例分析法:通过分析实际案例,让学生了解数据仓库设计的实际应用和挑战。
3.实验法:通过实验室的实践操作,让学生亲手构建数据仓库模型,提高其实际操作能力。
4.讨论法:通过小组讨论和交流,培养学生的团队合作能力和解决问题的能力。
四、教学资源为了支持本课程的教学内容和教学方法的实施,将准备以下教学资源:1.教材:选择一本与数据仓库设计相关的教材,作为学生学习的基础。
2.参考书:提供一些相关的参考书籍,供学生深入学习和参考。
3.多媒体资料:制作课件、演示文稿等多媒体资料,以图文并茂的方式呈现教学内容。
4.实验设备:提供实验室设备,如计算机、数据库管理系统等,供学生进行实验和实践操作。
数据仓库与数据挖掘课程设计
文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58- 目录 1. 绪论 2 1.1项目背景 2 1.2 提出问题........................................... 2 2 数据库仓库与数据集的概念介绍 2 2.1数据仓库 ........................................... 2 2.2数据集 ............................................. 2 3 数据仓库 3 3.1 数据仓库的设计 .................................... 3 3.1.1数据仓库的概念模型设计 ....................... 3 3.1.2数据仓库的逻辑模型设计 ....................... 3 3.2 数据仓库的建立 .................................... 3 3.2.1数据仓库数据集 ............................... 3 3.2.2建立维表 ..................................... 4 4.数据挖掘操作 4 4.1数据预处理 ......................................... 4 4.1.1描述性数据汇总 ............................... 4 4.2决策树 ............................................. 4 5、实验心得 12 6、大总结 12 1. 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。
1.2 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。 2 数据库仓库与数据集的概念介绍
2.1数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
2.2数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问 题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 3 数据仓库
3.1 数据仓库的设计 3.1.1数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。
3.2 数据仓库的建立 3.2.1数据仓库数据集 一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手 段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。 3.2.2建立维表 维是分析问题的角度,度量是要分析的问题。 多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同不是随时间的推移变化,而是不断变大。 维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。如果把维表置于第二范式中,这样的表称为雪花模型。 维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表中,这个主键字便被称作退化的维。 创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当维事实表。 星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。 雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所有的事实表都有一个与之相关的时间维表。 4.数据挖掘操作 4.1数据预处理 4.1.1描述性数据汇总 对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。
4.2决策树 (1)读取文本数据 使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加的节点以打开相应的对话框。如图1所示。 图1 单击紧挨“导入文件”框右边以省略号“...”标记的按钮,浏览到系统中的 Clementine 安装目录。打开目标文件目录,然后选择名为sales.xls的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。如图2所示。 图2 单击过滤选项,可以把用不到的信息给过滤掉。如图3所示。 图3 类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。如图4所示。 图4 (2)添加表 现在已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。如图5所示。 图5 双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。要模拟鼠标中键操作,请在使用鼠标时按下 Alt 键。如图6所示。 图6 要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。如图7所示。 图7 (3)创建分布图 将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。选择商品名称作为要显示其分布的目标字段。然后,在对话框中单击执行。如图8所示。 图8 最终图表将有助于查看数据的“结构”。结果表明,商品300g壶瓶枣和400g沁州黄卖的最多。如图9所示。 图9 此外,还可以在“输出”选项卡中找到数据审核节点。如图10所示。 图10 添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。如图11所示。 图11
(4)创建散点图 现在我们来看一下有哪些因素会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着重要的影响。所以创建一个关于商品名称和销售模式的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。如图12所示。 图12 在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击执行。如图13所示。 图13 此散点图清楚地显示商品在零售和特价模式下销售金额的不同。商品在特价的销售模式下,销售金额明显高于零售模式下的销售金额。如图14所示。 图14 (5)创建直方图 因很多数据不能够直接显示,所以我们要建立直方图,直方图能够很清晰的显示数据。首先,将网络节点与您工作区中的源节点相连接。如图15所示。 图15
在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。然
后单击执行。如图16所示。 图16 此直方图能够清楚地显示不同商品销售数量的不同。由图可以看出序号为1的商品销售数量最多,序号为9的商品销售数量最少。如图17所示。 图17