商务智能重点(大概整理)
- 格式:docx
- 大小:259.91 KB
- 文档页数:9
作答条目一定清楚,论述详细。
否则扣分(条目只占一半得分)1.数据仓库的大特点?面向主题的,集成的,相对稳定的,反映历史变化的。
2.数据仓库的四个层次体系结构?数据源是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为: ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。
ROLAP基本数据和聚合数据均存放在RDBMS之中; MOLAP基本数据和聚合数据均存放于多维数据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
3.描述一下联机分析处理OLAP(维的概念,基本多维操作,层次结构与OLTP的区别)OLAP(联机分析处理On-Line Analytical Processing)也叫多维DBMSOLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
数据仓库的数据组织结构在数据仓库中,数据被分成4种级别,分别是高度综合级、轻度综合级、当前细节级、早期细节级。
当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将细节数据聚合成轻度综合和高度综合级数据。
随着时间的推移,系统中的一些细节数据已经老化了,很少会被用户使用,此时为了节省系统的存储空间,可以将这些老化的细节数据导出到备份设备上,这就是早期细节级数据。
由于客户呼叫数据的数据量很大,并且数据仓库的使用者常常只关心近期的细节数据,因此我们可以在系统中只保存近期的细节数据,而将之前的详细数据导出到备份设备中。
对于高度综合的数据,由于其数据量已经很少,所以一般可以不考虑它们的导出问题。
总的来说,数据仓库的这种组织方式的核心思想是:在系统中保留最有可能被用户使用的数据,而用户很少使用的数据则备份出系统。
综合程度不同的数据其用途不同,在数据仓库中多重的数据粒度是必不可少的。
但是,由于数据仓库最主要的目的是反映企业的整体信息和DSS分析,回答综合程度较高的问题。
如果为了回答许多细节问题,而使系统的数据量极度膨胀,从而降低系统的运营效率,就背离了系统建设的初衷,这也是我们在数据仓库数据组织方式中说明的,对细节数据和综合数据采用不同策略的原因。
实际的工程项目中,我们可以将综合数据较高的数据存放在访问速率较高的磁盘上,而将细节数据定期导出到低速的磁带上。
从数据仓库中导出的数据仍然属于数据仓库,只是在存储介质上发生了改变。
如果这两个样本的数据特征不类似,则继续抽样。
等到抽样获得的样本5、样本6它们的数值特征非常地相似,则认为样本集合的数值特征类似,并且都同源数据具有类似的特征数据分割能提高数据处理的效率。
如果数据库中的数据没有发生变化,则不需要对数据仓库进行追加。
数据追加只增加在上次数据输入后数据库中变化了的数据。
要完成数据追加的工作,最关键的是“捕捉”数据变化,并将数据的变化记录下来。
并不是日志文件中所有的信息都是必须的,通过分析日志文件可以减少工作量。
1.商务智能的基本概念(简答)对工业界来说,商务智能是一类技术或工具,利用他们可以对大量的数据进行收集、管理、分析和挖掘,以改善业务决策水平,增强企业竞争力。
对学术界来说,商务智能是一套理论、方法、和应用,通过他们可以快速的发现海量数据中隐含的各种知识,有效的解决企业面临的管理和决策问题,支持企业的战略实施。
2.商务智能系统的开发过程3.在线分析处理和在线事务处理(简答)4.决策支持系统的系统架构(1)模型库管理系统主要用于管理决策所需的各种模型,例如财务、统计、预测以及管理等方面的定量模型,利用这些模型可以进行问题分析。
用户利用该系统可以方便快捷的构建和操纵模型。
系统提供对模型的分类、删除、复制等维护功能,可以将已有模型进行合并,以及对模型的执行情况进行跟踪、分析和评价,如对变量进行敏感度分析等。
(2)知识库管理系统提供知识的表示、存储和管理功能,用于支持定量模型无法解决的决策过程,帮助用户建立、应用和管理描述性、过程性和推理性知识。
(3)对话产生与管理系统主要负责用户与系统之间的交互。
接受用户的输入,能够与数据库管理系统、模型库管理系统和知识库管理系统进行交互,以各种形式将结果返回给用户,提供图形用户界面以及可视化功能。
6.回归:回归方法中最常用的是线性回归,包括一元线性回归、多元线性回归以及非线性回归。
线性回归方法不仅用于预测,也可以用作解释模型,以探寻变量之间的关系。
另外还有回归树和模型树等模型。
7.回归系数的显著性检验:回归系数的显著性检验可以采用t检验。
对于每个回归系数bi(i=1,2,....k),显著性检验的两个假设分别为H0:bi=0和H1:bi≠0。
若bi=0说明自变量xi的变化对因变量没有线性影响,即变量xi对因变量的影响不显著。
为每个回归系数b i 构造变量tbi如式所示:式中cii是对矩阵C=(X T X)-1的对角线上的第i个值。
给定显著性水平α,查自由度为(n-k-1)的t分布表,得到tα(n-k-1),若t bi>t α(n-k-1),则拒绝假设H0,即回归系数b i显著。
商务智能考点内容一、商务智能内容●数据仓库、数据挖掘、OLAP二、数据挖掘内容●算法、数据库技术、可视化技术、其他、机器学习、模式识别、统计分析三、知识包括什么●显性:规范化、系统化●隐性:个人思想和经验四、OTAP和OLAP区别●特征、面向、关注、功能五、数据仓库的特点●时变性、稳定性、决策支持、集成性、面向主题●主题以表存储,采用同一套编码规则、定时增加删除、实时捕捉快照、决策支持六、数据仓库流程●获取、管理、分析、展现七、数据仓库可运用于●投资组合分析、利润成本分析、资产分析八、元数据概念●是对于源数据的说明,包括名称、定义、来源、创建时间等九、数据仓库模型及联系和区别●物理模型、逻辑模型、概念模型●物理模型是逻辑模型在数据仓库中的实现十、粒度概念●粒度说明数据仓库中数据综合程度的高低。
●粒度越小,综合程度越小,可查询的种类越多;粒度越大,综合程度越高,查询的效率越高●粒度小的数据存储在低速存储器,粒度大的数据存储在高速存储器十一、OLAP概念●OLAP是针对特点问题的数据的联机访问和分析,它通过信息的可能的观察形式来进行快速的、稳定一致的、交互性的存取。
允许管理决策人员对数据进行深入观察。
十二、OLAP特点●快速性,5秒内对请求做出回应●可分析性,系统必须能够处理和应用有关的逻辑分析和统计分析●多维性,系统必须提供对数据的多维视图及分析●信息性,获得信息和管理信息十三、OLAP操作●对二维数据切片,三维数据切块●钻取,包括下钻和上卷●旋转十四、MOLAP特点●对数据进行预处理,性能好十五、MOLAP和ROLAP比较●MOLAP把多维实视图在概念上看成一个超立方体,物理上为一个多维数组,而ROLAP以表的形式存储实视图。
ROLAP更加灵活、节省空间,MOLAP在性能和管理上更加优越。
十六、数据仓库和数据库中数据的比较●数据仓库:长期框架、静态、定期更新、数据驱动●数据库:短期框架、快速变化、实时更新、事件驱动十七、BP神经网络训练步骤●分析业务问题●选择训练样本集,对输入值和输出值进行预处理●利用经验确定网络的拓扑结构,对神经元的权值和偏置进行初始化●利用反向传播等算法训练网络,逐渐缩小网络权值误差以达到最佳值●用测试集检查网络分类或预测质量●预测未知样本的分类十八、二元变量相异度计算●对称性:d(X1,X2)=b+c/a+b+c+d●非对称性:d(X1,X2)=b+c/a+b+c十九、支持度和置信度●多大可能购买集X中商品的顾客同时也购买集Y中商品二十、回归分析的步骤●确定自变量和因变量●绘制散点图,观察大致关系●求回归系数,建立回归模型●检验回归模型●预测未来情况二十一、Web挖掘概念●主要是处理文本、图形、图像等半结构化、非机构化数据。
商务智能方法与应用笔记一、商务智能的概念商务智能是指利用数据分析、数据挖掘、商业预测等技术手段,帮助企业管理者进行决策的一种信息化工具。
商务智能的实际应用是将各种不同的数据整合在一起,以便更好地进行分析和利用,从而为企业的管理层提供决策支持。
二、商务智能的方法1. 数据仓库数据仓库是商务智能的基础,它是一个用于存储和管理企业核心数据的集中式数据库系统。
数据仓库可以整合来自不同数据源的数据,包括交易数据、客户数据、市场数据等。
数据仓库的建立和维护是商务智能的第一步,也是商务智能方法中最重要的一环。
2. 数据分析数据分析是商务智能的核心方法之一,通过对大量数据的分析,可以帮助企业发现潜在的业务趋势和问题。
数据分析可以采用统计分析、数据挖掘、机器学习等技术手段,以发现数据中的规律和关联,从而为企业的决策提供可靠的依据。
3. 商业智能工具商业智能工具是商务智能方法中的重要支撑,包括数据可视化工具、报表工具、仪表盘工具等。
这些工具可以帮助企业管理者更直观地了解数据,以便更好地进行业务分析和决策。
三、商务智能的应用1. 销售预测通过商务智能方法可以分析历史销售数据、市场趋势等信息,从而预测未来的销售趋势,帮助企业做出合理的生产计划和市场策略。
2. 客户分析商务智能可以对客户进行深入的分析,包括客户的消费习惯、偏好、忠诚度等方面,从而帮助企业制定更有针对性的营销策略,提升客户满意度和忠诚度。
3. 供应链优化通过对供应链数据的分析,商务智能可以帮助企业优化供应链管理,提高供应链的效率和灵活性,减少库存成本和生产周期,提升企业的竞争力。
四、商务智能的发展趋势随着大数据、人工智能等技术的发展,商务智能也在不断演进。
未来,商务智能将更加注重数据的实时性和智能化分析能力,以更好地满足企业决策的需求。
总结:商务智能方法与应用是企业信息化的重要组成部分,它通过数据分析、预测建模、决策支持等手段,帮助企业管理者更好地把握市场动向、优化资源配置,提高企业的竞争力和盈利能力。
商务智能复习纲要第1章 商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字 信息:有用的数据 关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。
数据是信息的载体,信息是对数据的解释。
知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。
2、决策离不开信息、知识①决策需要信息,更离不开知识;知识更多地表现为经验--学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。
②信息已成为企业经营中重要性仅次于人才的第二大要素。
③决策=信息+经验+冒险④商务智能是对企业信息的科学管理。
3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner 首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
一、商务智能概念事物运动 数据 信息记录解释商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。
①先进信息技术:商务智能是多项技术的综合应用;②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;③企业战略:商务智能服务于企业战略;④管理层、业务层:商务智能用户多样性;⑤更好的绩效:商务智能提升企业绩效。
二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:①增加收入,减少费用和更有效地竞争的需求。
②管理和模拟当前商业环境复杂性的需求。
③减少IT费用和利用已有公司业务信息的需求。
2、商务智能的价值①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。
商务智能复习资料第一章商务智能概述1、4C(1)信息技术是指获取、传递、处理和存储、以及利用信息的技术。
(2)4C内容:感测技术(是信息的采集技术,对应于人的感觉器官);通讯技术(是信息的传递技术,对应于人的神经系统);计算机技术(是信息的处理和存储技术,对应于人的思维器官);控制技术(是信息的使用技术,对应于人的执行器官)。
(3)信息技术工具:信息处理技术和通信技术是最重要的两种。
2、定义商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累积商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升个方面商务绩效,增强综合竞争力的智慧和能力。
3、商务智能的基本功能:个性化的信息分析;预测;辅助决策。
5、商务智能的作用:理解业务;衡量绩效;改善关系;创造获利机会。
6、商务智能的体系结构:是指通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供商务智能系统的主框架。
7、BI与交易系统的关系:系统设计的区别数据类型的区别8、数据、信息、知识、智能之间的关系(1)数据:孤立的客观事实、文字、符号,适合保存、传递和处理。
TO知识:是知识的表现形式,是知识的来源。
TO信息:数据的价值通过其携带的信息表现。
(2)信息:人们对数据进行系统的采集、组织、整理、分析的结果,目的是使数据结构化、有序化。
TO数据:信息是数据的含义,是对数据的解释。
TO知识:信息是知识的表现形式。
(3)知识:是人们对自认识而总结出来的规律、经验。
第二章数据仓库导论1、什么是数据仓库数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。
2、数据仓库的特点:面向主题;集成;稳定;随时间而变化;数据量大;软硬件要求高。
3、数据仓库与传统数据库的区别4、OLTP与OLAP的区别5、数据仓库的用户包括(1)信息使用者的数据仓库应用:以一种可以预测的、重复的方式使用。
《商务智能》教学大纲一、课程设计的背景与目的大数据时代,数据分析无处不在,商场竞争离不开数据决策。
商务智能技术与方法是大数据分析的核心,也是商务决策分析的基础。
本课程是数据科学与大数据技术系列课程之一,强调理论和工程技术应用相结合,学生通过学习该课程后,可以学会商务智能、数据仓库、联机分析处理、数据挖掘、数据可视化等专业术语,掌握数据仓库、联机分析处理、数据挖掘等专业应用技术。
通过本课程学习,学生可以通过专业应用软件对数据进行深层次加工获得有实际应用的有价值信息,增强学生对信息管理的深层次认识。
二、教学目标与课程收获商务智能的实质是从数据中有效地提取信息,为管理者的决策和企业战略开发提供信息支持。
商务智能系统是指运用数据仓库、联机分析和数据挖掘技术来处理和分析商业数据,针对不同的领域提供不同的应用解决方案,协助用户解决商务活动中的复杂问题,从而帮助决策者面对商务环境的快速变化而做出敏捷反应和合理商业决策的管理系统。
三、培训对象具备一定数据库技术和管理知识的学生或企业白领,尤其是产品、市场、财务、研发、供应等部门的决策分析人员。
四、培训学时18小时五、教学内容与要求第一单元:商务智能概述(1小时)【教学内容】商务智能的产生背景,商务智能的基本概念,商务智能的应用范围,商务智能的应用价值,商务智能的体系结构,商务智能的主要功能,商务智能的核心技术,商务智能模型建立,商务智能的应用。
【教学重点及难点】商务智能的基本概念、商务智能技术的发展、商务智能技术、商务智能的体系结构。
【基本要求】了解商务智能项目的应用,商务智能技术的发展,商务智能的应用范围和应用价值等,理解商务智能的核心技术,实现商务智能的工具、技术路线的选择,掌握商务智能的相关基本概念,商务智能的主要功能、商务智能模型建立,商务智能架构,商务智能的项目实施过程。
第二单元:数据仓库(2小时)【教学内容】数据仓库概念与特征,数据仓库开发模型,数据仓库规划与分析,ETL概述,元数据,商业数据维度化分析,工具简介。
商务智能在当今信息化日益深入的时代,商务智能成为了企业提升竞争力、提高决策效率的重要工具。
商务智能是指利用数据分析、数据挖掘技术来帮助企业进行决策和规划的过程,是一个基于数据驱动的智能化系统。
通过商务智能系统,企业可以更好地理解市场趋势、了解客户需求,从而更加灵活地调整策略、优化资源配置。
商务智能的应用场景商务智能系统可以应用于各个行业,其应用场景包括但不限于以下几个领域:销售预测与分析商务智能可以通过对历史销售数据的分析,预测未来销售趋势,帮助企业进行库存管理、生产计划等方面的决策。
同时,通过对销售数据的挖掘,可以帮助企业发现销售增长的潜在机会,制定针对性的市场推广策略。
客户关系管理商务智能系统可以帮助企业更好地管理客户关系,通过对客户数据进行分析,了解客户的偏好和需求,从而提供个性化的服务和产品,增强客户忠诚度。
财务分析商务智能系统可以帮助企业进行财务数据的监控和分析,帮助企业发现潜在的财务风险,优化财务战略,提高财务效率。
商务智能的优势相比传统的数据分析方法,商务智能具有以下几个明显的优势:•实时数据分析能力:商务智能系统可以实时监控数据,并迅速生成报告和可视化的数据分析结果,帮助企业更加及时地做出决策;•数据整合能力:商务智能系统可以整合企业内部外部的各种数据源,包括销售数据、客户数据、市场数据等,帮助企业全面了解业务情况;•预测性分析能力:商务智能系统可以通过数据建模、机器学习等方法,预测未来的发展趋势,提供战略性的建议。
商务智能的未来发展随着大数据、云计算、人工智能等技术的发展,商务智能系统的功能将不断得到加强和拓展。
未来,商务智能系统将具备更强的智能化,能够实现更复杂的数据分析和决策支持功能。
同时,商务智能系统也将向更加行业化、个性化的方向发展,满足不同行业、不同企业的需求。
因此,对于企业而言,建立健全的商务智能系统,不仅可以提高决策效率,还可以帮助企业抢占市场先机,迎接未来挑战。
题型:选择10*1分,单选10*1分,填空8*1分,计算4*9分,问答4*9分。
一、商务智能概述1.数据数据是可以记录、通信和能识别的符号,它通过有意义的组合来表达现实世界中的某种实体(具体对象、事件、状态或活动)的特征。
商务智能技术可以分析结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流等各种类型的数据。
2.3.BI定义定义一:Business Intelligence is a process of turning data into knowledge and knowledge into action for business gain. (Data Warehouse Institute)标准定义:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
4.商务智能的结构(1)商务智能的结构主要由两部分组成:数据仓库环境分析环境(2)商务智能主要由三种技术构成:数据仓库(Data Warehouse)联机分析处理(On-line Analysis,OLAP)数据挖掘(Data Mining)在三大技术支柱中,数据仓库是商务智能的基础。
联机分析处理(OLAP)是以海量数据为基础的复杂分析技术。
数据挖掘(Data Mining)是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。
二、决策支持系统1.结构化:数据结构字段含义确定、清晰。
典型的如数据库中的表结构半结构化:具有一定结构,但语义不够确定典型的如HTML网页,有些字段是确定的(title),有些不确定(table) 非结构化:杂乱无章的数据,很难按照一个概念去进行抽取,无规律性2.DSS的产生背景电子数据处理——EDP(Electronic Data Processing)管理信息系统——MIS(Management Information Systems)决策支持系统——DSS(Decision Support Systems)(70年代中期提出)3.DSS的定义决策支持系统(DSS)是以管理科学,运筹学,控制论和行为科学为基础,以计算机技术,仿真技术和信息技术为手段,针对半结构化和非结构化的决策问题,支持决策活动的具有智能作用的人机系统.3.DSS 的构造DSS的构造研究主要解决DSS的组成问题,即组成DSS的部件。
现在,经典提法是:DSS = 四库系统+ 对话系统(人机界面)四库系统:数据库系统、模型库系统、方法库系统、知识库系统。
4.模型库(Model Base)提供模型的存储和表示模式。
模型库管理系统提供模型的提取、访问、更新和合成等操作。
三、数据仓库1.数据仓库(Data Warehouse, DW)的概念是92年提出来的。
2.数据处理被分为两大类:操作型处理(OLTP)和分析型处理(OLAP)(1)区别:操作型处理以传统的数据库为中心进行企业的日常业务处理。
➢如电信部门部门的计费数据库用于记录客户的通信消费情况;➢银行的数据库用于记录客户的帐号、密码、存入和支出等一系列业务行为。
分析型处理以数据仓库为中心分析数据背后的关联和规律,为企业决策提供可靠有效的依据。
➢如对超市近期数据进行分析可以发现近期畅销的产品,从而为公司采购部门提供指导信息。
(2)操作型处理&分析型处理的比较1)使用的人员和处理的数据操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营。
分析型系统的使用人员通常是企业的中高层管理者,或者是从事数据分析的工程师,分析型系统包含的信息往往是企业的宏观信息而非具体细节,其目的是为企业的决策者提供支持信息。
2)环境操作型处理和分析型处理的分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。
3.商业智能系统由3个层次的内容组成:数据仓库、联机分析处理(OLAP)和数据挖掘。
商业智能系统的数据处理循环:4.数据仓库的体系结构由于数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据库系统,但是数据仓库又同业务数据库系统息息相关。
也就是说,数据仓库不是简单地对数据进行存储,而是对数据进行“再组织”。
5.数据清洗——数据不一致和不同步1)数据不一致企业常常为不同的应用对象建立不同的业务数据库,这些业务系统中可能包含重复的信息;不同的数据库可能使用不同数据库公司的产品;不同的业务系统可能由不同的软件开发商提供。
这使得各个业务数据库中的数据存在不一致的现象。
数据库使用人员的操作失误也会造成数据的不一致。
2)数据不同步由于冗余的数据存放在不同的数据库中,如果不同数据库间的数据更新不是实时的,则可能出现数据不同步的情况。
6.数据转化由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转化成统一的数据格式。
7.元数据(数据的数据)数据仓库的元数据主要包括两类:(1)第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;(2)第二种元数据在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为BI元数据,它包括:1)数据仓库中信息的种类、存储位置、存储格式;2)信息之间的关系、信息和业务的关系,数据使用的业务规则;(如:何时数据仓库中的所有数据才能用于生成报表)3)数据模型;4)数据模型和数据仓库的关系。
8.数据集市数据仓库面向整个企业,而数据集市则是面向企业中的某个部门。
面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。
当部门人员使用数据时,不需要到数据仓库的巨量数据中检索,而只需在这些数据上进行分析,因此从效率和处理速度的角度出发,这种划分是合理的。
独立和依赖的数据集市。
9.数据仓库的功能和特征传统的数据库系统由于主要用于企业的日常事务处理工作,存放在数据库中的数据基本符合操作型数据的特点。
而为了适应数据分析处理的要求而产生的数据仓库中存放的数据,基本符合分析型数据的特点。
10.区别:11.数据转化数据转化通常可能包含如下问题:(1)数据格式(2)测量单位(3)数据代码含义混乱(4)数据名称混乱12.BI需要的不是静态的集成,而是动态的集成。
13.数据库系统中数据是不稳定的,数据仓库中的数据相对稳定。
数据仓库的数据只增不删,这使得数据仓库的数据总是拥有时间维度。
14.硬件的利用模式在数据库环境下,硬件资源的利用率总保持在一个相对稳定的状态,这是由于不断地有事务需要处理。
而在数据仓库环境下,硬件资源的利用率常常在高利用率和低利用率之间切换。
●当系统进行数据分析应用时,硬件资源的利用率将很高;●而系统空闲时,系统的硬件利用率很低。
15.数据仓库的数据组织结构在数据仓库中,数据被分成4种级别,分别是:高度综合级轻度综合级当前细节级早期细节级16.OLAP中的数据颗粒度粒度就是对数据仓库中数据综合程度的一个度量。
数据粒度与数据量数据的综合程度不同,其数据量将相差很大。
●数据粒度越小,信息越细节,数据量越大。
●数据粒度越大,忽略了众多的细节,数据量越小。
17.数据的分割所谓数据分割是指将数据分散到各自的物理单元中以便能够独立处理,提高数据处理的效率。
数据分割后的数据单元称为分片。
数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。
分割方法常常可以选择时间、地点、业务领域来划分。
18.数据仓库的数据追加技术(1)时标法(2)前后映像比较法(3)DELTA文件法(4)日志文件法19.清理数据仓库的数据数据仓库的清理与普通系统中数据清理的含义有区别。
在普通的系统中,数据清理意味着将数据删除。
而数据仓库系统中清理并不是简单地删除,而是从细化级别的数据逐渐上升为高级综合度的数据,直到数据已经不再具备任何意义时被清除的过程。
数据仓库中清理的过程如下:(1)数据从操作型环境进入分析型环境;(2)数据从细节数据逐渐转换为综合数据;(3)数据从高速磁盘中转移到低速存储介质上;(4)数据失去实际意义,最终被清除。
这个过程实际上也是数据在数据仓库中的生命周期。
20.操作数据存储(ODS)ODS是用于支持企业日常的全局应用的数据集合。
ODS解决的是“日常”性问题,因而具有引入数据是可变的、数据是当前或者近期的特点,这个特点类似于传统的数据库。
ODS是面向全局应用的(数据涉及多个部门),这使得ODS中的数据需要面向主题来组织,并且应当是实时集成的。
所谓面向主题的,是指数据仓库围绕一些主题,并且更关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理21.记录系统和参考表建立ODS实际上是建立了一个全局数据库,它通过在ODS中的记录系统定义和参考表来建立一系列DB和ODS记录间的双向联系,以实现数据在企业级上的同步。
➢ODS的记录系统就是说明如何从DB中向ODS进行数据抽取。
有了ODS记录系统后,DB中对应的数据项发生的变化,都将反映到相应的ODS 记录中。
➢参考表建立的是从ODS数据项到DB数据项的反向映射。
当ODS中的记录发生变化时,将通过参考表去修改与之相关的DB中所有数据项。
✓其过程如图所示。
数据库A、B、C都存在相同含义的数据。
✓数据库A中的数据项发生变化后,通过ODS记录系统定义,反映到ODS 中对应的数据项;✓再通过参考表去更新数据库B和C。
通过记录系统定义和参考表,使得原先分散的数据库系统被紧密的结合起来,一点动,全局变。
21.在DB—ODS—DW三层结构中数据是如何流动的在三层结构中,数据的传输控制是通过两级记录系统的定义来实现的。
ODS系统和DW系统都有各自的记录系统和记录系统的定义。
ODS的记录系统是定义在原有的数据库系统中,DW的记录系统是定义在ODS 一致性数据环境中。
●ODS记录系统的定义作为ODS元数据的一部分保存放在ODS区中,它指明需要如何从数据库系统中提取数据。
●DW记录系统的定义作为DW元数据的一部分存放在DW中,它指明需要如何从ODS环境中提取数据,如图2-45所示。
五、联机分析处理——OLAP1. OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(Relational OLAP,简称ROLAP)、多维OLAP(Multidimensional OLAP,简称MOLAP)和混合型OLAP (Hybrid OLAP,简称HOLAP)三种类型。