[整理]BI和数据仓库的关系
- 格式:doc
- 大小:103.50 KB
- 文档页数:9
基本BI知识一、什么是BI?BI(Business Intelligence)即商业智能,是指通过对企业内部和外部数据的分析,帮助企业管理者做出更明智的决策,提高企业运营效率和市场竞争力的一种管理和分析方法。
BI通过收集、整理、分析数据,将数据转化为有价值的信息和洞察,并提供可视化的报表和仪表盘,帮助企业管理层全面了解企业状况,识别业务机会和风险,以及进行业务规划和预测。
二、BI的核心要素1. 数据源数据源是BI系统的基础,它可以包括内部数据库、企业应用系统、云端存储、第三方数据供应商等。
通过合理选择和整合数据源,可以确保BI系统获得准确、全面的数据,并提高数据的可靠性和一致性。
2. 数据仓库数据仓库是BI系统中存储和管理数据的中心库,它采用多维数据模型,将不同数据源的数据整合到一个统一的数据模型中,方便用户对数据进行分析和查询。
数据仓库通常采用ETL(Extract, Transform, Load)的流程,对数据进行抽取、转换和加载,确保数据的质量和一致性。
3. 数据分析工具数据分析工具是BI系统中用于对数据进行处理、分析和可视化的软件工具,包括数据挖掘工具、报表工具、可视化工具等。
这些工具可以帮助用户从不同角度和层次理解数据,发现数据中的隐藏信息和关联规律,支持决策者进行数据驱动的决策。
4. 数据可视化数据可视化是BI系统的重要功能,它通过图表、仪表盘等可视化手段展示数据分析结果,提高用户对数据的理解和洞察能力。
数据可视化可以帮助用户直观地呈现数据,发现数据中的趋势和异常,以及进行数据的比较和分析。
三、BI的应用场景1. 销售分析BI系统可以帮助企业对销售数据进行分析,包括销售额、销售渠道、客户分布等方面的数据。
通过对销售数据的分析,企业可以了解销售情况,找出销售瓶颈和机会,制定销售策略和预测销售趋势。
2. 运营分析BI系统可以对企业的运营数据进行分析,包括生产效率、成本控制、供应链管理等方面的数据。
本文来自CSDN博客,转载请标明出处:/zxs9999/archive/2008/09/29/2995086.aspx"BI"是什么?大家来说说,如何通俗地表述"BI"是什么?昨天试图给一位非业内人士描述BI是什么,从报表讲到决策支持,完了看着对方,四目相对。
发现自己说了一堆废话,这难道不是很尴尬的事情吗?因此,如何将BI、商务智能、数据仓库、挖掘这些听起来曲高和寡的名词,表述地让人更容易明白?还请大家伙出出主意。
确实是啊,碰到不明白的怎么说都不清楚呀如果是我遇到了,就不要再提什么BI阿,report阿直接举个例子,如何快速的在一个堆满货物的仓库里找到自己想要的东西,而bi就是手电筒,呵呵这种说法可以吗:企业里有大量的、分布于各个计算机系统的数据,把这些数据进行整理、分析,找到其中有价值的信息,为企业的经营决策提供依据。
是指BI的定义吗:“以实现价值成果为目标,对资源及其组织过程的智能化管理方法”BI或者DW在业内现在尚无一个统一的精确的说法,就BI和DW本身也往往存在争论。
我的理解,BI更多时候指的是前端应用部分,而DW更多时候指的是后端部分(包括架构体系的建立)。
目前也没有一个术语能够在完整的,准确的表达出从后端数据采集直至前端应用这么一个端到端的过程。
Inmon提出的CIF(企业信息工厂)倒是能够涵盖整个过程,然而这个概念似乎太大了一点(整个外部世界都涉及在内,从而形成了一个“信息”生态系统)。
当然我们往往会将BI或者DW的范围进行扩大,而在与客户或者非业内人士沟通时候,我觉得可以根据用户本身的类别(压根儿没听过BI/有一些了解/熟悉/专家级别)将BI这个概念进行诠释。
譬如:对于一无所知的受众,那么我觉得举例子可能会更形象一些(下定义似乎不太现实),我经常就会根据用户对相应行业的熟悉程度进行举例,例如,大部分人对零售都有一定了解,那么这个时候不妨举购物篮子分析说明BI的部分作用,进而说明BI可以从数据中发现知识(KDD)等等。
bi基础知识【原创实用版】目录1.BI 的含义2.BI 的发展历程3.BI 的应用领域4.BI 的关键技术5.我国在 BI 领域的发展正文1.BI 的含义BI,即商业智能(Business Intelligence),是一种通过运用数据分析、数据挖掘等技术,使企业能够更加准确地了解其业务状况,从而辅助决策和提升业务效率的管理方法。
BI 可以帮助企业实现对业务的实时监控、数据驱动的决策以及智能化的运营。
2.BI 的发展历程商业智能的发展可以分为以下几个阶段:(1)早期数据分析:20 世纪 60 年代,企业开始使用计算机进行数据分析,主要用于财务管理和库存管理。
(2)数据仓库和 OLAP:20 世纪 90 年代,数据仓库和联机分析处理(OLAP)技术的出现,使得企业可以大规模地存储和分析数据,从而为决策者提供更加全面和准确的信息。
(3)数据挖掘和大数据:随着互联网的普及和数据量的快速增长,数据挖掘和大数据技术逐渐成为 BI 领域的热点。
这些技术可以帮助企业从海量数据中发现有价值的信息,为决策提供支持。
3.BI 的应用领域商业智能的应用领域非常广泛,主要包括:(1)销售与营销:通过分析销售数据、客户行为等,为企业制定更加有效的销售策略和营销活动。
(2)生产与供应链:通过对生产、库存、物流等环节的数据分析,优化生产流程,降低成本,提高供应链效率。
(3)财务管理:通过对财务数据的实时监控和分析,帮助企业实现财务风险的防范和控制,提高资金使用效率。
(4)人力资源管理:通过对员工的招聘、培训、绩效等方面的数据分析,优化人力资源配置,提高员工的工作效率和满意度。
4.BI 的关键技术商业智能领域的关键技术主要包括:(1)数据仓库:用于存储和管理企业级数据,为 BI 系统提供数据支持。
(2)数据挖掘:通过挖掘大量数据,发现潜在的规律、趋势和关联关系,为决策者提供有价值的信息。
(3)数据可视化:将复杂的数据以直观、易懂的方式呈现出来,帮助决策者快速理解数据信息。
BI与大数据区别引言概述:在当今信息时代,数据的重要性越来越被人们所重视。
而在数据处理和分析领域,BI(商业智能)和大数据成为了热门话题。
然而,很多人对于BI和大数据的概念和区别并不清楚。
本文将详细介绍BI和大数据的区别,帮助读者更好地理解这两个概念。
一、BI的概念和特点1.1 BI的定义BI(Business Intelligence)是指通过对企业内部和外部数据的收集、整理、分析和展示,为企业管理层提供决策支持的一种技术和方法。
1.2 BI的特点- 面向决策:BI的目标是为企业管理层提供决策支持,帮助他们做出更明智的决策。
- 数据驱动:BI依托于数据,通过对数据的分析和挖掘,提供有价值的信息和洞察。
- 实时性:BI系统能够实时地获取和处理数据,使得决策者能够及时获得最新的信息。
- 可视化:BI系统通过图表、报表等形式将数据可视化展示,使得决策者更容易理解和分析数据。
二、大数据的概念和特点2.1 大数据的定义大数据(Big Data)指的是规模庞大、类型多样、增长速度快的数据集合,无法使用传统的数据处理工具进行处理和分析。
2.2 大数据的特点- 4V特征:大数据具有Volume(数据量大)、Velocity(数据处理速度快)、Variety(数据类型多样)和Value(数据价值高)四个特征。
- 非结构化数据:大数据包含了各种来源和形式的非结构化数据,如文本、音频、视频等。
- 数据挖掘和机器学习:大数据通过数据挖掘和机器学习等技术,从海量数据中发现有价值的信息和模式。
- 数据存储和处理技术:大数据需要使用分布式存储和处理技术,如Hadoop、Spark等,来应对数据规模和处理速度的挑战。
三、BI与大数据的关系3.1 BI与大数据的目标不同BI的目标是为企业管理层提供决策支持,而大数据的目标是从海量数据中挖掘有价值的信息和模式。
3.2 数据处理方式不同BI主要依赖于结构化数据,通过对数据的整理和分析,提供决策支持;而大数据处理的是包含非结构化数据在内的海量数据,通过数据挖掘和机器学习等技术,发现数据中的规律和洞察。
BI数据模型介绍BI(Business Intelligence,商业智能)是指通过对企业进行数据的收集、整理、分析和展现,帮助企业进行决策和管理的技术系统。
BI数据模型是指BI系统中用于存储和处理数据的结构和方法。
下面是BI数据模型的介绍。
一、BI数据模型的概念BI数据模型是指用于BI系统中存储和处理数据的抽象和表示形式。
它是BI系统中构建数据仓库和数据集市的基础,包括数据的组织结构、关系和操作方式等。
BI数据模型以数据为中心,围绕业务需求和分析目标构建,将多种数据源进行整合,并提供高效的数据查询和分析功能。
二、BI数据模型的特点1.数据驱动:BI数据模型是以数据为核心的,它将企业的各种数据源进行整合,提供一致、可靠的数据信息,为分析和决策提供支持。
2.业务导向:BI数据模型是根据具体的业务需求和分析目标构建的,它关注企业的业务过程和关键业务指标,具有可扩展性和灵活性。
3.统一性:BI数据模型将来自不同数据源的数据进行整合,消除了数据的冗余和不一致性,提供一致和准确的数据视图。
4.可操作性:BI数据模型提供丰富的数据操作功能,包括数据的查询、分析、计算、转换和展示等,用户可以根据自己的需求进行灵活的操作。
5.时效性:BI数据模型可以实时或定期更新数据,保证数据的及时性和准确性,支持实时监控和预测分析。
三、BI数据模型的组成1.数据实体:BI数据模型中的数据实体是指业务实体或对象,在数据模型中以表或类的形式表示,包括维度表和事实表。
- 维度表(Dimension Table):维度表包含与业务过程和指标相关的维度属性,用于描述业务数据的各个方面,如产品、时间、地点、销售员等。
- 事实表(Fact Table):事实表包含与业务过程和指标相关的度量值,用于存储数值型数据,如销售额、利润、数量等。
2.关联关系:BI数据模型中的关联关系是指维度表和事实表之间的连接方式,用于将维度和度量进行关联和查询。
从数据仓库到商业智能(最近接触的新知识)商业智能(Busineslnteligence)简称BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。
伴随数据库技术的提高和数据处理技术的发展以及各行业业务自动化的实现,商业领域产生了大量的业务数据,要从这海量数据中提取出真正有价值的信息,将数据转化为知识,以支持商业决策,需要用到能提取、存储有用信息,支持决策的数据仓库(DW)、联机分析处理(OLAP)工具和数据挖掘(DM)等技术。
因此,从技术层面上讲,商业智能不是什么新技术,它是DW、OLAP 和DM等技术的综合运用。
商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换和装载,即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理.这时信息变为辅助决策的知识,最后将知识呈现给管理者,为管理者的决策过程提供支持(图1)。
目前,商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、OLAP产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。
1商业智能与企业信息化系统的关系商业智能作为一种企业信息集成解决方案,为企业不同的应用系统,如企业资源规划(BRP)、客户关系管理(CRM)、供应链管理(SCM)以及外部环境扫描等系统之间架起了互通的桥梁。
同时,这些信息化系统也为商业智能提供了数据源,离开了它们,商业智能就会成为无源之水,无本之木。
但商业智能的价值又在这些系统之上,因为它可以发现数据背后隐藏的商机或威胁,获得洞察力,了解企业和市场的现状,把握趋势,识别异常情况,理解企业业务的推动力量.认清正在对企业的业务产生影响的行为及影响程度如何等。
2商业智能的实施用户不仅要选择合适的商业智能软件工具,还必须按照正确的实施方法才能保证商业智能项目得以成功,项目的实施步骤可分为:2.1需求分析在其他活动开展之前必须明确的定义企业对商业智能的期望和需求,包括需要分析的主题,各主题可能查看的维度,即需要发现企业哪些方面的规律。
1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。
BOSS业务运营支撑系BPM企业绩效管理BPR业务流程重整CRM客户关系管理CUBE立方体DM(Datamart)数据集市数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
DM(DataMine)数据挖掘DSS决策支持系统EDM企业数据模型3ERPEnterprise Resourse Planning企业资源规划。
它是一个以管理会计为核心的信息系统,识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。
换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。
4ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。
构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
KDD数据库中知识发现5 KPI企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。
LDM逻辑数据模型6 MDD多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。
因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。
多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。
BI中事实表,维度表和数据集市,数据仓库的理解维度表(dimension)存放着⼀些维度属性,例如时间维度:年⽉⽇时;地域维度:省份,城市;年龄维度:⽼年,中年,青年;职称维度:⾼,中,低。
它定义了可以从哪些⾓度分析事实表。
事实表(fact)存放着⼀些业务产⽣的数据,例如:商品订购产⽣的订单信息,银⾏的流⽔信息,erp系统的办公信息。
但它不仅存放着上述事实信息,⽽且存放在事实信息与维度信息关联的键值,例如订单信息⾥⾯有⽇期字段可以和时间维度关联,可以通过银⾏中的个税流⽔与收⼊维度关联量化各个收⼊群体,erp流⽔中的员⼯号可以同职称维度表关联统计公司运⾏状态。
其实,在设计事实表与维度表的关联关系时,要引⼊两个模型结构:星型表(star)和雪花表(snow)。
顾名思义,星型表模型是事实表与每个维度表分别关联,事实表位于中央,维度表围绕事实表周围。
这种模型结构市⼀中反范式的设计⽅式。
优点是设计简单,减少了关联事实表和维度表的关联层级,查询效率会⾼⼀些,缺点是数据的冗余。
例如:事实表student(学号,年龄,姓名,国家,省份,地市,专业。
),维度表:country(国家编码,国家名称),province(省份编码,省份名称),city(国家编码,省份编码,城市编码,城市名称);则在存储来⾄同⼀省份不同地市的学⽣时,国家和省份就重复存放了。
雪花表模型则是⼀种规范的范式结构,它的数据组织⽅式是消除冗余的,能有效减少数据量;优点是减少了冗余并且在关联查询中不容易出现数据重复计算的情况,因为它引⼊了数据完整性,缺点是维护复杂,增加了关联层级,执⾏效率较低。
例如:事实表student(学号,年龄,姓名,地域,专业。
),维度表:area(地域编码,国家编码,省份编码,城市编码)country(国家编码,国家名称),province(省份编码,省份名称),city(国家编码,省份编码,城市编码,城市名称)。
接着,有上述星型表和雪花表组成的数据集合就是⼀个数据集市(datamart),其⾯向于部门级应⽤,存放少量的历史数据,数据来源于数据仓库。
BI与大数据区别一、概述BI(Business Intelligence)和大数据都是当前企业信息化发展的热门话题,它们在数据处理和分析方面起着重要的作用。
尽管BI和大数据都与数据相关,但它们有着不同的定义、目标和应用领域。
二、定义和目标1. BI:BI是一种通过收集、整理和分析企业内外部数据,提供决策支持和业务洞察的技术和工具。
BI的目标是将数据转化为有用的信息,帮助企业管理层做出明智的决策,提高业务绩效和竞争力。
2. 大数据:大数据是指规模庞大、复杂多样、高速增长的数据集合。
大数据的目标是通过对大量数据的收集、存储、处理和分析,发现隐藏在数据中的模式、趋势和关联,从而为企业提供更深入的洞察,支持决策制定和业务创新。
三、数据规模和来源1. BI:BI通常处理的是相对较小规模的数据,主要来自企业内部的各种业务系统和数据库。
这些数据经过清洗、整理和集成,以支持企业的日常运营和决策需求。
2. 大数据:大数据处理的是海量的、多样化的数据,包括结构化数据(如数据库记录)和非结构化数据(如社交媒体内容、图像和视频等)。
大数据的来源广泛,包括企业内部和外部的各种数据源,如传感器、物联网设备、社交媒体、日志文件等。
四、数据处理和分析方法1. BI:BI主要采用传统的数据仓库和OLAP(联机分析处理)技术,通过抽取、转换和加载(ETL)数据,构建多维数据模型,支持多维分析和报表生成。
BI的重点在于对历史数据的分析和报告,以发现业务趋势和问题。
2. 大数据:大数据处理采用分布式计算和存储技术,如Hadoop和Spark等。
大数据的处理方式更加灵活和实时,可以进行流式处理、批量处理和实时查询等。
大数据的分析方法包括数据挖掘、机器学习、自然语言处理等,旨在发现数据中的模式、关联和异常。
五、应用领域和价值1. BI:BI主要应用于企业内部的决策支持和业务管理,如销售分析、客户关系管理、供应链优化等。
BI可以帮助企业发现潜在的商机、优化资源配置、提高效率和利润。
BI与大数据区别BI(Business Intelligence)和大数据是当前信息技术领域的两个热门话题,它们都与数据分析和决策支持密切相关。
然而,BI和大数据在概念、应用范围、数据处理方式等方面存在着一些明显的区别。
本文将详细介绍BI和大数据的区别,以便更好地理解它们的特点和应用。
一、概念定义BI是一种基于数据仓库和分析工具的商业智能解决方案,旨在匡助企业从海量的数据中提取有价值的信息,支持决策制定和业务优化。
BI通过数据的采集、整合、分析和展示,匡助企业管理者更好地理解企业的运营情况,发现问题和机会,并做出相应的决策。
大数据是指规模巨大、类型多样、处理复杂的数据集合,通常包含结构化数据和非结构化数据。
大数据的特点是数据量大、数据流速快、数据种类繁多,需要利用先进的技术和工具进行存储、管理、分析和应用。
大数据的应用范围广泛,包括商业、科学研究、医疗、金融等领域。
二、数据处理方式BI主要通过数据仓库和OLAP(联机分析处理)技术来处理数据。
数据仓库是一个面向主题的、集成的、历史数据导向的数据集合,它存储了企业的核心业务数据。
OLAP技术则是一种多维分析技术,通过对数据进行切片、切块、钻取等操作,匡助用户从不同的维度和角度分析数据。
大数据的处理方式则更加复杂和多样化。
大数据处理涉及到数据的获取、存储、清洗、处理、分析和应用等多个环节。
在数据获取方面,大数据可以通过传感器、社交媒体、互联网等渠道采集。
在数据存储方面,大数据可以通过分布式文件系统(如Hadoop)、列式数据库等技术进行存储。
在数据处理和分析方面,大数据可以通过MapReduce、Spark等计算框架进行处理和分析。
三、应用范围BI主要应用于企业的决策支持和业务优化。
通过BI系统,企业管理者可以实时监控企业的运营情况,发现问题和机会,并做出相应的决策。
BI系统可以提供各种报表、仪表盘、数据可视化等功能,匡助用户更好地理解数据,并进行数据驱动的决策。
一,数据仓库,BI涉及到的相关概念1.DW:即数据仓库(Data Warehouse),是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型(可以做钻取用,经常用到)和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
2.DSS:决策支持系统(decision support system ,简称dss)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
它是管理信息系统(mis)向更高一级发展而产生的先进信息管理系统。
它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。
3.数据字典(Data dictionary):是一种用户可以访问的记录数据库和应用程序源数据的目录。
数据字典是数据库的重要组成部分。
它存放着数据库所有的相关信息,对用户来说可能只是一组只读的表。
但是对于我们来说,数据字典越完善,越详细就越有助于我们流程开发的进行,深入的业务挖掘。
数据字典内容包括:(1)数据库中所有模式对象的信息,如表,试图,索引及各表关联关系(2)分配多少空间,当前使用了多少空间等。
(3)列的缺省值(4)约束信息的完整性(5)用户的名字,用户及角色被授予的权限。
用户访问或使用的审计信息(6)其他产生的数据库信息4.元数据:元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。
同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。
为数据仓库的发展和使用提供方便。
元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件(PE) 文件或存储在内存中的程序进行描述。
云计算中的商业智能与数据仓库随着云计算的发展,越来越多的企业开始将其业务迁移至云上,将数据存储在云端,并通过云服务来完成业务处理。
而这一变化也带来了商业智能和数据仓库的新变化。
1. 云计算中的商业智能商业智能(BI)是指通过分析、挖掘和展示数据,帮助企业决策者做出更好的决策。
在云计算中,因为云技术的弹性和扩展性,商业智能的实际应用和传统的数据分析方法有了较大的区别。
首先是云技术可以为企业提供更多的数据来源和数据形式。
通过云技术的大数据存储和处理,企业可以收集到更多的数据,包括脱离传统IT系统的数据,像是社交媒体中的声音;同时还能存储非结构化数据,比如视频和音频等多媒体资料。
这些数据都有助于提升商业智能应用的维度和深度。
其次,云计算中的商业智能具备更强的针对性和灵活性。
在传统的BI中,数据一般存储在企业内部的数据仓库中,而在云计算中,商业智能可以直接基于云上存储的数据来生成报表和图表,直接呈现给决策者,大大简化了数据对决策者的使用流程和成本。
此外,云技术还可以为商业智能提供弹性资源和灵活的分析方式,满足了企业数据分析在不同时期和业务场景下所需要的灵活性。
2. 云计算中的数据仓库数据仓库是指在一个单独的数据库中集成来自不同业务系统的数据,以支持企业的决策制定。
在云计算中,数据仓库依然是企业数据存储和管理的核心,但也有一些云计算的特性和特殊需求需要关注。
首先,云计算中的数据仓库更加注重数据的安全性。
相比于传统数据中心,云上数据中心面临着更多的安全威胁,因此企业需要对云上数据进行更加严格的控制和保护。
有的云服务商提供了强大的安全和合规性保证,以满足客户的数据安全和合规性要求。
其次,云上数据存储面临的成本更加透明和适应性更强。
云服务商提供的数据存储服务是按需分配资源的,因此在数据存储不同需求时,可以根据实际需求而不是进行任何固定的投资。
这样可以大大降低企业的运营成本,同时也符合云计算的特点。
最后,数据仓库的管理更加自动化和灵活。
BI的名词解释BI(Business Intelligence),即商业智能,是指通过系统地收集、整理、分析和展现企业内部和外部数据,以支持企业决策制定、战略规划和业务运营的一种管理理念和分析工具。
BI的核心目的是帮助企业在激烈的市场竞争中获取竞争优势,提高运营效率和决策质量。
BI的基本概念和应用范围BI的名词解释可能需要从多个方面来阐述,首先可以从BI的基本概念出发,简要介绍BI的含义和作用。
随着信息技术的不断发展,企业内部和外部数据的规模和复杂度呈指数级增长。
BI的提出与发展就是为了解决这一问题。
BI通过利用数据仓库和数据挖掘等技术手段,从大数据中提取有价值的信息并进行分析与展示,帮助企业管理者进行决策和规划,提高企业的竞争力。
其次,可以探讨BI的应用范围。
BI可应用于各行各业,包括传统制造业、金融服务业、零售业、物流业等,甚至还可以应用于政府、医疗、教育等非盈利领域。
BI的应用范围广泛,可以覆盖从企业级决策到个人工作中的各个层级,帮助用户实现各种目标。
BI的关键技术及其作用要深入理解BI,需要了解一些关键的技术和工具。
在BI领域中,有许多工具和技术可以实现数据的提取、转换、分析和可视化展示。
这些技术包括数据仓库、数据挖掘、数据可视化、报表和仪表盘等。
数据仓库是BI中的核心技术之一。
它是一个用于集成、存储、管理和分析企业数据的数据库系统。
数据仓库的建立可以帮助企业将散乱的数据整合在一个统一的平台上,方便数据分析和决策制定。
数据仓库可以从企业内部各个业务系统中收集数据,并将其按照规定的格式进行存储和处理。
数据挖掘是BI中的另一个关键技术。
它利用各种算法和模型,从大规模的数据集中挖掘隐藏的模式、规律和关联性。
数据挖掘技术可以帮助企业发现客户需求、市场趋势、消费者行为等信息,为企业提供决策支持。
数据可视化是BI中的重要环节之一。
通过数据可视化,使用者可以通过直观的图表、图形和仪表盘来分析和理解数据。
什么是BI(Business Intelligence)谈谈对BI的理解,从BI的定义、基本技术、专业名词、实例应用及扩展等方面进行重新描述,巩固对BI的理解。
一、BI的定义BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。
简单讲就是业务、数据、数据价值应用的过程。
用图解的方式可以理解为下图:图(1)这样不难看出,传统的交易系统完成的是Business到Data的过程,而BI要做的事情是在Data的基础上,让Data产生价值,这个产生价值的过程就是Business Intelligence analyse的过程。
如何实现Business Intelligence analyse的过程,从技术角度来说,是一个复杂的技术集合,它包含ETL、DW、OLAP、DM等多环节,基本过程可用下图描述。
图(2)上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal 展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。
说明:BI不能产生决策,而是利用BI过程处理后的数据来支持决策。
哪么BI所谓的智能到底是什么呢?(理清这个概念,有助于对BI的应用。
)BI最终展现给用户的信息就是报表或图视,但它不同于传统的静态报表或图视,它颠覆了传统报表或图视的提供与阅读的方式,产生的数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或图视,有力的保障了用户分析数据时操作的简单性、报表或图视直观性及思维的连惯性。
我想这是大家热衷于BI的根本原因。
二、BI的诞生随着IT技术的进步,传统的业务交易系统有了长足的发展,已经实现了业务信息化,每一笔业务数据都记录在数据库中,星转斗移,累积了以TB为计量单位的业务数据记录。
也许你会问:这么多数据,占用了很多存储设备,耗费存储成本,却又不经常访问,留着它有什么用处?可以给你肯定的回答,留着这些历史数据意义巨大,挖掘业务的规律、支持决策。
典型的案例有“尿片和啤酒”的故事,尿片和啤酒本来是两样不相干的东西,可是,有人就发现,星期五在超市里购物的,购买尿片的年轻父亲中有30%~40%的人同时购买啤酒。
原来,星期五年轻的父亲购买尿片时,还会为自己捎带买啤酒,因为,星期五是各家电视台转播橄榄球赛的时间,于是,超市老板们就把尿片和啤酒捆绑销售获得了巨大成功。
这个故事成了一个利用数据挖掘商业价值最大化的神话。
由此看来,非常不关联的两样东西,通过海量的信息数据处理,可以挖掘出它们之间潜在的关联,将这种关联商业化,就会得到意想不到的新业务或新的商业模式。
到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者呢?新的数据分析技术由此诞生了,完成了“数据”到“数据价值”转换的环节,同时给这项技术起了一个响亮而又神密的名字“BI”(Business Intelligence)三、基本技术BI(Business Intelligence) 是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。
这似乎是BI的官方定义,也是广大BI玩家一成不变的宗旨,哪么BI技术涉及了哪些方面呢?从图(2)中,我们不难看出其核心技术中ETL、DW及OLAP。
或者说是“数据处理技术”与“数据展现技术”更加容易理解。
为什么要在操作型数据库和 OLAP 之间加一层“数据仓库”呢?说一千道一万都计算机资源与效能惹的祸,操作型数据库以快速响应业务为主要目标,而OLAP的时候要占用大量的硬件资源,在OLAP的时候,业务操作很难快速响应,无法保证业务的顺利进行,从业务、数据、数据的价值的逻辑来看,没有业务就谈不上OLAP;零星分散的数据一般存在有多个应用,对应多个业务操作型数据库,访问效能极其低下。
综合上述资源与效能的问题,最高效的方法就是将数据先整合到数据仓库中,而由OLAP应用统一从数据仓库里取数,以解决快速响应业务与OLAP的矛盾。
但是,多了这么一层,不管ROLAP还是MOLAP都无法查看实时数据,这并不影响BI的应用,90%的BI应用都不要求实时性,允许数据有滞后,这是决策支持系统的应用特点,这个滞后区间就是数据抽取工具工作及OLAP的时间。
四、数据处理(1)ODS,(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
一般在带有ODS的系统体系结构中,ODS都设计都有如下特点:1)在业务系统和数据仓库之间的数据过渡离层。
如果业务数据来源比较复杂,一般采用构造ODS的方法来实现收集当前需要处理的数据。
如下述数据来源:a、业务数据库种类繁多。
业务交易系统使用了不同种的数据库,如DB2、Informix、Oracle、SQL server、文本等。
b、不同的应用系统、不同的地理位置。
c、订阅数据源。
d、批量还原非传统数据库数据。
... ...等等。
用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。
2)保存当前或接近当前的细节数据,以供查询或ETL检错使用。
3)数据存储周期性。
ODS中存储的数据都是临时的,每次ETL之前都要清空ODS 中存储的数据。
(2)ETL,(Extract Transform Load)操作型业务数据库(DB)到数据仓库(DW)的过程称之为ETL,它实现数据的抽取,转换及装载工作。
抽取:将数据从各种原始的业务系统中读取出来。
转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。
装载:将转换完的数据按计划增量或全部的导入到数据仓库中。
在技术上主要涉及增量、转换、调度和监控等几个方面的处理。
现在列举一个简单的实例,用来说明ETL。
如下表所示,是来自于四个地区的Item销售记录。
四个地区依次是图(3)不管使用什么方法或工具,使上述四表的数据结构变成下表所描述的结构,并填充数据,这个过程就是一个ETL的过程。
图(4)(3)DW, (Data Warehouse) 数据仓库的官方定义是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
数据仓库的特点:1)、面向主题。
2)、集成。
3)、非易失。
4)、时间轴。
数据库与数据仓库的区别如下所述:图(5)(4)OLAP,(On-Line Analytical Processing)即联机分析处理,是 BI的一种全新的数据封装方式,直接产物是报表或Cube,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
说到OLAP,不由的想起OLTP(联机事务处理系统),现在来比较一下OLTP与OLAP的区别,如下所述:图(6)太理论化的东西还是少说,来看看数据表中数据是如何在立方体中表示的。
单独察看一个Location的销售数据,使用惯用的2-D平面数据表,完全可以满足所有的需求,如下图所示:图(7)但,要是想从更多的Location的角度去分析数据,可以在2-D的平面数据的基础上增加一个维,来表示Location的变化,如下图所示:图(8)概念上讲,也可以以3-D的数据立方体的形式表示这些数据,如下图所示:图(9)假定再增加一个维,用来表示制造商的变化,哪应该如何表示数据了呢?我们按照上面的思路,可以表示成如下图所示的数据结构,并称之为4-D立方体。
图(10)以此类推,可以把N-D数据立方体表示为(N-1)-D数据立方体的序列。
这是OLAP 的基本原理,至于其中使用了何种具体的算法,来计算与管理每个“子方体”的,内容太多,不能再这里啰嗦了...说明:数据立方本是对多维数据存储的一种比喻,这种数据的实际物理存储不同于它的逻辑表示。
它不限于3-D,而是N维的。
五、数据展现数据查询是最简单的 BI 应用,输出报表是BI最直接的产物,根据数据连接,加工过程及用途,应用模式大致可以分为四种:格式报表;在线分析;数据可视化;数据挖掘。
1、格式报表:带格式的数据集合,如:交叉表等。
2、在线分析:多维数据集合,如:Cube等。
3、数据可视化:信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如柱图,仪表盘等。
4、数据挖掘:从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
分析方法:· 分类(Classification)· 估值(Estimation)· 预言(Prediction)· 相关性分组或关联规则(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可视化(Description and Visualization)数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。
所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。
六、常用的BI 厂商和产品ETL:Informatica, SQL Server Analysis ServerDW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBMData Mining:IBM,SAS,SPSS现在很多的数据库提供商都开始绑定BI的开发组件到自己的数据库产品中,他们都瞄准了这其中的肥肉,磨拳檫掌,各论长短。
七、BI在中国中国拥有5000年的文化史,灿烂的文件让日常报表也非常具有凝聚力,交错纵横,里外相嵌,格式诡异、规则古怪、数据集中而文名于世,让无数报表工具折腰。
BI概念是从欧美引进的,现有的工具也多是欧美国家提供,中国是世界上报表最复杂的国家,报表设计风格与这些国家有明显的差别,BI工具制作的报表倾向于仅用一张报表说明一个问题,而中国的报表倾向于将尽可能多的问题集中在一张报表中,这种思路直接导致了BI工具应用难度的提升。