建立模型应该考虑的几个问题

  • 格式:docx
  • 大小:718.56 KB
  • 文档页数:26

下载文档原格式

  / 28
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

建立模型应该考虑的几个问题

数据仓库建模质量直接影响数据仓库项目的质量,甚至成败。在进行建模之前,要对数据仓库的规模、组成及模型不同部分的功能定位有明确的定义。影响数据仓库建模的因素众多,且根据不同项目的具体情况而变化口下面的几个问题是较为通用和常见的,远远不是建立模型应该考虑的全部问题。

数据仓库的业务特点对建模的要求

1 数据仓库的数据组织是面向主题的,而不是面向报表的

数据仓库是面向业务分析的主要主题领域的,进行形成数据模型的定义。典型的主题领域主要包括:

· ·顾客购买行为

· ·产品销售情况

· ·企业生产事务

· ·原料采购

· ·合作伙伴关系

· ·会计科目余额

要对现有的报表需求进行细致的分类、分析和调整,不能为了实现单个报表而进行大量的建模工作。要根据分析的不同内容和主题对报表进行分类,明确报表中每一个数据的定义、统计口

径及不同数据之间的关系,建立在整个数据仓库内统一的数据指标的定义,将数据指标按分析主题及分析维度进行归集,从而形成面向主题的数据模型。

例如:我们的利润表报表,当业务部门发我们一个利润表的报表,作为需求时,我们应该进行细致的分析,最终我们确定我们面向的主题不是利润表,而是比利润表更大的一个层次的所有科目业务量的主题,这样我们在做别的报表,例如资产负债表,现金流量表等报表时,就不用重复建模的工作了,做到了软件工程中的可重用规则。

2. 数据仓库要实现对数据的集成与数据的同构性

3. 数据仓库数据的相对稳定与为实现应用而进行的实时读写操作

往数据仓库里实时写数据就是不可避免的,SAP BI 也提供支持这种处理的数据对象,如实时信息立方体、汇总级别等,并提供相应的管理机制保证数据的一致性。在建模的时候要好好考虑只读的对象与可写入的对象之间的关系。

4. 数据仓库反映历史变化与及时准确的数据处理能力

数据仓库的数据库设计原则的要求

1. 星形结构,实现简明的数据设计模式

2. 数据参照完整性,保证数据的一致性

3. 利用索引,提高查询的处理速度

4. 先去索引、后加索引,提高数据装载效率

5. 自动校验,保证数据的高质量SAP 商务智能项目实战过程和方法收集客户需求信息

1. 组织结构

2. 客户最需要分析的数据指标

3. 数据指标的数据来源

4. 对数据指标的多维分析对象

5. 数据指标的优先级

6. 权限要求

收集客户需求的方法

1. 面谈

2. 问卷调查

3. 报表样例分析法

分析客户需求,形成多维分析模型(逻辑建模)· 实体-关系模型

· KPI与分析维度

一般情况下主题和属性之间的关系是一对多的关系,通过诸多属性的描述,可以得到客户等对象的最详细的信息。但是有些情况下,也有存在多对多的情况,如一个产品有多个颜色等,这种情况下,我们设计时,要把他们作为独立的两个特征同时出现在维度表中,也是视实际的关系采用组合属性,时间相关的属性等方法。如例子中的一个人在不同的时期属于不同的地区,这就是多对多的关系,所以采用了时间相关的属性。

将逻辑模型变成物理模型

利用业务内容(bi content)加快建模进程。

直接从系统中现有的模型来建模和扩展。

多层逻辑模型与BI中的建模技巧

对于大型的数据仓库系统,简单的数据获取、存储及展现的架构是远远不能满足需求的。

大型数据仓库项目的建设,需要对将数据仓库中不同数据的功能与定位进行细分,根据其功能不同,分别采取各种建模方面和技术方面的性能优化措施。

企业数据仓库与数据集市

在企业级的数据创建建设方法上,存在着两种不同的建设思路。其实这两种建设思路并不是绝对对立的,利用SAP商务智能的配置功能,可以构建更为灵活的多层次的数据仓库结构。

1.两种建设数据仓库的不同思路

一种是有Inmon提出的企业级数据仓库模型。主张采用第三范式(3NF),先建立企业级数据仓库,再在其上开发具体的应用。其优点是采用了第三范式,数据存储冗余度低、数据组织结构型好;同时反映的业务主体能力强,具有较好的业务扩展性等。这种建设思路不足的地方时数据表是数据表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低。由于数据模式复杂,不容易理解,不利于维护。系统建设过程长,周期长,难度大,风险大,容易失败。

另一种思路是有Kimball提出的多维模型。他主张降低范式化,以分析主体为基本框架来组织数据。其优点是以多维模型开发分析主题,查询速度快,做报表也快,同时可以实现快速实施,迅速获得投资回报。再在各个分析主题的基础上循序渐进,逐步建成企业级数据仓库。这种主张融合了自下而上和自上而下两种设计方法的思想,但是需要对数据进行大量的预处理,建模过程相对来说就比较慢。由于数据是按业务主体组织的,当业务问题发生变化,维的比搬动复杂、耗时,而且信息不够全面、系统欠灵活、数据冗余多。

这两种思路的区别是建设企业数据仓库与数据集市先后次序的区别。这种区别说明了数据仓库不同部分的构成是需要进行功能划分的,建立具有不同的分层的数据仓库系统是大势所趋。

2.具有多层结构的数据仓库系统

从技术上来说,SAP BI支持建立具有多个层次的数据仓库系统。在软件方面,它提供了技术性能各异的多种数据对象,可以构建不同的逻辑层次;在硬件方面,支持应用服务器与数据库服

务器的动态扩展及根据性能需要进行不同的参数设置。SAP BI 支持建立多个逻辑数据层次,这有助于提高模型设计的灵活性、可以利用同一套数据实现和管理多个不同的需求。BI 的多层建模及在各个模型层次的一些建模技巧,如图。

从数据的存储逻辑上看,图中包含5个逻辑层。

数据抽取准备区

这是原始明细数据层,这是保存源系统明细数据的存储层,可以使用BI的PSA构建这个层次;每一个PSA表对应着源系统中抽取数据的一个数据源,PSA的表结构和数据源的结构一一对应,这一层次的数据通过SAP或非SAP的工具实现上传,基本上是各个源系统的副本,没有过多的修改和筛选,为数据的抽取和进一步的转换作准备。

(2)运营数据存储