数据仓库建设的几点建议培训资料
- 格式:doc
- 大小:20.50 KB
- 文档页数:8
数据仓库系统的建设与管理优化策略数据仓库系统是一个集中存储、管理和分析企业数据的关键组成部分。
通过构建和维护一个强大的数据仓库系统,企业可以更好地了解自己的业务状况,并基于数据驱动的决策来提高业务效率和竞争优势。
本文将提供一些数据仓库系统的建设与管理优化策略,以帮助企业构建一个高效且可靠的数据仓库系统。
一、数据仓库系统建设策略1.明确定义业务需求:在构建数据仓库系统之前,企业需要明确自己的业务需求和目标。
通过与业务部门的紧密合作,了解他们的需求和期望,从而确定数据仓库系统的范围和目标。
2.设计合理的数据模型:数据模型是数据仓库系统的基础,它决定了数据的组织和访问方式。
在设计数据模型时,需要考虑数据的整合性和可扩展性,合理划分表和字段,确保数据的一致性和完整性。
3.合理选择ETL工具:ETL(抽取、转换和加载)是数据仓库系统中数据处理的关键环节。
企业应根据自身需求和资源情况,选择适合的ETL工具。
同时,建立一个稳定的数据抽取和加载机制,确保数据的及时性和准确性。
4.数据质量管理:数据质量是数据仓库系统的核心问题。
建立一套完善的数据质量管理机制,包括数据清洗、数据验证和异常处理等步骤,以确保数据的准确性和完整性。
5.合理安排硬件和软件资源:在建设数据仓库系统时,需要合理评估和安排硬件和软件资源。
根据数据规模和性能需求,选择适当的服务器和存储设备,并确保系统的高可用性和扩展性。
二、数据仓库系统管理优化策略1.定期监测和维护:定期监测数据仓库系统的性能和稳定性,及时发现并解决问题。
同时,通过定期维护和优化数据库、索引和查询语句等,提高系统的运行效率。
2.保障数据安全和隐私:数据安全和隐私是数据仓库系统管理的重要方面。
建立完善的安全策略和权限控制机制,确保敏感数据不被未授权的访问。
同时,备份和恢复机制也是保障数据安全的重要措施。
3.实施数据生命周期管理:数据仓库系统中存储的数据会越来越多,因此,实施数据生命周期管理策略是必要的。
创建数据仓库应注意的事项作者:杨秀芳来源:《消费导刊》2010年第01期数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
数据仓库技术是在数据库技术的基础上发展起来的一种新兴的技术,以数据仓库为基础的商业职能系统在实际应用中能带来高利润的回报,所以近年来数据仓库在金融、保险、电信等众多领域得到了越来越广泛的应用。
如何创建一个符合用户需求的数据仓库是国内外学者探索和研究的重要课题。
笔者在实践中体会到,创建数据仓库时应注意以下几点:一、进行充分的需求分析在数据仓库的定义中,最核心的是面向主题,实质就是面向需求,面向决策者的战略导向。
在构建企业级数据仓库时应该有两层考虑:一是技术层面的,包括数据仓库的工具选择和项目的实施等:一是业务层面,包括企业业绩分析、风险管理、客户关系管理和人力资源管理等经营战略方面的需求。
然而,从来都是需求决定技术手段。
因此,用户需求才是企业实施数据仓库计划的初衷。
数据仓库需求分析的第一步是访问公司内部的主管,由他们那里得到对数据分析面的需求。
需求分析在制作一个数据仓库的过程中是非常重要的一个步骤,当一个数据仓库设计并制作完成后,如果要修改其组织结构是一件很困难而且很耗时的工作,所以一个数据仓库在设计完成后理应能够支撑一段时间。
当然,用户的需求是无止境的,我们不可能永远不变动数据仓库的架构,也不可能禁止用户提出新的需求,但是在设计之初最好是能够将所有的需求搜索齐全(或是尽量搜索齐全),在设计方面做整体性的设计,在制作方面可以分阶段执行。
为了得到更充分、更准确的需求分析,我认为应遵循以下原则:1.让用户参与,尽力让用户的高层参与,双方要紧密配合2.要迅速、全面的理解用户的业务及工作流程3.培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法4.不要求完美,而要求实用,应用将是螺旋上升的。
《数据仓库建设指南》数据仓库建设指南随着企业信息化的趋势不断发展,数据化已经成为企业成长的必经之路。
数据成为了企业在竞争中的筹码,企业数据分析的能力也成为了企业成功的关键。
更多的企业意识到,要想在市场上占有一席之地,精细管理企业,就必须建立一个合理的数据仓库。
那么,数据仓库建设需要考虑哪些要素和步骤呢?本文将一一为您解析。
一、数据仓库简介数据仓库是一种长期积淀和管理数据的系统,它可以帮助企业集中存储和管理来自各种渠道的数据,为企业提供分析支持。
它可以将内部和外部的数据整合、加工之后建立一个统一的数据层用于分析,这样企业就可以在分析过程中减少对数据来源的依赖,加快数据分析过程。
二、数据仓库建设步骤1.规划和准备数据仓库建设是需要投入大量的时间和精力的,因此,首先需要确定需求,明确数据仓库的建设目标,并确保团队中所有成员都清楚地理解目标和业务需求。
同时,团队还需要了解企业的业务流程。
在规划和准备阶段,团队需要对企业业务进行分析和评估,确定数据仓库中需要的信息和数据以及其来源;需要制定数据建设计划,分步骤地完成数据仓库的各个环境的建设和测试,以确保其稳定性和数据可靠性。
2.设计在设计阶段,需要确定数据仓库的基本结构和架构等。
从不同的维度来考虑数据仓库的数据设计,面向业务时的数据设计包括事实表和维度表的设计,以及定义关系型数据模式。
面向数据仓库的设计要考虑数据的存储形式和数据的管理:如何利用索引快速查找数据,如何存储不同的数据格式或类型等。
3.实施实施是数据仓库建设中最为繁琐的环节,这个过程需要投入大量的人力和物力资源。
需要与各种数据源进行连接和整合,然后将这些数据存储到数据仓库中,来适应变化的数据分析需求。
在实施过程中,需要考虑数据清洗、转换和加工等过程。
数据清洗的目的是过滤掉不必要的数据,转换是将数据从一种格式转换为另一种;加工就是从原数据中提取关键信息。
4.测试和验证测试与验证是数据仓库建设过程中很重要的步骤,通过测试可以验证数据仓库所设计的模型和工具是否能够适应实际的业务需求,同时也可以提供一些有益的改进建议。
北京甲骨文软件有限公司咨询经理鲁百年博士一、国内信息化的现状1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。
这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换.2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。
当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。
但是,由于数据源不统一导致了对同一个指标分析的结果不相同.为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策.3、国内企业对数据仓库建设认识的误区:大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。
这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。
一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。
领导不满意,项目负责人压力也很大,无法交待。
这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误.怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。
数据仓库设计与构建的技巧与方案随着信息技术的不断发展,数据已经成为了企业运营中不可或缺的一部分。
而数据仓库的建设,正是贯穿了整个企业业务流程的一个重要环节。
在这个过程中,如何进行数据仓库设计与构建,成为了企业运营成功的关键点。
因此,本文将从数据仓库的定义、构建目的,以及数据仓库建设的技巧与方案等方面,对数据仓库进行全面阐述。
一、数据仓库的定义与构建目的数据仓库,是一种将企业内部各种数据信息进行集中存储、统一管理和整合,供企业决策者查询、分析和预测的数据架构。
数据仓库建设的目的是提供一个贯穿于企业整个运营流程中的数据资源池,将各个部门的数据进行整合和分析,便于企业管理层进行全面性决策。
为了实现数据仓库的目标,需要从以下几个方面进行设计和构建:1. 数据来源管理数据来源管理是数据仓库设计和构建的重要基础,在数据来源管理中需明确数据的来源和格式,并进行数据质量的控制以保证数据的准确性、完整性、一致性和时效性。
2. 数据建模数据建模是数据仓库设计中重要的环节,其目的是明确数据源所包含的信息和数据之间的关系,以便进行数据整合和分析。
数据建模的过程中需要注意数据模型的可扩展性和可维护性,便于遇到后续需求时进行数据模型的更改和维护。
3. 数据仓库架构设计数据仓库架构设计是数据仓库设计中的核心部分,它决定了数据仓库的规模、容量和性能等方面。
在设计数据仓库架构时,需要考虑到数据存储的方式和存储的位置,以保证系统的性能和可靠性。
4. 数据仓库应用数据仓库应用是数据仓库建设中的重要环节,它决定了系统的使用效果和功能。
在数据仓库应用中,需要考虑到用户需求,设计系统的界面和功能,以及进行数据的查询、分析、挖掘和报表等处理。
以上几个方面是数据仓库设计和构建中重要的环节,需要进行综合考虑和协调,才能有效的完成数据仓库的建设任务。
二、数据仓库建设的技巧与方案在数据仓库的建设过程中,需要注意以下几个技巧和方案:1. 按照业务需求进行数据仓库的设计数据仓库的建设应该是按照企业的业务需求进行的。
数据仓库架构设计注意事项与实践经验分享数据仓库是企业中存储和管理大量数据的关键组成部分,它提供了一个统一的视图,用于分析和决策支持。
在设计和构建数据仓库架构时,需要考虑一系列注意事项和实践经验,以确保其可靠性、可扩展性和高效性。
本文将对数据仓库架构设计的注意事项和实践经验进行分享。
一、确定业务需求和数据模型在设计数据仓库架构之前,首先需要明确业务需求,了解企业的数据分析目标以及所需的数据内容和结构。
通过与业务部门的深入沟通,确定数据仓库的核心指标和指标的层次结构,进而建立合理的数据模型。
数据模型应该能够满足各种复杂的查询需求,并能够支持未来的扩展和变化。
二、选择合适的数据仓库架构数据仓库架构的选择对整个数据仓库系统的性能和可扩展性至关重要。
常见的数据仓库架构包括集中式、分布式和混合式架构。
集中式架构适用于小型或中型企业,所有数据都存储在一个中央仓库中。
这种架构易于管理和维护,但可能存在性能瓶颈和可扩展性问题。
分布式架构将数据分散存储在不同的节点上,每个节点都可以独立进行查询和分析。
这种架构具有更好的性能和可扩展性,但也需要更多的资源和管理任务。
混合式架构结合了集中式和分布式架构的优点,它可以根据需求在不同的场景中灵活切换。
根据企业的规模和需求,选择适合的数据仓库架构至关重要。
三、考虑数据质量与一致性问题数据质量和一致性对于数据仓库的有效性至关重要。
在设计数据仓库架构时,应该重视数据的准确性、完整性、一致性和时效性。
为此,可以采取以下几个方面的策略:1. 数据清洗和转换:对输入的源数据进行清洗和转换,确保其质量和一致性。
可以借助ETL工具来实现数据清洗和转换的自动化。
2. 数据验证与合规性:制定合适的数据验证策略,确保数据的准确性和一致性。
同时,还需要遵守国家和行业的数据保护法规和合规要求。
3. 异常处理与监控:及时发现和处理数据异常和错误,并设立监控机制,实时监测数据仓库的健康状况。
四、实现适当的数据存储与索引策略合理的数据存储与索引策略对数据仓库的查询性能和可用性至关重要。
数据仓库的设计与建设数据仓库是企业信息化建设中非常重要的一环。
有了数据仓库,企业可以更好地理解自身的业务现状和趋势,以此作为决策依据,优化业务流程和提升效率。
而数据仓库的设计与建设对于数据质量和效率也有着重要的影响。
本文将从不同角度对数据仓库的设计与建设进行探究。
1. 数据源的选择在数据仓库的建设中,最重要的环节之一就是确定数据源。
数据源的多少和质量对于数据仓库的建设具有决定性影响。
在选择数据源时,应考虑以下几点:(1)数据的完整性和结构化程度:数据源的数据应该尽量完整,且已经按照固定格式(如XML、JSON等)结构化,以方便数据的后续处理和使用。
(2)数据的时效性:数据源的数据应该能够及时更新,以满足数据仓库对实时数据的需求。
(3)数据的可靠性:数据源的数据应该经过严格的数据清洗和验证,确保其可靠性和准确性。
2. 数据清洗和加工对于从数据源获取的数据,经常需要进行一系列的清洗和加工操作,以便存储和分析。
(1)清洗:数据仓库需要准确、完整、一致和标准化的数据,因此在加入数据仓库之前,需要进行数据清洗。
清洗相关的工作包括去重、去空、去错、去重复等。
只有经过清洗的数据才能被更好地利用。
(2)转换:数据仓库中的数据通常需要转换成统一的格式和数据类型。
这意味着需要对数据进行映射、转换和转换。
数据可能来自多个不同的系统,因此需要将数据转换为一致的数据模式,以便更好地进行分析。
(3)加载:在加载数据到数据仓库之前,需要对数据进行处理以满足具体分析的需要,如数据分区、索引、审核、验证等。
此外,还需要根据情况进行数据分析、聚合和预处理等工作,以便更好地使用数据。
3. 数据仓库的架构数据仓库的架构是设计与建设中一个非常重要的环节。
架构的选择应该合理、可扩展,以可视化方式展示数据,方便用户查询和分析。
在架构设计时,应考虑以下几点:(1)数据库:选择适合企业的数据库。
例如,在数据量较小的情况下可以选择基于云的数据库,可以避免硬件投资和性能等问题。
资料库建设建议
以下是一些关于资料库建设的建议:
1. 明确目标:在开始任何资料库建设之前,需要明确资料库的目标。
这可能包括存储特定类型的信息,提高信息检索的效率,或者满足法规和政策的要求。
2. 数据分类:将资料库中的信息分类并组织成有意义的方式,可以帮助用户更容易地找到他们需要的信息。
这可能需要为资料库创建不同的区域或类别。
3. 标准化:确保资料库中的信息都遵循相同的标准或格式。
这可以提高信息的可读性和可理解性,并使信息更易于检索。
4. 安全性:确保资料库的安全性是至关重要的。
这可能包括设置适当的访问权限,使用防火墙和防病毒软件,以及定期备份数据。
5. 可扩展性:随着时间的推移,资料库中的信息可能会增加或减少。
因此,在设计资料库时,应考虑到未来的增长和变化。
6. 用户友好:资料库应该易于使用和理解。
这可能意味着需要提供清晰的导航和搜索功能,以及易于理解的信息。
7. 定期更新和维护:资料库中的信息可能会随着时间的推移而变化。
因此,应定期更新和维护资料库,以确保其内容是最新的。
8. 培训和支持:为用户提供培训和支持,可以帮助他们更好地利用资料库。
这可能包括提供使用指南和在线支持。
9. 反馈机制:建立一个反馈机制,让用户能够提供他们对资料库的意见和建议。
这将有助于不断改进和优化资料库。
10. 遵循法律法规:确保资料库的建设和使用符合相关法律法规的要求。
这可能涉及到隐私保护、知识产权保护等方面的问题。
遵循这些建议将有助于创建一个高效、有用和安全的资料库。
数据仓库建设的几点建议北京甲骨文软件有限公司咨询经理鲁百年博士一、国内信息化的现状1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。
这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。
2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。
当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。
但是,由于数据源不统一导致了对同一个指标分析的结果不相同。
为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。
3、国内企业对数据仓库建设认识的误区:大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。
这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。
一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。
领导不满意,项目负责人压力也很大,无法交待。
这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。
怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。
如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。
什么是数据模型,就是满足整个企业分析要求的所有数据源。
结果会如何,我个人认为:这样做企业级数据仓库成功的可能性太小。
什么是企业级数据仓库,这是一个相对的概念,因为企业的业务系统会在不断的改善和升级,所以数据仓库的建设也会不断的完善和修改。
数据仓库的建设是一个过程,它一定伴随着企业新的应用和企业各种各样新的需求而逐步完成。
所以从数据整合入手、从企业级数据模型入手,均会给企业数据仓库的建设带来很大的风险。
失败的概率太大了。
二、以应用驱动,数据仓库建设应由后向前规划前面讲了数据仓库建设从数据源入手,先进行数据整合的方法会导致失败,特别是对信息化建设比较快而且数据量特别大的企业。
这是因为数据仓库的理论均是讲从企业级的数据整入手,建立数据仓库。
要么是大家对Bell Inman的理论由误解,要么就是数据仓库的祖师爷害了大家。
数据仓库到底应该怎么建设?我一贯的主张是应用驱动。
什么样的应用呢?从企业绩效管理的角度出发,一个企业最重要的四项关键指标为:财务指标、客户指标、企业内部的流程指标和学习创新的指标。
应用从那个开始,应考虑企业的现状和决策层最关心的问题入手。
在一般情况下,老总和董事会最关心的问题是企业的财务指标。
其次是内部流程和员工绩效考核,再下来是客户的信息和决策支持。
实际上在一个企业中最先上线的系统也是企业的财务管理和业务系统,这样相对财务分析是最容易实现的。
因为数据较齐全,最完整,所以分析是较容易实现的,加之上市公司对财务报表的要求是最紧迫的。
对财务分析从那入手,应该分析那些指标,这些指标通过什么公式(数学模型)计算,这些模型需要那些数据,这些数据又来自于那些业务系统,这些数据是否在业务系统中存在,能否进行分析,也就是这些主题的分析是否可行,应该先进行评估。
这样从应用主题入手,就可以知道需要什么样的数据,来自那些业务系统和数据源,这些数据的全体进行一定的整合,按照分析的要求存储就组成了一个数据集市(Data Mart)。
三、“想大做小”(整体设计、分布实施)为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新的信息孤岛。
这是因为应用往往是部门级的或者是某一方面的应用,不能完全覆盖企业级的所有应用。
当然我们这里不提倡一次建设企业级的应用。
如何避免这个问题,是我这里着重要要强调的。
这里分两种情形进行设计。
1、如果该公司的信息化建设相对较晚,或者才开始进行信息化建设,或者原有的业务系统已经无法支持现有的业务而需要重新改造原有业务系统,均应该整体设计,将各个系统的数据源统一存放管理,有一个统一的入口和出口。
这样就避免了数据源的不统一而会导致信息孤岛,这样数据仓库的建设也就无意义了。
因为企业级的数据本身就按照业务的需求和分析的需求进行设计和存放管理。
在这种情况下要特别注意业务系统的安全性和效率问题。
如何解决该问题,最近的网格计算正是为解决该类问题而设计的。
除了统一数据源外,可以根据企业的需要,可利用一个个小型机进行不同需求的应用,OLTP和OLAP可以在不同的服务器上完成,同时可以将各个服务器的资源共享、时间任务优化分配。
这样既解决了统一数据源的问题,又解决了运行安全和效率问题( Oracle 10g就是这种思想)。
2、如果该企业是一个信息化建设较早并且业务系统仍在应用,现在还需要大量的分析和辅助决策,那么就应该建设数据仓库,最少是数据集市。
在设计时要考虑到企业的数据仓库,但是在实施时应该从企业最需求的数据集市入手,要考虑到该数据集市和将来慢慢一步一步建设的数据仓库应该共享一个数据源。
方法步骤如下:第一步、确立好应分析的主题(或项目),如客户关系管理系统;第二步、设定研究分析的具体问题,如客户流失率分析,客户贡献度分析;第三部、从这些问题出发,考察每个问题应使用的模型;第四步、所有模型所需要那些数据;将所有分析问题所需要的数据按照分析的类型进行分类存储,建立数据集市。
当完成这个项目后,如果需要建设第二个应用(系统),如资产负债系统;重复以上四步,但是在设计时一定要考虑已经存在的客户关系管理系统,将第二个应用系统和第一个应用系统共有的数据要共享,这时应考虑两个系统上了以后的效率问题。
如果存在着效率问题,则将第一个数据集市保留,并且做一个备份作为数据仓库的一部分,将第二个数据集市的数据源和第一个备份的集市进行整体合并作为现在企业级数据仓库。
将第二个数据集市单独建立,但是数据源来自于共同的数据仓库,这样既保证了数据仓库的效率,也保证了数据源的同一性。
这样一步一步将会建成企业级的数据仓库。
四、三分段的设计思想在数据仓库建设中,我们知道可以将整体的系统化分为三个大的部分:业务系统、数据仓库、分析和展现。
随着时间的发展,这三个部分随时都可能发生变化。
比如:业务系统要进行升级改造或者重新建立核心业务系统,像银行的第三代;像电信的BOSS系统的改造等等。
需求分析也会随着时间的发展、新的需求会不断提出,所以在数据仓库项目建设时一定要考虑三分段的设计思想。
什么是三分段的设计思想:就是尽量将业务系统、数据仓库和分析展现分离设计。
当业务系统发生变化时,尽量保证数据仓库的结构不变。
如何做到这一点呢,那就需要在数据迁移时使用公式体系,作为数据仓库数据计算的公式,所以当业务系统发生变化时,可以通过对应关系将对应重新映射。
关于业务系统变化,数据仓库的一些结构必须变化的情形我们下面将讨论。
同样,当数据分析展现的要求发生变化时,数据仓库应保持相对的独立。
这样数据仓库才能保证有生命力。
但是当数据仓库不得不发生变化时,是否有先进的工具可进行多维立方体的可和性计算。
也就是业务系统发生变化后,有先进的工具保证数据仓库的结构不发生变化,仅仅需要进行新的立方体计算、以及和老的立方体合并,而不需要将原数据仓库的数据全部重新刷新。
这样在大型企业中非常重要,因为往往一次数据刷新需要几天或几十天的时间。
五、最佳实施方案前面考虑了数据仓库建设应该整体设计、分布实施;从应用出发,建立数据集市;然后将数据集市扩展为数据仓库。
数据仓库的设计应该注意三分段的结构。
数据仓库的建设是一个过程。
那么,最重要的问题和步骤就是:1、如何定义主题:在这方面,可以有两个办法:一是企业急需解决的问题,二是借助于同行或者国外的先进经验决定主题。
对于第一种情况,也需要借鉴于国内外成熟和先进的经验。
需要了解成熟的主题了在国际先进的企业内成功使用的方案和工具。
例如:资产负债系统、转移定价、风险管理、客户关系管理等。
2、主题设定后,应该分析那些问题:这些问题也应该借鉴于成熟的方案和工具,加上具体的本企业的需求,这就是客户化。
例如在客户关系管理系统中分析:客户的贡献度、客户的流失分析和预警、客户的忠诚度、前十位带来效益的客户和最后十位带来最大损失的客户等等;这些问题应该由企业和解决方案供应商共同讨论决定。
3、这些问题应该如何定义,也就是模型或者计算公式是什么:当定义了这些问题后,公式该如何定义,很多的公式是标准的,可以应用公认的标准公式,对于其他非标准的公式,应该借鉴国际上先进的企业使用的公式和模型。
在方案供应商是否有现成的工具和方案,不仅仅是方案,还应该有现成的可以灵活客户化的工具或产品。
4、当定义完公式后,数据结构应如何设计:首先要考虑公式中的数据是否在业务系统或者其他的系统中存在,如果不存在,该如何解决?如果存在,在那个系统中,如何抽取、整理和加载。
数据应该以什么样的结构进行存储和管理。
源数据该如何设计?在这方面如果有成熟的工具和产品,将对项目的成功带来了多半的希望。
数据的存储一定要考虑到业务系统的变化带来的数据仓库结构的变化,一般也要考虑到五年存储的数据,当第六年的数据导入时,需要将五年前的一年数据迁移到磁盘阵列或其他的存储设备时,如何将多维立方体分割。
要考虑如何将新的业务数据增加到数据仓库时多维立方体的可和性。
5、当解决了数据的存储和管理后,数据仓库应用该如何展现:展现是使用者十分关注的问题,展现的易用性、直观性和灵活性是十分重要的,可以采用流览器方式,报表、图形和多维展现或动画。
但是一定要注意速度和效率。
6、展现确定后,速度效率如何提高:对于一个非常重要的报表,例如:现金流、资产负债表和损益表,企业的三、四位老总可能非常关心,每天或者季度初的第一天早上上班先要察看该报表的结果,第一个老总很快看到了结果,但是第二个、第三个需要三十秒、一分钟的时间哪就无法忍受。
所以系统一定要考虑做压力测试,采用好的解决方案。
如将常用的报表做上几个备份,或者多开上几个监听器。
为了提高效率,数据的存储结构是十分重要的,比如对离散数据可以进行转置存储、对于一年都很少改变几次的数据,如信贷数据,可以采取时间压缩的方法等等。