银行数据仓库构建分析
- 格式:doc
- 大小:50.00 KB
- 文档页数:10
数据仓库的构建和数据分析方法随着互联网技术的飞速发展,如今各个行业都在不断积累着大量的数据。
如何进行这些数据的有效分析,已经成为各个公司和组织不可或缺的一部分。
数据仓库的构建和数据分析方法,是帮助企业和组织有效处理大数据,解决业务问题的关键。
一、数据仓库的构建在数据仓库的构建中,最为关键的一步是数据清洗。
这一步是为了在将数据存入数据仓库之前,对数据进行清理和标准化,以确保数据的正确性和一致性。
在此过程中,重要的工具包括ETL (抽取,转换,加载)工具,数据质量管理工具以及元数据管理工具等。
在数据清洗完成之后,数据就可以被存入数据仓库中。
数据仓库的构建过程中,可以选择不同的技术和架构来实现。
例如,企业数据仓库技术(EDW)可以用于大规模的企业级数据仓库,而Hadoop生态系统则可以用于构建大规模的分布式数据仓库。
不同的组织和企业,将面临着不同的数据仓库构建需求。
通过了解数据仓库的构建流程和不同的技术架构,可以帮助企业和组织有效地将数据存储到数据仓库中,并确保数据的质量和易于管理。
二、数据分析方法在数据仓库构建完成后,数据分析的过程也变得更加容易。
下面介绍几种广泛使用的数据分析方法:1. 大数据分析大数据分析是利用大量的数据进行分析、开发和总结的过程。
大数据分析可以帮助企业和组织挖掘出隐藏在海量数据中的价值和潜力,驱动业务增长和创新。
大数据分析常用的技术包括Hadoop MapReduce、Apache Spark、Hive等技术。
2. BI分析BI(Business Intelligence)分析是指利用数据仓库中的数据,通过分析和可视化工具帮助企业和组织更好地理解企业和市场信息,分析趋势和模式,并制定出改进策略。
BI分析包括的主要技术及工具包括ETL、OLAP(联机分析处理)、数据挖掘、报表及仪表板。
3. 预测分析预测分析是利用数据仓库中的历史数据,查找趋势并预测未来的事件。
预测分析可以帮助企业和组织制订出长期的业务策略。
某银行数据仓库建设情况汇报尊敬的领导们:根据您的要求,我将就某银行数据仓库的建设情况进行汇报。
以下是数据仓库建设的概述以及取得的成果。
1、项目背景:目前,随着信息技术的快速发展,数据作为金融业务的核心资源,具有极大的价值。
然而,由于银行系统内部数据分散、来源众多、格式不一致等问题,导致数据分析和决策效率低下。
因此,为了提高业务决策的科学性和准确性,我行决定开展数据仓库建设项目,整合银行各类数据,建立全面、统一、可靠的数据仓库系统。
2、项目目标:(1)整合数据:对银行内部的各类数据进行整合,包括存款、贷款、理财、信用卡等方面的数据,确保数据的一致性和准确性。
(2)提高决策效率:通过数据仓库系统,提升数据分析和决策效率,实现快速、准确的决策支持。
(3)优化风险控制:通过整合和分析大量数据,及时发现和应对潜在风险,提高风险控制能力。
(4)支持业务发展:为银行的业务发展提供全面、准确的数据支持,帮助银行实现持续增长。
3、建设成果:(1)数据整合:通过项目组的努力,已成功完成银行各类数据的整合工作,包括来自存款系统、贷款系统、理财系统以及信用卡系统等各个业务系统的数据。
数据整合的过程中,我们采用了ETL(Extract、Transform、Load)技术,确保数据的准确性和完整性。
(2)决策支持:数据仓库建设已成功运行,为各级领导提供了全面、准确的决策支持。
通过数据仓库,领导层可以快速获取和分析各项业务数据,从而做出更加科学、精准的决策。
(3)风险控制:数据仓库的建设大大优化了风险控制能力。
通过数据的分析和挖掘,可以及时发现潜在的风险因素,并采取相应的措施进行应对,从而保障银行的安全运营。
(4)业务发展:数据仓库的建设为银行的业务发展提供了良好的支持。
通过对客户数据的分析和挖掘,我们可以更好地理解客户需求和行为习惯,精准推送个性化服务,从而增强客户黏性和满意度。
4、未来展望:数据仓库建设是一个持续发展的过程,我们将继续完善数据仓库系统,进一步优化数据分析和决策支持能力。
XXX商业银行数据仓库系统完整解决方案在当今数字化时代,数据变得异常重要,对于银行业来说更是如此。
银行需要处理大量的数据,包括客户信息、交易记录、贷款情况等,而有效地管理和分析这些数据将对银行的业务发展和决策制定起着关键的作用。
为了更好地管理数据并提升运营效率,许多银行选择建立数据仓库系统来统一管理和分析数据。
XXX商业银行也不例外,它可以采用完整的数据仓库解决方案来满足其需求。
首先,一个完整的数据仓库系统需要包括数据抽取、数据转换、数据加载等核心功能。
数据抽取是指从各个数据源中提取数据的过程,这些数据源可以包括银行的核心系统、在线交易系统、ATM机系统等。
数据抽取过程需要能够实现增量抽取、全量抽取等功能,并能够保证数据的完整性和准确性。
数据转换是将抽取的数据进行清洗、转换和整合的过程,保证数据的一致性和统一性。
数据加载是将转换后的数据加载到数据仓库中,以便后续的分析和查询。
其次,一个完整的数据仓库系统还需要包括数据建模和数据分析功能。
数据建模是指对数据进行结构化和建模,以便更好地理解数据的关系和特点。
数据建模可以采用ER模型、维度模型等方法来构建数据模型。
数据分析是针对数据仓库中的数据进行分析和挖掘,以发现数据之间的关联性和规律性,为银行的业务决策提供支持。
数据分析可以采用OLAP、数据挖掘、机器学习等技术来实现。
最后,一个完整的数据仓库系统还需要包括数据可视化和报表功能。
数据可视化是将数据以图表、报表等形式展示出来,使用户能够更直观地理解数据的含义和趋势。
数据可视化可以采用数据可视化工具来实现,如Tableau、PowerBI等。
报表功能是将数据以报表的形式呈现出来,为银行的管理层和决策者提供直观的数据分析结果和业务洞察。
综上所述,一个完整的数据仓库系统可以帮助XXX商业银行更好地管理和分析数据,提高运营效率和业务决策水平。
通过建立数据仓库系统,XXX商业银行可以实现数据的统一管理和分析,挖掘数据的潜在价值,为未来的业务发展打下坚实基础。
第1篇一、引言随着大数据时代的到来,数据分析已成为企业提高竞争力、优化业务流程的重要手段。
银行业作为我国金融体系的核心,其业务数据量庞大,涉及客户信息、交易记录、风险控制等多个方面。
通过对银行数据的深入分析,可以挖掘潜在价值,提升银行运营效率,优化客户服务。
本报告以某大型银行为例,对其数据分析实践进行详细阐述。
二、银行数据分析背景1. 数据来源本案例所涉及的银行数据主要来源于以下几个方面:(1)客户信息:包括客户基本信息、账户信息、信用评级等。
(2)交易记录:包括存款、贷款、理财、信用卡等业务交易记录。
(3)风险控制数据:包括不良贷款率、风险预警数据等。
(4)市场数据:包括宏观经济数据、行业数据、竞争对手数据等。
2. 数据分析目的通过对银行数据的分析,实现以下目标:(1)了解客户需求,提升客户满意度。
(2)优化业务流程,提高运营效率。
(3)控制风险,降低不良贷款率。
(4)挖掘潜在价值,实现业务增长。
三、数据分析方法1. 数据清洗对原始数据进行清洗,包括去除重复数据、处理缺失值、修正错误数据等,确保数据质量。
2. 数据集成将不同来源的数据进行整合,构建统一的数据仓库,为后续分析提供数据基础。
3. 数据分析采用多种数据分析方法,包括描述性统计、相关性分析、聚类分析、预测分析等,挖掘数据价值。
4. 数据可视化利用图表、地图等形式展示数据分析结果,便于理解和决策。
四、数据分析实例1. 客户需求分析通过对客户交易记录、账户信息等数据的分析,发现以下客户需求:(1)客户偏好理财业务,希望银行提供更多理财产品。
(2)客户对信用卡业务需求较高,希望银行提高信用卡额度。
(3)客户对线上银行服务满意度较高,希望银行继续优化线上渠道。
针对以上需求,银行可以调整业务策略,推出更多理财产品,提高信用卡额度,并优化线上银行服务。
2. 业务流程优化通过对交易记录、业务流程等数据的分析,发现以下问题:(1)部分业务流程复杂,导致客户体验不佳。
商业银行数据仓库建设摘要:目前国内几大商业银行的数据大集中基本完成,为企业级数据仓库的建设创造了先决条件。
同时,银行管理层也希望从既有的海量数据库中获取信息,可以在精准营销、绩效考核、风险管理等方面发挥作用,这也成为建设企业级数据仓库的主要动力。
结合作者的工作背景,对银行数据仓库建设过程中的几个方面进行了阐述,以期望能对读者有所启发。
关键词:数据仓库;数据模型;数据标准;元数据管理;灵活查询0 引言数据挖掘是20世纪90年代中后期提出的概念,它是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法。
以人工智能技术作为挖掘知识和发现规律的科学途径的一种解决问题的方案。
而数据仓库的建设,可以看作数据挖掘的一个重要预处理步骤。
在数据仓库的建设过程中,可以将支持企业日常运作的各个独立系统中的数据进行清理、集成和统一,并且可以将数据加载入不同于日常交易系统结构的易于查询分析的数据模型中,为后续数据挖掘高效地获取准确明晰的数据扫清障碍。
1 数据仓库根据数据仓库之父W.H.Inmon的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。
这个简短而又全面的定义指出了数据仓库的主要特征。
4个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。
数据仓库领域的领导厂商,美国Teradata公司给企业级数据仓库下过一个定义,“一个企业级数据仓库是一个由集成的、明细的、可扩展的数据组成的,集中的,保留历史的数据机,可以支持多个部门的各种决策分析,是整个企业分析型数据的唯一来源”。
这里有5个关键字:集成的、明细的、可扩展的、集中的、保留历史的。
从以上两个定义来看,时变的包含了保留历史的意思,而面向主题的结构保证了其结构和设计是可扩展的。
因此,从笔者的观点来看,数据仓库的关键字应该是:面向主题的、集成的、时变的、明细的、集中的和非易失的。
让阿里金融分析师来告诉你银行数据仓库的10个主题模型在银行主题模型中,每个数据仓库的实施公司会有金融行业或银行业的主题模型,这个模型会根据新的业务不断进行完善,是各实施公司的业务经验积累。
一个良好的模型对数据仓库的实施起到了事半功倍的效果,虽然不同的公司会有不同的主题模型产品,但每个公司的产品基本上分为以下几个主题:1、当事人(PARTY)是指银行所服务的任意对象和感兴趣进行分析的各种对象。
如:个人或公司客户、潜在客户、代理机构、雇员、合作伙伴等。
一个当事人可以同时是这当中的许多角色。
借助当事人主题的建立可以实现基于客户基本信息的分析,是实现以客户为中心的各种分析应用的重要基础。
PARTY主题一般包括:*外部机构、政府部门、行业监管机构等;*在银行登记注册开立账户的单位、个人普通客户;*和银行有业务往来的其他金融机构(如国内同业、海外代理行等);*银行机构的雇员(含柜员、客户经理等);*客户的干系人(如个人客户的配偶、子女,公司的法人等);*潜在客户(如交易对手,无账号交易客户等);那在实施过程中,除了对客户进行分类外,重点需要关注:(1)客户ID:为每位客户确定一个唯一的ID,由于不同的系统都会有客户ID,如何分析是否是同一个客户?许多银行都会有ECIF系统来唯一确定客户,如果已经有全行的唯一客户ID,那将减少许多整合工作,只需按一定规则将其他潜在客户、干系人分配唯一ID即可。
如果没有ECIF系统可以在主题模型进行整合,如按证件类型、证件号码、姓名、性别来识别唯一客户,将各源系统中的客户识别成唯一客户后,再将各源系统的客户信息进行整合。
(2)客户之间关系设计:由于一个客户可能有多个角色,一般可以通过客户关系表来确定。
比如既是员工也是客户可在关系表中存放客户ID和员工ID的关系类型是同一个人,既是个人客户又是企业法人,可在关系表中存放客户ID和企业ID的关系类型为企业法人关系。
(3)客户主题是整个模型的中心,其它的所有主题都会和客户主题进行关联,因此如何与其他主题进行关联也需要重点考虑。
银行管理系统数据库设计需求分析1. 引言银行作为社会经济中极为重要的金融机构,其管理系统的设计和实施至关重要。
数据库作为支撑银行管理系统的核心技术之一,承担着存储、管理和处理海量数据的重任。
因此,本文将对银行管理系统数据库设计的需求进行深入分析,以保障系统的高效性、安全性和可扩展性。
2. 需求分析2.1 数据存储需求银行管理系统面向众多客户,包括个人和企业用户。
因此,数据库需能够存储大量的客户信息、账户信息、交易记录等数据。
同时,数据存储应具备高度的可靠性和稳定性,以确保数据不丢失并能随时访问。
2.2 数据安全需求银行管理系统涉及客户的财务信息,数据安全至关重要。
数据库应具备强大的安全性能,采用加密技术保护数据的机密性,设立权限控制机制限制用户访问权限,确保数据在传输和存储过程中不被非法窃取或篡改。
2.3 数据处理需求银行管理系统的核心功能包括账户管理、交易处理、风险评估等,数据库需能够支持这些功能的高效执行。
数据处理应具备高性能和高并发处理能力,能够快速响应用户的请求并保障系统的稳定运行。
2.4 数据可扩展性需求随着银行业务的不断发展壮大,管理系统的数据量和功能需求也会不断增加。
因此,数据库需具备良好的可扩展性,能够方便地进行扩展和升级,以适应未来业务发展的需求变化。
3. 总结银行管理系统数据库设计需求分析是确保系统正常运行和发展的重要一环。
通过对数据存储、安全、处理和可扩展性等方面的分析,可以为系统设计和实施提供有力的指导,保障银行业务的顺利进行和客户信息的安全保障。
在未来的系统开发过程中,需将这些设计需求充分考虑,确保系统的高效性和稳定性。
如何构建银行数据仓库数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。
既没有可以直接购买到的现成产品,也没有具体的分析规和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。
在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规做,那么实现同一业务需求的方案都会很相似。
而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。
数据仓库技术的实现方式目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。
1、在关系数据库上建立数据仓库(ROLAP)2、在多维数据库上建立数据仓库(MOLAP)MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP 方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。
在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。
MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。
ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。
由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。
利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。
3、在原有关系库上建立逻辑上的数据仓库由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。
新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。
因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。
尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统中数据结构固定、信息分析需求相对稳定成熟,因此数据仓库的建模、实现过程会相对容易、便捷;同时,这样的系统也会成为将来真正数据仓库建设的原型。
信息系统与数据仓库的关系由于数据量大、数据来源多样化,在商业银行构建管理信息系统时,不可避免地会遇上如何管理这些浩如烟海的数据,以及如何从中提取有用的信息的问题;而数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析。
因此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的,难以割舍的。
数据仓库在商业银行的应用围包括存款分析、贷款分析、客户市场分析、相关金融业分析决策(证券、外汇买卖)、风险预测、效益分析等。
在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径:1、建设新系统由于目前国商业银行对银行部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑。
这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中。
2、完善原有系统而对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个虚拟的多维模型。
当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期。
实现中需要注意的问题一、模型设计中的问题模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中,视实现技术的不同应分别对下列问题引起注意。
1、直接构建数据仓库直接构建数据仓库时,必须按业务分析的要求重组OLTP系统中的数据,并要按不同侧重点分别组织,使之便于使用。
*主题的确定主题是一个逻辑概念,它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系。
划分主题的根据主要来源于两方面:对原有固定报表的分析和对业务人员的访谈。
原有固定报表能较好地反映出以往工作对数据分析的需求,而且数据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴。
但仅仅满足于替代目前的手工报表还远远不应是构建管理信息系统的目标,还应该通过业务访谈,进一步挖掘出日常工作中潜在的更广、更深的分析需求。
只有这样,才能真正了解构建数据仓库模型所需的主题划分。
*分析容的细化主题的划分实际上是与分析容的围直接相关的,一旦主题划分清楚了,下一步就是细化分析的具体容以及根据分析容的性质确定它在数据仓库中的位置。
通常维元素对应的是分析角度,而度量对应的是分析关心的具体指标。
一个指标究竟是作为维元素、度量还是维属性,取决于具体的业务需求,但从实际操作中可以总结出如下的概念性经验:作为维元素或维属性的通常是离散型的数据,只允许有限的取值;作为度量的是连续型数据,取值无限。
如果一定要用连续型数据作为维元素,则必须对其按取值进行分段,以分段值作为实际的维元素。
判断分析指标是作为维元素还是维属性时,则需要综合考虑这个指标占用的存储空间与相关查询的使用频度。
需要特别强调的是,在细化分析容的过程中,务必解决指标的歧义问题。
在不同报表中以及在业务访谈中同一名称的指标,是否是在同样条件限定下,通过同样方法提取或计算得到的,它们之间的相互关系是什么,这些问题都必须从熟悉业务的分析人员那里得到准确、清晰的答案,否则将会影响到模型设计、数据提取、数据展现等多个方面。
*粒度的设计数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。
事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。
如果同一个信息系统要在大围、多层次上同时运行,如部门级和企业级,还应考虑不同层次的数据仓库采用不同的粒度。
*模型设计中的技巧复合指标尤其是比率类指标的定义,必须注意累加时是先加减后乘除,还是反之。
户数、笔数的计算,这类指标在分析或报表中经常出现,但不需要作为单独的指标物理存在于数据库中,但定义分析模型时一定应该准备。
度量的时间特性,针对分析指标在时间维上的不同表现,可分为可累加指标、半可累加指标和不可累加指标。
2、在原有数据基础上构建逻辑数据仓库如果直接使用OLTP系统中的数据进行数据分析处理,会遇到许多麻烦,有时甚至是不可能实现的。
这并不是说关系数据库不好,而是因为其设计思路不适应较大规模数据分析。
因此在使用这种方法时,需要注意下列问题的处理:*不同的时间单位这是实现过程中最常遇到的问题,也往往是最难解决的问题。
OLTP系统中存储的时间往往采用与实际业务发生相同的时间单位,如帐务数据单位为日期,财务报表单位为月或半年。
而面向分析时,往往要将不同时间单位的数据统一到同一个结果中,这样就必须存在适当的转换机制才能实现。
*冗余信息所谓冗余信息,就是指不同关系表中存在的同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额。
在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果。
*表间连接由于OLTP系统中表的设计面向业务处理,既要保证数据的完整性、一致性,又要考虑响应时间,因此表与表之间既相对独立,又相互依赖。
在设计数据仓库逻辑模型时,对表间的连接必须做出相应取舍,既要保证分析数据能通过连接取得或计算出,又要避免出现环路,造成分析数据的歧义。
另外,不同的连接途径还会出现不同的查询速度,影响数据分析的响应性能。
*统计表的设计如果上述问题不能在原有数据库基础上得到很好的解决,那么权益之计就是构建统计表,即简单化的数据仓库,形式类似数据仓库的事实表,定时计算统计数据放入,将时间、冗余、连接等问题摈除,进行简单分析。
二、数据抽取中的问题数据抽取是一件技术含量不高,但非常烦琐的工作,必须有专人负责数据抽取的工作。
在对其进行设计时,要注意的问题有:1、数据抽取的规则要作为元数据进行规和管理,抽取过程中的源表、源字段、目的表、目的字段、转换规则以及转换条件都要作好详细记录。
这样不仅便于编程人员实现,而且在抽取规则或逻辑模型发生变化时也便于修改。
2、如何记录业务数据库中的变动情况是数据抽取中一个重要的环节。
由于数据仓库中按时间保存数据,因此不同时间点之间数据的差异就成为一个关键性因素。
通常可以利用数据库管理系统提供的手段在数据库级产生数据变动日志,根据日志再判断数据的变动情况完成抽取,这样是一个从性能、可操作性以及对原业务系统的影响等多方面综合考虑都比较理想的方法。
3、当数据仓库中同一表中的数据来自于原有系统中不同的表,甚至不同的库时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。
4、数据抽取不仅要考虑数据的提取,还要考虑抽取的时间安排和执行方式,这样才是一个完整的数据抽取方案,也才能保证抽取出来的数据准确、可用。
三、后期维护、优化中的问题数据仓库的建设是一个长期工作,它同其他系统一样需要在运行的过程中不断进行调整、完善。
这其中包括两方面的工作:1、性能数据仓库涉及海量数据的查询,数据的大量写入读出,不仅对数据库系统的要求很高,而且与OLTP系统的要求极为不同,因此在系统设计、实施和维护的过程中,数据仓库系统的性能都是一个不可忽视的问题。
尤其是在运行期间,要密切关注应用对系统资源的消耗情况,针对应用的特点及时对系统进行调整,包括调整数据库参数、数据分片放置、创建特殊索引乃至提高系统配置等。
2、模型应用与需相互促进、不断发展的,随着信息系统建成运行,用户在对系统了解不断加深的过程中,也会对系统提出更新更高的要求。
如何在最小投入的前提下满足用户的需求,也是一个值得注意和潜心研究的问题。
首先要尽可能挖掘现有系统的潜力,其次考虑,对主题的增加或可在现有系统上增加少量指标就可解决的需求,对系统进行适当调整,最后才考虑对系统进行重构,尽可能减小系统建设中的投入。