数据仓库规范_qdh
- 格式:doc
- 大小:91.50 KB
- 文档页数:12
数据仓库管理制度1. 简介数据仓库是企业数据管理的重要组成部分,对于企业决策和业务分析具有重要作用。
为了确保数据仓库的有效管理和高效运作,制定数据仓库管理制度是必要的。
本文将从数据仓库的定义、管理目标和管理原则等方面进行论述。
2. 数据仓库的定义数据仓库是指将企业各个系统中的数据集中存储、整合、管理的系统。
它的主要特点包括数据集成、面向主题、稳定性和持续更新等。
数据仓库旨在为企业用户提供高质量的数据以支持决策和业务分析。
3. 数据仓库管理目标(1)数据质量保证:数据仓库是基于企业各个系统的数据构建而成,必须确保数据的准确性、完整性和一致性,以保证决策和分析的准确性。
(2)数据安全保护:数据仓库可能包含企业敏感信息,必须加强数据的安全保护工作,采取合适的权限管理和加密措施。
(3)数据共享与协作:数据仓库作为企业数据的集中存储,应该鼓励各部门间的数据共享与协作,提高决策效率和业务协同。
(4)性能优化:数据仓库的查询和分析性能直接影响用户体验,管理制度应包括性能优化的措施,如索引设计和查询优化等。
4. 数据仓库管理原则(1)规范数据采集:数据仓库数据源的采集必须按照规范进行,确保数据的准确性和一致性。
(2)统一数据标准:对于不同来源的数据,要制定统一的数据标准和规范,包括命名规范、数据类型规范等。
(3)权限管理与访问控制:建立完善的权限管理体系,确保只有经过授权的用户能够访问数据仓库,并且对敏感数据进行访问控制。
(4)备份与恢复:建立数据仓库的定期备份和恢复机制,以应对数据丢失或系统故障的情况。
(5)监控与评估:建立数据仓库的监控系统,及时发现和解决潜在问题,并定期对数据仓库的管理制度进行评估和优化。
5. 数据仓库管理流程(1)需求收集与分析:与企业用户和管理层沟通,收集他们的业务需求,进而分析和定义数据仓库的业务主题。
(2)数据采集与清洗:根据需求定义,确定数据来源并进行采集和清洗,确保数据的准确性和一致性。
数据治理:数据仓库的数据质量管理规范—01 —质量管理对数仓的重要性现在数据仓库层面的工作越来越多,开发人员也越来越多,如何保障数据准确性是一项非常重要的工作,数据仓库的很多应用数据直接呈现给用户或者支撑企业分析决策的,容不得数据出现错误。
随着开展的业务越来越多,数据模型越来也多,我们管控的越晚就越容易出问题。
尽管有数据仓库建设规范,同样在数据模型命名,数据逻辑开发,每个人都可能不一样,而这些也容易导致数据模型准确性的问题。
我们迫切需要制定一套数据的准确性验证流程,让大家都按规范流程来做,保障数据的准确性。
—02 —数据指标管理首先我们看下数据仓库的数据流转,要确认计算出的指标正确,就要保证数据源的准确和逻辑的准确。
所以开发前需要确认需求理解的准确性。
根据“需求模板”完善所开发的需求,遇到提出的模糊定义,需要和业务人员确认指标口径的准确性。
需求模板主要包含业务分类、指标名称、是否新增、统计周期、指标维度、业务口径、技术口径、数据源表、需求提出人、需求提出日期、优先级等:开发数据指标过程分为四部分:看、查、管、控。
—03 —数据指标管理:看首先我们要对开发出的指标结果数据进行查看,是否有一些明显的异常,比如某个数据值不在正常范围内,如车速大于500KM/h,或者统计的总数过大,比如某城市人口1亿人等。
通过“看”找出异常指标数据,并予以解决。
—04 —数据指标管理:查查,分为测试验证和上线审核,两个步骤。
测试验证方法如下:1、总量核对,核对上下两步的数据总条数,没有过滤条件的话应该是一致的。
2、多维度统计,复杂的多维度指标拆分成单维度SQL统计,对每个指标分别进行核查。
3、多表关联统计,拆分成中间表进行核对每一步骤的指标。
4、明细到指标统计,比如随机找一台车的明细和最后统计的指标进行核对。
5、新老统计对比,比如有些指标是迁移或者之前业务手工制作,可以开发后的新指标同老指标进行对比。
测试需要有专门的数据测试人员进行测试,输出测试用例和测试报告。
数据仓库规范一.数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。
在各个信息模型中存储的内容如下描述:1)SRC接口层信息模型:提供业务系统数据文件的临时存储,数据稽核,数据质量保证,屏蔽对业务系统的干扰,对于主动数据采集方式,以文件的方式描述系统与各个专业子系统之间数据接口的内容、格式等信息。
与该模型对应的数据是各个专业系统按照该模型的定义传送来的数据文件。
STAGE是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。
与生产系统数据的唯一不同是,STAGE层数据具有时间戳。
STAGE层存在的意义在于两点:(1)对数据源作统一的一次性获取,数据仓库中其他部分都依赖于STAGE层的数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力;(2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。
2)ODS/DWD层(对应原模型的ODS和DW层)信息模型:简称DWD层是数据仓库的细节数据层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中。
为企业进行经营数据的分析,系统将数据按分析的主题的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。
3) MID 信息模型:轻度综合层是新模型增加的数据仓库中DWD层和DM层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计。
轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并为满足一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。
4) DM信息模型:为专题经营分析服务,系统将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源。
数据仓库规范一.数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。
在各个信息模型中存储的内容如下描述:1) SRC接口层信息模型:提供业务系统数据文件的临时存储,数据稽核,数据质量保证,屏蔽对业务系统的干扰,对于主动数据采集方式,以文件的方式描述系统与各个专业子系统之间数据接口的内容、格式等信息。
与该模型对应的数据是各个专业系统按照该模型的定义传送来的数据文件。
STAGE是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。
与生产系统数据的唯一不同是,STAGE层数据具有时间戳。
STAGE层存在的意义在于两点:(1)对数据源作统一的一次性获取,数据仓库中其他部分都依赖于STAGE层的数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力;(2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。
2) ODS/DWD层(对应原模型的ODS和DW层)信息模型:简称DWD层是数据仓库的细节数据层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中。
为企业进行经营数据的分析,系统将数据按分析的主题的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。
3) MID 信息模型:轻度综合层是新模型增加的数据仓库中DWD层和DM层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计。
轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并为满足一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。
4) DM信息模型:为专题经营分析服务,系统将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源。
数据仓库设计与建模的数据模型规范与约束在当前信息爆炸的时代,数据的价值变得越来越重要。
作为企业决策支持系统的核心组成部分,数据仓库的设计与建模显得尤为重要。
为了保证数据仓库的高效运行,需要遵循一些数据模型规范与约束。
本文将从不同角度探讨数据仓库设计与建模的规范与约束问题。
一、数据模型的命名规范在数据仓库的设计与建模过程中,良好的命名规范可以提高数据模型的可读性和可维护性。
首先,实体和表的命名应该简洁明了,能够准确地反映其所代表的含义。
其次,属性和字段的命名应该具有一致性和可理解性,以便于开发人员快速理解其含义。
此外,对于数据模型中的关系和约束,也需要采用规范的命名方式,以便于开发人员理解其作用。
二、数据模型的范式规范数据模型的范式规范是保证数据仓库数据结构合理性和高效性的基础。
在进行数据模型设计时,需要尽量满足第三范式(3NF)的要求。
即每个非主属性完全依赖于码,并且消除冗余数据。
通过将数据分解为更小的关系表,可以减少数据冗余,提高数据存取的效率。
另外,在某些特殊情况下,也可以考虑采用反范式设计,以满足一些特定的性能要求。
三、数据模型的约束规范数据模型的约束规范是保证数据一致性和完整性的重要手段。
在数据仓库的设计与建模过程中,需要使用各种约束来限制数据模型中的数据操作。
首先,可以使用数据类型约束来保证数据的正确性和有效性。
例如,对于日期类型的数据,可以限制其输入格式为YYYY-MM-DD,并且范围在合理的时间段内。
其次,可以使用主键约束来保证数据唯一性,并且避免数据冗余。
还可以使用外键约束来建立实体之间的关系,并且保证数据引用的一致性。
四、数据模型的性能规范数据模型的性能规范是保证数据仓库高效运行的重要因素。
在进行数据模型设计时,需要考虑到数据量的大小以及访问数据的频率。
可以通过合理的分区策略和索引设计来提高数据的查询效率。
此外,还可以采用预聚合和汇总技术来优化数据查询和报表生成的性能。
另外,也可以使用数据压缩和分库分表等技术来提高数据仓库的整体性能。
大数据数据仓库及决策支持系统建设技术规范随着信息化和智能化的发展,大数据、数据仓库及决策支持系统已经成为企业管理和决策的重要工具。
为了确保建设的质量和效果,需要遵循一定的技术规范。
以下是大数据、数据仓库及决策支持系统建设的一些技术规范。
1.数据采集规范数据是大数据、数据仓库及决策支持系统的核心,因此在数据采集阶段需要遵循规范。
包括确定采集的数据类型和内容,采集频率,采集方式等。
另外,还需要确保数据的准确性和完整性,对采集到的数据进行数据清洗、数据校验等工作,以确保数据的质量。
2.数据存储规范大数据、数据仓库及决策支持系统需要存储大量的数据,因此需要遵循数据存储规范。
包括确定数据存储的结构和方式,选择适合的存储设备和技术,确保数据的可靠性和安全性。
同时,还需要考虑数据的备份和恢复,以及对存储空间的管理和优化。
3.数据处理规范在大数据、数据仓库及决策支持系统中,数据处理是一个重要的环节。
需要遵循规范的数据处理流程,包括数据清洗、数据集成、数据分析等。
需要选择合适的数据处理工具和算法,确保数据处理的效率和准确性。
同时,还需要考虑数据的安全性和隐私保护,遵循相关的法律法规和政策。
4.决策支持规范决策支持是大数据、数据仓库及决策支持系统的核心功能之一、为了确保决策支持的质量和效果,需要遵循一些规范。
包括确定决策支持的目标和需求,选择合适的决策支持方法和技术,确保系统的稳定性和可靠性。
同时,还需要考虑决策的风险和影响,提供相应的决策支持工具和指标。
5.系统运维规范大数据、数据仓库及决策支持系统的运维是系统正常运行的关键。
需要遵循一定的运维规范,包括定期对系统进行巡检和维护,及时处理系统的故障和异常。
同时,还需要对系统进行性能监测和优化,保证系统的高效运行。
此外,还需要进行系统的备份和恢复,确保系统数据的安全性和可用性。
总之,大数据、数据仓库及决策支持系统的建设需要遵循一系列的技术规范,从数据采集到数据存储、数据处理和决策支持,以及系统运维等各个方面。
数据仓库模型建设规范1.概述数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。
物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基—层层建筑—封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。
数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。
为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。
2.数聚模型架构在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。
2.1.数据架构图2.2.架构工作方法规范2.3.准备层L02.3.1.主要数据结构临时表:从数据源抽取,直接落地到临时表。
临时表总是保存这次抽取的数据,不保留历史数据。
也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话,就是自从上次修改后的数据。
接口表:从临时表,经过清洗、转换到达接口表。
接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。
接口表里面也是源系统整个表的数据。
转换表:为了进行清洗和转换建立的中间辅助表。
2.3.2.命名规范临时表:L0_TMP_源系统_具体业务或 L0_TMP_业务主题_具体业务(对单一源)举例:L0_TMP_POS_SALESORDER接口表:L0_DCI_业务主题_具体业务表举例:L0_DCI_SALES_SALESORDER转换表:L0_MAP_具体业务表举例:L0_MAP_SALES2.3.3.开发工作●开发数据抽取接口,落地TMP区●开发数据清洗转换程序,落地DCI区,多源系统进行合并●开发数据装载程序,装载到L1层2.4.原子层L12.4.1.主要数据结构维度表:整个数据仓库一致的维度代码表:维度属性,非维度代码等。
数据仓库命名规范数据仓库命名规范是指在设计和创建数据仓库时,为各个数据仓库对象(例如表、列、视图等)和元数据(例如字段、参数等)指定的名称格式和规范。
命名规范的目的是为了提高数据仓库的可维护性、可理解性和可扩展性,使数据仓库的使用更加方便和高效。
下面是一些常用的数据仓库命名规范:1. 对象命名规范:- 使用有意义的名称:对象的名称应该能够反映该对象的用途和含义,方便用户理解和识别。
- 使用简洁明了的词汇:尽量使用简洁明了的英文单词或缩写,避免使用过长或混淆的命名。
- 避免使用特殊字符和空格:对象的名称应该只包含字母、数字和下划线,避免使用特殊字符和空格。
- 避免使用数据库关键字:不要使用数据库系统保留的关键字作为对象的名称,以免引起冲突和错误。
2. 字段命名规范:- 使用统一的命名风格:字段命名应该使用统一的命名风格,例如驼峰命名法或下划线命名法,便于阅读和编写SQL查询。
- 使用有意义的字段名:字段的名称应该能够反映该字段的含义和作用,方便用户理解和使用。
- 避免使用冗余和过长的字段名:字段的名称应该尽量简短,避免冗余和过长的命名,有助于提高数据仓库的性能和可维护性。
- 使用统一的字段前缀:可以使用统一的字段前缀,例如"dim_"表示维度表字段,"fact_"表示事实表字段等。
3. 表命名规范:- 使用有意义的表名:表名应该能够反映表的内容和含义,方便用户理解和识别。
- 使用统一的命名风格:表名可以使用统一的命名风格,例如首字母大写或下划线命名法。
- 使用复数形式的表名:表名应该使用复数形式,以区分表和字段的命名。
- 使用有意义的表前缀:可以使用有意义的表前缀,例如"dim_"表示维度表,"fact_"表示事实表等。
4. 视图命名规范:- 使用有意义的视图名:视图的名称应该能够反映视图的内容和用途,方便用户理解和使用。
数据仓库国家标准规范最新随着信息技术的快速发展,数据仓库作为企业数据管理和分析的核心工具,其标准化建设对于确保数据的一致性、安全性和可扩展性至关重要。
以下是关于数据仓库国家标准规范的最新概述:# 数据仓库国家标准规范最新引言数据仓库国家标准规范旨在为企业提供一个统一的数据管理框架,以支持数据的集成、存储、管理和分析。
这些规范有助于提升数据处理的效率,降低运营成本,并确保数据的准确性和可靠性。
1. 数据定义和分类- 明确数据的定义,包括结构化数据和非结构化数据。
- 根据业务需求和数据特性,对数据进行合理分类。
2. 数据集成- 规定数据集成的方法和流程,确保数据源的多样性和数据的一致性。
- 采用ETL(Extract, Transform, Load)等技术实现数据的抽取、清洗和加载。
3. 数据存储- 规定数据存储的格式和结构,支持关系型数据库和非关系型数据库的存储需求。
- 确保数据存储的安全性,包括数据备份和灾难恢复机制。
4. 数据质量管理- 制定数据质量标准,包括数据的准确性、完整性、一致性和时效性。
- 实施数据质量监控和评估机制,及时发现并纠正数据问题。
5. 数据安全与隐私保护- 规定数据访问控制和权限管理,确保数据的安全性。
- 遵守相关的数据保护法规,保护个人隐私和敏感信息。
6. 数据分析与报告- 规定数据分析的方法和工具,支持高级分析和数据挖掘。
- 制定报告生成的标准格式,确保报告的一致性和可读性。
7. 数据治理- 明确数据治理的职责和流程,包括数据的所有权、使用权和责任。
- 建立数据治理委员会,负责监督和指导数据仓库的建设和维护。
8. 技术标准和接口规范- 规定数据仓库的技术架构和接口标准,确保系统的兼容性和扩展性。
- 支持开放标准和API,促进数据的共享和互操作。
结语数据仓库国家标准规范的最新发展,为企业提供了一个坚实的数据管理基础。
通过遵循这些规范,企业能够更有效地利用数据资源,提升决策质量和业务竞争力。
第一章总则第一条为规范数据仓库建设管理工作,确保数据仓库建设质量,提高数据仓库应用效果,促进企业信息化建设,特制定本制度。
第二条本制度适用于企业内部数据仓库建设过程中的组织、规划、实施、维护等各个环节。
第三条数据仓库建设应遵循以下原则:1. 面向业务:以企业业务需求为导向,确保数据仓库满足企业决策分析需求。
2. 集成性:整合企业内外部数据资源,实现数据共享和交换。
3. 可扩展性:适应企业业务发展,满足未来数据增长需求。
4. 安全性:确保数据仓库运行稳定,保障数据安全。
第二章组织与管理第四条企业成立数据仓库建设领导小组,负责数据仓库建设的总体规划和决策。
第五条设立数据仓库管理部门,负责数据仓库建设过程中的日常管理工作,包括:1. 制定数据仓库建设方案;2. 组织项目实施;3. 监督项目进度;4. 确保项目质量;5. 做好数据仓库维护工作。
第六条数据仓库建设应成立项目组,负责具体实施工作,项目组由以下人员组成:1. 项目经理:负责项目整体规划、协调和监督;2. 技术负责人:负责技术选型、系统设计、开发与测试;3. 业务负责人:负责业务需求分析、数据质量监控;4. 运维负责人:负责数据仓库运维保障。
第三章数据仓库规划与设计第七条数据仓库规划应包括以下内容:1. 需求分析:明确企业业务需求,确定数据仓库主题;2. 数据模型设计:根据需求分析,设计数据仓库模型;3. 技术选型:选择合适的数据库、工具和技术;4. 系统架构设计:确定数据仓库系统架构,包括硬件、软件、网络等。
第八条数据仓库设计应遵循以下原则:1. 面向主题:围绕企业业务主题进行数据组织;2. 集成性:确保数据来源的多样性和一致性;3. 可扩展性:适应业务发展,满足未来数据增长需求;4. 易用性:便于用户查询、分析和使用。
第四章数据仓库实施与运维第九条数据仓库实施应包括以下步骤:1. 数据抽取:从源系统中抽取所需数据;2. 数据清洗:对抽取的数据进行清洗,确保数据质量;3. 数据转换:将清洗后的数据进行转换,满足数据仓库需求;4. 数据加载:将转换后的数据加载到数据仓库中;5. 系统测试:对数据仓库进行功能测试、性能测试和安全性测试。
数据仓库规范一.数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。
在各个信息模型中存储的内容如下描述:1)SRC接口层信息模型:提供业务系统数据文件的临时存储,数据稽核,数据质量保证,屏蔽对业务系统的干扰,对于主动数据采集方式,以文件的方式描述系统与各个专业子系统之间数据接口的内容、格式等信息。
与该模型对应的数据是各个专业系统按照该模型的定义传送来的数据文件。
STAGE是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。
与生产系统数据的唯一不同是,STAGE层数据具有时间戳。
STAGE层存在的意义在于两点:(1)对数据源作统一的一次性获取,数据仓库中其他部分都依赖于STAGE层的数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力;(2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。
2)ODS/DWD层(对应原模型的ODS和DW层)信息模型:简称DWD层是数据仓库的细节数据层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中。
为企业进行经营数据的分析,系统将数据按分析的主题的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。
3) MID 信息模型:轻度综合层是新模型增加的数据仓库中DWD层和DM层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计。
轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并为满足一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。
4) DM信息模型:为专题经营分析服务,系统将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源。
其信息主要来源于DWD 和MID层汇总,反映实时的经营状况,时间维度为天。
而历史经营状况的分析,时间维度一般为月,同时也具有季度、年这样的维度。
5) MDW元数据信息模型:描述数据及其环境的数据,即是对数据资源的描述,是信息共享和交换的基础和前提,用于描述数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征。
一般来说,它有两方面的用途。
首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。
其次,元数据能支持系统对数据的管理和维护, 元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
1.2 各层物理表前缀在构建数据仓库时,至少应该具备以下物理几层:1.3数据库对象命名规范所有数据库对象名称均使用26个大写英文字母、下划线或数字来命名,并不得以下划线开头。
1.3.1 用户用户名和表空间的名称应该采用同系统应用相似的英文字符或字符缩写,表空间所对应的一个或多个物理文件名也应有相关性。
用户创建的数据索引最好和数据文件分开存放在不同表空间,以减少数据争用和提高响应速度。
以上从逻辑上分出的各数据层应当在数据库中用户实现其分离,规定如下:1.3.2 数据库表空间数据库表空间命名,原则上以数据仓库的基本分层结构为准,以TBS_作前缀,为避免单个表空间数据量过大,带来管理上的不便或者引起I/O瓶颈,对于STAG和ODS/DWD数据量比较大的层,可采用多个表空间存储数据,单表空间容量不要太大,以便于业务划分和存储管理为原则,建议单表空间容量控制在800G之内,表空间数据文件建议值为4G。
➢数据表空间表名长度不能超过28个字符,表名中含有单词全部采用单数形式,单词选择能够概括表内容的一个或多个英文单词,多个单词间使用下划线分割,单词如果过长可以使用缩写形式。
命名规则如下:1.3.4 数据库分区表规范对于海量数据表要考虑设计为分区表。
1.三户日资料保存一个月,按日期主分区按地区子分区,2.主分区命名为:P两位日期编码(如P01),3.子分区命名为:P两位日期编码_SP地区编码(如 P01_SP188),并且必须加上月份字段否则没法区分是那月的资料。
2.三户月资料按帐期主分区按地区子分区,主分区命名为:P帐期编码(如P200701),子分区命名为:P帐期编码_SP地区编码(如 P200701_SP188)。
3.视图级日数据表按帐期和地区主分区按日期子分区,主分区命名为:P帐期编码_地区编码(如P200701_188),子分区命名为:P帐期编码_地区编码_SP两位日期编码(如 P200701_188_SP01)。
4.视图级月数据表按帐期主分区按地区子分区,主分区命名为:P帐期编码 (如P200701),子分区命名为:P帐期编码_SP地区编码(如 P200701_SP188)。
5.主体域级数据按帐期主分区按日期子分区,主分区格式为:P帐期(如 P200701),子分区格式为:P帐期_SP两位日期编码(如 P200701_SP01)。
老杨让把主题域建表分区规范改为:主体域级数据按帐期和地区主分区按日期子分区,主分区命名为:P帐期编码_地区编码(如P200701_188),子分区命名为:P帐期编码_地区编码_SP两位日期编码(如P200701_188_SP01)1.3.5 数据库表索引命名以IDX+表名+一位流水号.例:IDX_ODS_BUSI_USER_1;如果表名过长可以使用缩写形式1.3.6 数据库表键值主键命名以PK+表名+一位流水号(1~9).例: PK_DEPT_1 ;如果表名过长可以使用缩写形式外键命名以FK+表名+一位流水号(1~9).例: FK_DEPT_1;如果表名过长可以使用缩写形式1.3.7 数据库字段命名规范数据库字段名中含有单词选择能够概括表内容的一个或多个英文单词,多个单词间使用下划线分割,单词如果过长可以使用缩写形式。
一些基本字段名示例:用户id USER_NO用户数USER_COUNTS话单数CDR_NUM通话时长CALL_DURATION计费次数MOBILE_TIMES每个字段必须有注释,并且在生成SQL脚本时一并生成,创建表时必须创建注释。
保持字段名和类型的一致性,同一字段名在不同表中必需保持同一数据类型。
数据类型长度在定义时应稍大于目前标准的长度,用空间来换取将来变更带来的不便。
1.3.8 数据库存储过程规范(1)存储过程命名规则:P_目标表。
(2)存储过程要求有注释,注释内容为:列出创建人,创建用途,创建时间。
(3)存储过程日志规范:每一存储过程均应记录执行存储过程的日志信息。
必须调用专用写日志的存储过程,同时有exception时的处理机制。
(4)存储过程修改规范修改时应注释清楚修改人,修改日期,修改原因和修改内容。
1.3.9 数据库函数命名规范函数命名规则F_功能,比如F_TRAN_AREA。
1.3.10 据库触发器的命名规范触发器以TR作为前缀,触发器名为相应的表的别名加上后缀,INSERT触发器加‘_INSERT’,Delete触发器加‘_DELETE’,Update触发器加‘_UPDATE’,如:TR_CUST_INSERT。
1.3.11 序列命名规范序列以S作为前缀,序列命名规则为S_字段别名。
二.实施流程规范(完善中。
)(1)规划对实施计划的规划.(2)设计设计实施方案(包括统一模型的修改)。
(3)实施具体实施过程。
(4)测试对实施结果测试。
(5)反馈对实施过程中收集到的相关信息(系统需求、实施中遇到的问题和测试结果等)反馈到相关部门和人员。
三.数据库安全管理规范为了规范管理,做好经营分析数据仓库的安全管理工作,实现不同的责任人不同的层次,将用户权限尽可能的管理起来同时又不影响正常工作,需要对数据库进行安全管理。
数据库安全管理从以下几个方面来进行:3.1. 用户组管理对用户进行分类,目前经营分析应用用户可以分为如下几部分➢前台程序开发人员➢数据库开发人员➢数据库管理员➢外部使用人员数据库管理人员由项目经理和数据经理来掌控,一般情况下不得使用DBA角色登陆数据库。
数据人员使用数据库开发人员角色登陆,每个数据人员一个用户,归属数据库开发人员组。
前台程序开发人员,由界面开发人员使用,可以查看所有的表,但是无法进行DDL操作。
外部使用人员,主要是面向联通用户和临时用户3.2. 用户权限设定对不同的用户组,在不影响正常工作的情况下,对用户组及用户权限的设定原则为权限越小越好。
3.3. 用户密码管理对用户密码进行限制,必须由2位以上数字,2位以上字符,2位以上特殊字符组成不允许用户密码和用户名同名不允许用户密码和用户名相似3.4. 用户资源管理除了系统使用的用户(SRC/ODS/DW)等外对用户使用的系统资源进行限定限定用户使用表空间限定用户使用临时表空间限定用户使用回滚断限定用户使用内存3.5. IP限定对于普通用户,实行IP和用户名绑定的策略对于外部开放用户,要进行IP申请,由数据经理或者项目经理审核通过后予以开通3.6. 数据库监控数据库监控,主要对以下几个方面进行监控:3.6.1. 数据库空间占用率select a.tablespace_name,free,total,round(((b.total-a.free)/b.total),2) 剩余占比from ( select tablespace_name,round(sum(bytes)/power(1024,3),2) freefrom dba_free_spacegroup by tablespace_name) a,( select tablespace_name,round(sum(bytes)/power(1024,3),2) totalfrom dba_data_filesgroup by tablespace_name) bwhere a.tablespace_name = b.tablespace_name;3.6.2.会话情况select *from v$session a,v$sql bwhere a.sql_address = b.address;3.6.3. aix操作系统中杀掉一些进程的脚本select 'kill -9 '|| p.spid||'',s.sidfrom v$session s,v$process pwhere s.paddr = p.addrand ername is not nulland s.sid = 543.6.4. 查看JOBSELECT *FROM User_Jobs3.6.5. 分区操作查看分区子分区SELECT *FROM ALL_TAB_PARTITIONSWHERE TABLE_NAME = 'DW_V_USER_MOBILEUSER';SELECT *FROM ALL_TAB_SUBPARTITIONSWHERE TABLE_NAME = 'DW_V_USER_MOBILEUSER';增加分区格式:alter table 表名add partition分区名values less than (值)如:alter table dm_reinnet_user add partition p200801 values less than ('200802') alter table dm_reinnet_user add subpartition p200801_SP001 values ('002') 删除分区格式:alter table 表名drop partition partition 分区名如:alter table dm_reinnet_user drop partition 200801alter table dm_reinnet_user drop subpartition p200801_SP0013.6.6. 数据库的无效索引查看目前数据库中的索引情况3.6.7. 数据库的无效对象查看目前数据库的对象有效性,主要针对脚本3.6.8. 数据库表分区的是否到达限额查看是否有表分区不满足需求的情况,这项监控根据具体需求来3.6.9. 数据库内存占用情况查看目前数据库内存的占用情况3.6.10. DDL语句的监控查看各种DDL语句的使用情况,记录操作者的IP,时间,用户名等情况3.6.11. 特定DML语句的监控对某些特定的重要的数据库对象,记录DML操作的历史3.7. 数据库审计3.7.1. 语句审计(Statement Auditing)对预先指定的某些SQL语句进行审计。