大数据治理步骤(为业务提供持续的、可度量的价值)
- 格式:docx
- 大小:6.66 MB
- 文档页数:92
数据治理流程数据治理是指组织对数据进行管理、监控和保护的过程。
在当今信息爆炸的时代,数据治理变得尤为重要,因为组织需要有效地管理和利用海量的数据。
数据治理流程是指数据治理的一系列操作步骤和规范,下面将介绍数据治理流程的一般步骤和注意事项。
首先,数据治理流程的第一步是明确数据治理的目标和范围。
在这一阶段,组织需要确定数据治理的具体目的,例如提高数据质量、降低数据风险、提升数据价值等。
同时,还需要确定数据治理的范围,包括哪些数据需要治理、涉及到哪些业务部门和系统等。
第二步是制定数据治理策略和规范。
在这一阶段,组织需要制定数据治理的具体策略和规范,包括数据采集、存储、处理、共享、安全等方面的规定。
这些规范需要符合相关的法律法规和行业标准,同时也需要考虑组织内部的实际情况和需求。
第三步是建立数据治理的组织结构和责任制度。
在这一阶段,组织需要建立数据治理的组织结构,明确数据治理的组织架构、人员职责和权限分配。
这样可以确保数据治理的执行和监督,保证数据治理的有效性和可持续性。
第四步是实施数据治理的具体措施。
在这一阶段,组织需要根据前面制定的策略和规范,实施具体的数据治理措施,包括数据清洗、数据标准化、数据分类、数据备份等。
同时,还需要建立数据监控和评估机制,及时发现和解决数据治理中的问题和风险。
第五步是持续改进数据治理的流程和机制。
在这一阶段,组织需要不断地评估和改进数据治理的流程和机制,根据实际情况和需求进行调整和优化。
这样可以确保数据治理始终与组织的发展和变化保持一致,保证数据治理的有效性和适应性。
综上所述,数据治理流程是一个系统性的过程,需要组织全员的参与和配合。
只有建立科学合理的数据治理流程,才能有效地管理和保护组织的数据资产,提升数据的价值和意义。
希望以上内容对数据治理流程有所帮助,谢谢阅读。
大数据治理涉及大数据生命周期的全过程,主要包括:
1.大数据采集:从各类数据源采集结构化、半结构化和非结构化数据,构建原始数据池。
这需要对数据源进行分析与管理,并设计高效的数据采集策略和方案。
2.大数据存储:将采集得到的海量数据进行存储、管理和维护。
需要选择合适的存储介质和存储方式,如HDFS、数据库、对象存储等。
存储设计需要考虑数据特征、访问模式和成本控制。
3.大数据清洗:对存储的数据进行清洗、规范和整理。
如去重、脱敏、标准化、补全等。
实现从脏数据到干净数据的转变。
这直接关系到后续处理和分析的效果。
4.大数据整合:将分散、异构的数据进行关联、匹配和汇聚,形成完整和统一的信息视图,便于进一步的处理和分析应用。
整合需要对多源数据的关联关系和一致性进行建模和管理。
5.大数据管理:实现对大数据资产的全生命周期管理。
包括数据源管理、元数据管理、数据安全管理、数据质量管理、数据架构管理等。
这是大数据治理的核心,关系到数据资产的价值创造和风险控制。
6.大数据分析:基于大数据资产开展各类分析应用,产出分析结论和洞察,为企业决策提供依据。
分析需要对数据建模,选择和应用合适的分析算法模型和工具。
7.大数据应用:将分析结果融入业务应用,产生实际价值。
大数据应用需对业务流程和模式进行再造,这也推动着企业数字化转
型的进行。
8. 大数据监控:对大数据生命周期各阶段的执行情况、数据资产状况和风险状况进行监测,发现问题并实现优化。
监控需要建立大数据资产目录和各项指标体系。
大数据治理系列,第一部分:大数据治理统一流程模型概述和明确元数据管理策略大数据治理的核心是为业务提供持续的、可度量的价值在各行各业中,随处可见因数量、速度、种类和准确性结合带来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日程。
大数据治理的核心是为业务提供持续的、可度量的价值。
本文主要介绍大数据治理的基本概念和大数据治理统一流程参考模型的前两步:“明确元数据管理策略”和“元数据集成体系结构”。
大数据治理概述(狭义)大数据是指无法使用传统流程或工具在合理的时间和成本内处理或分析的信息,这些信息将用来帮助企业更智慧地经营和决策。
而广义的大数据更是指企业需要处理的海量数据,包括传统数据以及狭义的大数据。
(广义)大数据可以分为五个类型:Web和社交媒体数据、机器对机器(M2M )数据、海量交易数据、生物计量学数据和人工生成的数据。
•Web和社交媒体数据:比如各种微博、博客、社交网站、购物网站中的数据和内容。
*M2M数据:也就是机器对机器的数据,比如RFID数据、GPS数据、智能仪表、监控记录数据以及其他各种传感器、监控器的数据。
•海量交易数据:是各种海量的交易记录以及交易相关的半结构化和非结构化数据,比如电信行业的CDR、3G上网记录等,金融行业的网上交易记录、corebanking记录、理财记录等,保险行业的各种理赔等。
•生物计量学数据:是指和人体识别相关的生物识别信息,如指纹、DNA、虹膜、视网膜、人脸、声音模式、笔迹等。
•人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、扫描件、录音和电子病历等。
在各行各业中,随处可见因数量、速度、种类和准确性结合带来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日程。
在传统系统中,数据需要先存储到关系型数据库/数据仓库后再进行各种查询和分析,这些数据我们称之为静态数据。
而在大数据时代,除了静态数据以外,还有很多数据对实时性要求非常高,需要在采集数据时就进行相应的处理,处理结果存入到关系型数据库/数据仓库、MPP数据库、Hadoop平台、各种NoSQL数据库等,这些数据我们称之为动态数据。
大数据分析师如何进行数据分析的数据治理在当今信息技术日益发达的背景下,大数据分析成为企业决策和创新的重要支撑。
然而,大数据的高速增长也带来了数据管理和治理的挑战。
为了保证数据分析的准确性和可靠性,大数据分析师需要进行数据治理,本文将介绍大数据分析师如何进行数据分析的数据治理。
一、数据分类和整理数据治理的第一步是对数据进行分类和整理。
大数据分析师需要根据业务需求和数据来源对数据进行分类,例如,将客户数据、市场数据和销售数据进行分类。
然后,对每个类别的数据进行整理,包括数据清洗、去重、格式化和标准化等操作。
通过数据分类和整理,大数据分析师可以确保数据的一致性和完整性,为后续的数据分析提供准确的基础。
二、数据质量管理数据质量是数据分析的关键因素之一,而数据治理的核心目标之一就是确保数据质量。
大数据分析师需要对数据进行质量管理,包括数据验证、数据补全和数据纠错等操作。
数据验证可以通过比对数据源和目的地数据,检查数据的准确性和一致性。
数据补全可以通过数据清洗、数据挖掘和数据收集等手段,将缺失的数据进行补充。
数据纠错可以通过数据清洗和异常值检测等方法,发现和修复数据中的错误和异常。
通过数据质量管理,大数据分析师可以确保所分析的数据是可信的和有效的。
三、数据安全保障大数据涉及的数据量庞大且具有价值,因此数据安全成为数据治理的重要环节。
大数据分析师需要制定和执行数据安全策略,防止数据被恶意获取和篡改。
例如,加密敏感数据、设定访问权限、建立防火墙、定期备份数据等。
此外,大数据分析师还应关注数据传输的安全性,确保数据在传输过程中不被窃取、修改或篡改。
通过数据安全保障,大数据分析师可以保护企业重要数据的安全和隐私。
四、数据生命周期管理数据生命周期管理是指对数据从生成到销毁的整个过程进行管理。
大数据分析师需要对数据的生命周期进行规划和管理,包括数据的采集、存储、分析和销毁等阶段。
数据采集阶段需要明确数据的来源和采集方式,保证数据的完整性和准确性。
大数据分析师如何进行数据治理和数据质量管理随着大数据时代的到来,数据的重要性在各行各业中变得愈发明显。
大数据分析师作为企业中重要的角色之一,负责管理和分析大量的数据资源。
然而,这些数据如果没有经过有效的治理和质量管理,可能会给企业带来一系列的问题和挑战。
本文将探讨大数据分析师如何进行数据治理和数据质量管理,以帮助他们更好地应对这些挑战。
一、数据治理数据治理是指通过制定和执行策略、规范和流程,确保数据资源的有效管理和控制。
以下是大数据分析师进行数据治理的几个关键步骤:1.明确数据治理目标:首先,大数据分析师需要明确数据治理的目标。
例如,提高数据质量、确保数据安全、促进数据的可用性等。
只有明确了目标,才能有针对性地制定后续的策略和措施。
2.数据识别和分类:大数据分析师需要对企业内部的数据进行全面的识别和分类。
这包括了解数据的来源、格式、内容以及数据的价值和敏感程度等。
通过对数据的分类,可以更好地确定数据的管理和处理方式。
3.建立数据治理策略和规范:根据数据治理目标和数据分类结果,大数据分析师需要制定相应的数据治理策略和规范。
这些策略和规范应包括数据存储、数据访问控制、数据备份与恢复等方面的要求,以确保数据的完整性、一致性和可靠性。
4.确保数据合规性:在数据治理过程中,大数据分析师需要特别关注数据的合规性。
这包括确保数据的收集、存储和处理符合相关的法律法规和行业标准,以避免企业可能面临的法律风险和信任危机。
二、数据质量管理数据质量管理是指通过一系列的措施和技术来提高数据的准确性、完整性和可信度。
以下是大数据分析师进行数据质量管理的几个重要步骤:1.数据清洗:数据清洗是数据质量管理的第一步,它包括对数据进行去重、修复和整理等操作。
这可以帮助大数据分析师消除数据中存在的错误、不一致和重复的问题,以保证后续的分析工作的准确性。
2.数据标准化:大数据分析师需要对数据进行标准化处理,以确保不同数据源之间的一致性和可比性。
数据治理的六个步骤数据治理是指在一个组织中制定和执行数据管理策略以确保数据质量、安全性和合规性的过程。
这个过程可以按照以下六个步骤进行:1.制定数据治理战略数据治理战略是整个数据治理过程的基础。
在这一步骤中,组织需要明确其数据治理的愿景和目标,并将其与业务目标和战略相对应。
在制定数据治理战略时,还需要确定数据治理团队的组成以及各自的责任和角色。
2.识别和分类数据在这一步骤中,组织需要识别并分类其重要的数据资产。
这可以通过对数据进行清晰的定位和分析来实现。
数据定位包括确定数据存储的位置、访问方法以及数据标准。
数据分析可以帮助组织了解其数据的特点、价值和健康状况。
3.建立数据质量管理措施数据质量是数据治理的核心要素之一、在这一步骤中,组织应该建立一套数据质量管理措施,以确保数据的准确性、完整性、一致性和及时性。
这可以包括数据清洗、数据验证和数据监控等措施。
4.实施数据安全和隐私保护措施数据安全和隐私保护是数据治理中不可或缺的一环。
组织需要确保其数据受到适当的安全保护措施的支持,并且符合相关的数据隐私法规和标准。
这包括对数据进行分类和标记、数据访问控制、数据加密和数据备份等措施。
5.建立数据治理流程和机制为了确保数据治理的连续性和有效性,组织需要建立一套数据治理流程和机制。
这可以包括数据所有权和责任的明确分配、数据治理的决策机制和流程、数据治理指标和绩效评估的监控措施等。
6.进行数据治理的培训和宣传数据治理需要组织内部的全员参与和支持。
因此,组织需要对员工进行相关的培训,提高其对数据治理的认识和理解。
此外,组织还应该利用各种宣传渠道,向内部员工和外部利益相关者传递数据治理的信息和重要性。
综上所述,数据治理的六个步骤包括制定数据治理战略、识别和分类数据、建立数据质量管理措施、实施数据安全和隐私保护措施、建立数据治理流程和机制以及进行数据治理的培训和宣传。
这些步骤可以帮助组织有效地管理和保护其数据资产,从而促进组织的业务发展和竞争优势。
数据治理步骤数据治理步骤数据治理是企业在数字化转型过程中必不可少的一个环节,其强调的是统一管理、共享利用、加强监管和完善保障的全面数据管理体系。
数据治理可以让企业更好地掌握数据,减少数据管理上的错误和瑕疵,并能更好地实现数据分析和决策。
下文将详细介绍数据治理步骤,帮助企业建立起完善的数据治理体系,提升企业竞争力。
一、制定数据治理策略数据治理的第一步便是制定数据治理策略。
企业应该在该策略中明确数据治理的目标和实现手段,制定出能够贯穿其整个数据治理的框架、规范、流程等。
在制定策略时,必须要考虑好数据的规范、管理、共享、权限、风险控制等方面,还需要根据企业自身的业务情况,包括行业特点、法律法规、企业文化和IT 基础设施等因素制定出符合实际情况的数据治理策略。
二、确定数据治理组织架构数据治理组织架构的设计是数据治理实施的基础,组织架构必须坚持统一、规范、明确的原则。
企业需要针对涉及到的数据领域,建立起不同层级的治理团队,以确保各个领域的数据治理标准实现一致性。
数据治理团队的组成应该包括数据治理部门负责人、数据管理员、数据安全专家以及相关业务人员等。
三、建立数据分类标准为了让企业的数据治理更加规范化、有序化,必须要建立起数据的分类标准。
在设定分类标准时,需要根据数据的价值、敏感程度、权责利等重要标准划分,确保数据按照应有的标准得到归类;同时也要设定好管理的流程和责任,确保各个阶段的数据管理和使用严格按照标准执行。
四、设定数据共享规则数据共享是数据治理的重要环节,通过数据共享可以让不同部门间、不同组织间共享数据,从而更好地发挥企业数据的价值。
在确立共享规则时,要考虑到合法合规方面的要求,明确共享数据的权限、目的、范围、频率等需求。
共享数据活动时,要严格控制共享数据的范围与权限,并确保共享数据的安全性与保密性。
五、制定数据质量管理规范数据的质量直接关系到数据的价值,高质量的数据能够改善数据分析和决策的精准度和有效性。
数据治理如何建立有效的数据治理策略和流程有效的数据治理策略和流程在当今信息时代的企业和组织中起着至关重要的作用。
随着数据的快速增长和复杂性的增加,建立一套完善的数据治理体系势在必行。
本文将探讨如何建立有效的数据治理策略和流程,以确保数据的质量、安全和可靠性。
一、确定数据治理目标数据治理的首要任务是明确数据治理的目标。
不同的组织有不同的目标,例如提高数据质量、确保数据隐私、优化数据利用等。
明确目标可以帮助组织在数据治理过程中保持一致性和连贯性。
二、明确数据治理责任与角色为了保证数据治理的顺利进行,需要明确数据治理的责任与角色。
建立数据治理委员会,指定专门的数据治理人员,并为其提供培训和支持。
数据治理责任人应负责制定数据治理策略和流程,并协调数据治理的实施。
三、制定数据分类与标准数据分类是数据治理的基础工作。
组织应该根据数据的性质、用途和敏感性,对数据进行分类,并制定相应的数据标准。
数据标准包括数据定义、数据格式、数据质量要求等,有助于统一数据的命名和使用规范。
四、建立数据安全与隐私保护机制数据安全和隐私保护是数据治理的核心内容之一。
组织应制定相应的数据安全策略和隐私保护措施,包括数据备份与恢复、访问权限管理、数据加密等,并建立监控机制来检测和应对数据安全风险。
五、实施数据质量管理数据质量是数据治理的关键指标之一。
建立一套完整的数据质量管理流程,包括数据采集、数据清洗、数据整合、数据验证等环节。
采用数据质量度量指标来评估数据的准确性、完整性和一致性,并及时修复数据质量问题。
六、建立数据访问与共享规则数据的访问与共享是数据治理的另一个重要环节。
建立数据访问与共享规则,明确数据的访问权限管理机制、共享政策和程序。
通过技术手段来实现数据访问与共享的限制和控制,确保敏感数据的安全性和合规性。
七、制定数据治理培训与沟通计划为了确保数据治理的有效执行,组织应该制定数据治理培训与沟通计划。
开展数据治理培训,提高相关人员的数据治理意识和技能;定期组织数据治理沟通会议,分享数据治理的最佳实践和经验,促进组织内外的信息共享与交流。
企业数据治理步骤企业数据治理是指通过规范化、集中管理和控制企业数据以确保其质量、准确性和可靠性的一系列步骤。
在当今数字化时代,数据被广泛应用于企业的决策、运营和创新中,因此数据治理对于企业的成功至关重要。
下面是企业数据治理的六个步骤。
第一步:制定数据治理策略制定数据治理策略是企业数据治理的第一步。
在这一步骤中,企业需要明确数据治理的目标和愿景,并制定相应的策略和计划。
这些策略和计划应该涵盖数据的所有方面,包括数据质量、数据安全、数据隐私等。
同时,企业还需要确定数据治理的组织结构和责任分工,明确数据治理的各项工作的责任人和流程。
第二步:建立数据识别和分类机制建立数据识别和分类机制是企业数据治理的重要一环。
企业可以通过识别和分类数据,将数据分为不同的类别和级别,并为每个类别和级别制定相应的管理措施。
例如,企业可以将核心业务数据和敏感数据进行分类,并设置专门的权限和访问控制,确保这些数据的安全和保密。
第三步:确保数据质量数据质量是数据治理的核心内容之一、数据质量包括数据的准确性、完整性、一致性、及时性等方面。
为了确保数据质量,企业需要建立数据质量管理制度和相应的检测机制。
这些机制可以包括数据清洗、数据验证、数据监控等,以及对数据质量进行评估和报告。
第四步:建立数据安全和隐私保护机制数据安全和隐私保护是企业数据治理的另一个重点。
在这一步骤中,企业需要制定数据安全和隐私保护策略,并建立相应的安全控制和保护机制。
这些机制可以包括数据加密、访问控制、用户认证、审计等,以确保企业数据的机密性、完整性和可用性。
第五步:制定数据使用和共享规范制定数据使用和共享规范是企业数据治理的关键一环。
企业需要明确数据的使用规定和流程,确保数据的合规性和合法性。
此外,企业还需要建立数据共享的机制和规范,以推动数据的跨部门和跨组织共享,促进数据的价值最大化。
第六步:持续监测和改进持续监测和改进是企业数据治理的最后一步。
企业需要建立持续监测和改进机制,通过数据监测、数据分析等手段,及时发现和解决数据治理中的问题。
数据治理的六个步骤数据治理是一种全面的管理框架,用于规划、组织和控制组织中的数据资产。
它包含一系列步骤,以确保数据的质量、可靠性和可用性。
以下是数据治理的六个主要步骤:第一步:数据治理目标设定在开始数据治理的过程之前,组织需要明确和设定数据治理的目标。
这包括确定所需的数据质量标准、数据使用政策和数据保护要求。
通过设定明确的目标,组织可以有方向地推动数据治理活动。
第二步:数据地图和分类第三步:数据质量评估数据质量评估是通过使用各种技术和工具对数据进行评估和分析的过程。
这包括数据完整性、一致性、准确性和及时性的评估。
通过数据质量评估,组织可以了解数据的质量状况,并制定改进数据质量的计划。
第四步:数据访问和使用控制数据访问和使用控制是确保只有授权人员能够访问和使用数据的过程。
这包括访问控制策略的制定和实施,以及数据使用政策的定义和执行。
通过数据访问和使用控制,组织可以保护数据的机密性和完整性。
第五步:数据报告和监控数据报告和监控是对数据治理活动进行跟踪和评估的过程。
这包括制定数据报告标准和指标,并定期监控和评估数据的使用情况和质量状况。
通过数据报告和监控,组织可以及时发现和纠正数据治理问题。
第六步:数据治理的持续改进数据治理是一个长期的过程,需要不断改进和优化。
这包括根据评估结果和反馈进行调整和改进数据治理活动。
组织应该建立一个持续改进的机制,以确保数据治理的有效性和可持续性。
总结起来,数据治理的六个步骤包括目标设定、数据地图和分类、数据质量评估、数据访问和使用控制、数据报告和监控,以及数据治理的持续改进。
通过执行这些步骤,组织可以有效地管理和控制数据资产,提高数据的质量和可用性,从而提升组织的决策能力和业务绩效。
大数据治理为业务提供持续的、可度量的价值目录大数据治理——为业务提供持续的、可度量的价值.. 1 概述 (3)大数据治理系列 (3)第一部分:大数据治理统一流程模型概述和明确元数据管理策略 (3)第二部分:元数据集成体系结构 (15)第三部分:实施元数据管理 (24)第四部分:大数据治理统一流程参考模型的第四步到第九步 (37)第五部分:定义度量值和主数据监管 (52)第六部分:大数据监管和信息单一视图监管 (65)第七部分:分析监管、安全与隐私管理和信息生命周期监管 (78)概述面对我们身边每时每刻迅速增长的庞大数据,因为其数量大、速度快、种类多和准确性的特征,如何更好地利用大数据创造出有意义的价值,一直是我们探索的重要话题。
而在这之前,就需要用科学正确的方法策略对大数据进行治理。
大数据治理是指制定与大数据有关的数据优化、隐私保护与数据变现的政策,是传统信息治理的延续和扩展,也是大数据分析的基础,还是连接大数据科学和应用的桥梁,因此大数据治理是大数据再创高峰的“必修课”。
下面我们将与您分享新鲜出炉的大数据治理方案。
大数据治理系列本系列共分为七个部分,围绕大数据治理统一流程参考模型,并结合实际业务问题和IBM相应的产品解决方案展开叙述。
第一部分:大数据治理统一流程模型概述和明确元数据管理策略为了更好地帮助企业进行大数据治理,笔者在IBM数据治理统一流程模型基础上结合在电信、金融、政府等行业进行大数据治理的经验,整理出了大数据治理统一流程参考模型。
本文主要介绍了大数据治理的基本概念,以及结合图文并茂的方式讲解了大数据治理统一流程参考模型的前两步:“明确元数据管理策略”和“元数据集成体系结构”内容。
1、大数据治理概述(狭义)大数据是指无法使用传统流程或工具在合理的时间和成本内处理或分析的信息,这些信息将用来帮助企业更智慧地经营和决策。
而广义的大数据更是指企业需要处理的海量数据,包括传统数据以及狭义的大数据。
(广义)大数据可以分为五个类型:Web和社交媒体数据、机器对机器(M2M)数据、海量交易数据、生物计量学数据和人工生成的数据。
Web和社交媒体数据:比如各种微博、博客、社交网站、购物网站中的数据和内容。
M2M数据:也就是机器对机器的数据,比如RFID数据、GPS数据、智能仪表、监控记录数据以及其他各种传感器、监控器的数据。
海量交易数据:是各种海量的交易记录以及交易相关的半结构化和非结构化数据,比如电信行业的CDR、3G上网记录等,金融行业的网上交易记录、corebanking记录、理财记录等,保险行业的各种理赔等。
生物计量学数据:是指和人体识别相关的生物识别信息,如指纹、DNA、虹膜、视网膜、人脸、声音模式、笔迹等。
人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、扫描件、录音和电子病历等。
在各行各业中,随处可见因数量、速度、种类和准确性结合带来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日程。
在传统系统中,数据需要先存储到关系型数据库/数据仓库后再进行各种查询和分析,这些数据我们称之为静态数据。
而在大数据时代,除了静态数据以外,还有很多数据对实时性要求非常高,需要在采集数据时就进行相应的处理,处理结果存入到关系型数据库/数据仓库、MPP数据库、Hadoop 平台、各种NoSQL数据库等,这些数据我们称之为动态数据。
比如高铁机车的关键零部件上装有成百上千的传感器,每时每刻都在生成设备状态信息,企业需要实时收集这些数据并进行分析,当发现设备可能出现问题时及时告警。
再比如在电信行业,基于用户通信行为的精准营销、位置营销等,都会实时的采集用户数据并根据业务模型进行相应的营销活动。
大数据治理的核心是为业务提供持续的、可度量的价值。
大数据治理人员需要定期与企业高层管理人员进行沟通,保证大数据治理计划可以持续获得支持和帮助。
相信随着时间的推移,大数据将成为主流,企业可以从海量的数据中获得更多的价值,而大数据治理的范围和严格程度也将逐步上升。
为了更好地帮助企业进行大数据治理,笔者在IBM数据治理统一流程模型基础上结合在电信、金融、政府等行业进行大数据治理的经验,整理了大数据治理统一流程参考模型,整个参考模型分为必选步骤和可选步骤两部分。
2、大数据治理统一流程参考模型如图1所示,大数据治理统一流程参考模型必要步骤分为两个方向:一条子线是在制定元数据管理策略和确立体系结构的基础上实施全面的元数据管理,另一条子线是在定义业务问题、执行成熟度评估的基础上定义数据治理路线图以及定义数值治理相关的度量值。
在11个必要步骤的基础上,图1大数据治理统一流程参考模型企业可以在7个可选步骤中选择一个或多个途径进行特定领域的数据治理,可选步骤为:主数据监管、(狭义)大数据监管、信息单一视图监管、运营分析监管、预测分析监管、管理安全与隐私以及监管信息生命周期。
企业需要定期对大数据治理统一流程进行度量并将结果发送给主管级发起人。
第一步:明确元数据管理策略在最开始的时候,元数据(MetaData)是指描述数据的数据,通常由信息结构的描述组成,随着技术的发展元数据内涵有了非常大的扩展,比如UML模型、数据交易规则、用Java,.NET,C++等编写的APIs、业务流程和工作流模型、产品配置描述和调优参数以及各种业务规则、术语和定义等[1]。
在大数据时代,元数据还应该包括对各种新数据类型的描述,如对位置、名字、用户点击次数、音频、视频、图片、各种无线感知设备数据和各种监控设备数据等的描述等。
元数据通常分为业务元数据、技术元数据和操作元数据等。
业务元数据主要包括业务规则、定义、术语、术语表、运算法则和系统使用业务语言等,主要使用者是业务用户。
技术元数据主要用来定义信息供应链(Information Supply Chain,ISC)各类组成部分元数据结构,具体包括各个系统表和字段结构、属性、出处、依赖性等,以及存储过程、函数、序列等各种对象。
操作元数据是指应用程序运行信息,比如其频率、记录数以及各个组件的分析和其它统计信息等。
从整个企业层面来说,各种工具软件和应用程序越来越复杂,相互依存度逐年增加,相应的追踪整个信息供应链各组件之间数据流动、了解数据元素含义和上下文的需求越来越强烈。
在从应用议程往信息议程的转变过程中,元数据管理也逐渐从局部存储和管理转向共享。
从总量上来看,整个企业的元数据越来越多,光现有的数据模型中就包含了成千上万的表,同时还有更多的模型等着上线,同时随着大数据时代的来临,企业需要处理的数据类型越来越多。
为了企业更高效地运转,企业需要明确元数据管理策略和元数据集成体系结构,依托成熟的方法论和工具实现元数据管理,并有步骤的提升其元数据管理成熟度。
为了实现大数据治理,构建智慧的分析洞察,企业需要实现贯穿整个企业的元数据集成,建立完整且一致的元数据管理策略,该策略不仅仅针对某个数据仓库项目、业务分析项目、某个大数据项目或某个应用单独制定一个管理策略,而是针对整个企业构建完整的管理策略。
元数据管理策略也不是技术标准或某个软件工具可以取代的,无论软件工具功能多强大都不能完全替代一个完整一致的元数据管理策略,反而在定义元数据集成体系结构以及选购元数据管理工具之前需要定义元数据管理策略。
元数据管理策略需要明确企业元数据管理的愿景、目标、需求、约束和策略等,依据企业自身当前以及未来的需要确定要实现的元数据管理成熟度以及实现目标成熟度的路线图,完成基础本体、领域本体、任务本体和应用本体的构建,确定元数据管理的安全策略、版本控制、元数据订阅推送等。
企业需要对业务术语、技术术语中的敏感数据进行标记和分类,制定相应的数据隐私保护政策,确保企业在隐私保护方面符合当地隐私方面的法律法规,如果企业有跨国数据交换、元数据交换的需求,也要遵循涉及国家的法律法规要求。
企业需要保证每个元数据元素在信息供应链中每个组件中语义上保持一致,也就是语义等效(semantic equivalence)。
语义等效可以强也可以弱,在一个元数据集成方案中,语义等效(平均)越强则整个方案的效率越高。
语义等效的强弱程度直接影响元数据的共享和重用。
本体(人工智能和计算机科学)本体(Ontology)源自哲学本体论,而哲学本体论则是源自哲学中“形而上学”分支。
本体有时也被翻译成本体论,在人工智能和计算机科学领域本体最早源于上世纪70年代中期,随着人工智能的发展人们发现知识的获取是构建强大人工智能系统的关键,于是开始将新的本体创建为计算机模型从而实现特定类型的自动化推理。
之后到了上世纪80年代,人工智能领域开始使用本体表示模型化时间的一种理论以及知识系统的一种组件,认为本体(人工智能)是一种应用哲学。
最早的本体(人工智能和计算机科学)定义是Neches等人在1991给出的:“一个本体定义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和关系以及定义词汇外延的规则”。
而第一次被业界广泛接受的本体定义出自Tom Gruber,其在1993年提出:“本体是概念化的显式的表示(规格说明)”。
Borst 在1997年对Tom Gruber 的本体定义做了进一步的扩展,认为:“本体是共享的、概念化的一个形式的规范说明”。
在前人的基础上,Stude在1998年进一步扩展了本体的定义,这也是今天被广泛接受的一个定义:“本体是共享概念模型的明确形式化规范说明”。
本体提供一个共享词汇表,可以用来对一个领域建模,具体包括那些存在的对象或概念的类型、以及他们的属性和关系[2]。
一个简单的本体示例发票概念及其相互关系所构成的语义网络如图2所示:图2简单本体(发票)示例随着时间的推移和技术的发展,本体从最开始的人工智能领域逐渐扩展到图书馆学、情报学、软件工程、信息架构、生物医学和信息学等越来越多的学科。
与哲学本体论类似,本体(人工智能和计算机科学)依赖某种类别体系来表达实体、概念、事件及其属性和关系。
本体的核心是知识共享和重用,通过减少特定领域内概念或术语上的分歧,使不同的用户之间可以顺畅的沟通和交流并保持语义等效性,同时让不同的工具软件和应用系统之间实现互操作。
根据研究层次可以将本体的种类划分为“顶级本体”(top-level ontology)、应用本体(application ontology)、领域本体(domain ontology)和任务本体(taskontology),各个种类之间的层次关系如图3所示。
图3本体层次关系●顶级本体,也被称为上层本体(upper ontology)或基础本体(foundationontology),是指独立于具体的问题或领域,在所有领域都适用的共同对象或概念所构成的模型,主要用来描述高级别且通用的概念以及概念之间的关系。