科学数据共享核心元数据
- 格式:docx
- 大小:33.12 KB
- 文档页数:12
元数据和主数据是数据治理中的重要概念,它们都有各自的标准。
1. 元数据:元数据是关于数据的数据,它描述了数据的含义、结构、属性、关系以及其它特征信息。
元数据管理包括规划、实施和控制活动,以便访问高质量的集成元数据,包括定义、模型、数据流、以及其他至关重要的信息。
2. 主数据:主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。
主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。
主数据是企业关键业务实体的核心共享数据,例如组织、人员、客户、供应商、物料等。
此外,参考数据是用于描述或分类其他数据,或者将数据与企业外部信息联系起来的任何数据,例如货币代码、地区代码等。
主数据和参考数据管理是对企业核心共享数据的持续协调和维护,是关键业务实体真实信息以准确、及时、相关联的方式在各个系统之间得到持续使用。
在元数据和主数据的管理上,需要遵循相应的标准。
这些标准可以包括数据的定义、格式、质量、唯一性标识符等。
此外,还需要制定相应的政策和程序来确保数据的准确性、
一致性和安全性。
总的来说,数据治理是一个复杂的过程,需要综合考虑技术、业务和组织因素。
通过规划、实施和控制等活动,访问高质量的集成元数据和主数据,实现数据的资产价值获取、业务模式创新和经营风险控制。
Value Engineering 0引言实验数据是科学实践活动的重要产品,也是后续科学研究工作的重要依据和素材。
再强大的科研团队、学术带头人,其占有的时间资源、物质资源毕竟是有限的。
因此,对现有各方数据的充分利用是推动科研工作又好又快发展的一条捷径,数据共享则是通向这条捷径的必由之路,作战实验数据共享也为作战相关问题研究工作的向上发展提供了新的有力支撑。
1作战实验数据共享的意义随着计算机仿真技术、网络通信技术等高新技术的迅猛发展,作战实验作为公认的认识战争的重要方法,是研究军事问题的重要科学实践活动,在作战方案评估、作战结果预测及作战方法研究等军事活动中发挥的作用日益突出。
尤其是近年来,作战实验受到的重视程度越来越高,很多单位和部门都建立了不同类型、不同规模、不同作用的作战实验系统,各种作战实验系统的建设的成果也越来越多,应用的范围也越来越广,但同时也存在以下不足。
一方面,多数作战实验系统彼此独立,在研究相对单一条件下的军事问题方面有独到之处,但由于系统间不能实现互联、互通和互操作,数据不能共享,在面对一体化联合作战等复杂条件下的军事问题的研究时则受到很大限制,作战实验系统的规模效应、集群效应和综合效应没能显现。
另一方面,在多年来作战实验的过程中生成了类型众多、数量庞大的科学实验数据,同时积累了丰富的军事经验和研究技能,这些数据的作用和深加工潜力甚至超过了作战实验系统本身,但是目前尚没有做到对这些宝贵的数据进行有效的资源整合和共享,数据的重复利用率很低,不利于信息价值的充分发掘,造成了资源的浪费。
因此,数据共享已成为制约作战实验系统发展的瓶颈。
2数据共享的方式科学数据资源对国民经济、社会、环境发展的重要价值赢得了广泛的认同和重视。
地质、海洋、气象、测绘、环境、农业等许多领域和部门已建立了多个科学数据共享平台,并制定了相应的规范和技术标准,尤其是由我国科技部主导的“科学数据共享工程”于2003年启动以来,更是将我国的数据共享工作提升到了新的高度。
科学数据管理办法科学数据的管理对于科学研究的进行以及数据的重复利用至关重要。
随着科技的进步,数据的规模和复杂性也在不断增加,因此,建立科学数据管理办法是必不可少的。
本文将简要介绍科学数据管理的重要性,并提出一些有效的科学数据管理办法。
1. 科学数据管理的重要性科学数据管理是指对科学研究中产生的数据进行系统的记录、存储、共享和重复利用的过程。
科学数据不仅是科研成果的核心部分,也是科学交流和合作的基础。
合理有效地管理科学数据可以提高科研过程的透明度、效率和可重复性,有助于推动科学研究的发展。
首先,科学数据管理可以促进科学研究的透明度。
透明度是科学研究的基本原则,对于科学家而言,公开和共享数据是展示研究过程和结果的必要条件。
通过对数据进行管理,可以确保数据的可信度和可访问性,使科学家能够更好地了解研究的方法和结果,并进行验证和评估。
其次,科学数据管理可以提高科研工作的效率。
良好的数据管理可以使科学家更方便地访问和使用已有的数据,避免重复采集和处理数据的工作。
同时,通过规范和标准化的数据管理,可以减少数据处理的错误和偏差,保证数据的准确性和一致性,提高科研成果的可靠性。
最后,科学数据管理有助于促进科学研究的重复利用。
科学研究是一个不断累积和进步的过程,通过对数据的有效管理,可以为其他科学家提供有价值的参考和资源。
共享和重复利用数据有助于验证和复制科学研究的结果,推动科学知识的进一步发展。
此外,科学数据的重复利用还可以避免资源和时间的浪费,提高研究的效益和可持续性。
2. 科学数据管理的办法(1)建立完善的数据管理计划:科学家在进行科学研究时应制定数据管理计划,明确数据的采集、记录、存储和共享等方面的要求。
这可以帮助科学家更好地管理数据,确保数据的可访问性和可重复性。
(2)使用适当的数据存储和管理工具:为了有效地管理数据,科学家可以使用各种数据存储和管理工具。
例如,可以使用数据库管理系统、数据仓库和云存储等技术手段来存储和管理科学数据,方便科学家的访问和使用。
数据、元数据、主数据概念解释元数据、主数据是数据治理的核心。
元数据、技术元数据、业务元数据、操作元数据、主数据、参考数据、事务数据、业务数据、维度、度量、指标等概念层出不穷,如何理解其中复杂的关系成为困扰很多数字化人的问题之一。
按照数据的记录、管理和分析三个用途,对这些数据名词进行归类如下:一、记录类数据1.事务数据事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。
事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。
2.业务数据业务数据就是为了完成业务流程而存储的业务操作类数据。
就是业务系统的绝大多数表和数据。
3.日志数据早期的日志数据是属于事务数据中的。
现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。
二、管理类数据1.元数据元数据又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
通俗来讲,只要能够用来描述某个数据的,都可以认为是元数据。
举个例子,如果你把一部电视剧看做数据,那么你在电视剧里面获取到的信息,比如角色名、剧情、主题曲、感情线、导演、演员等等,都可以被看做是这部电视剧的元数据。
对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。
但是如果是这样描述一下呢?这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。
元数据管理内容
元数据管理内容主要包括以下几个方面:
1. 元数据标准:制定和推广元数据标准是元数据管理的核心内容。
元数据标准定义了数据的语义、结构和关系,使得不同系统之间能够进行有效的数据交换和共享。
例如,DC(Dublin Core)元数据标准广泛应用于数字图书馆和档案领域。
2. 元数据质量:保证元数据质量是元数据管理的重要任务。
高质量的元数据能够提高数据的可理解性和可用性,增强数据的可信度和可靠性。
元数据质量评估包括准确性、完整性、一致性和时效性等方面。
3. 元数据采集:元数据采集涉及确定需要采集的元数据类型、来源和采集频率等。
元数据采集应确保数据的准确性和完整性,同时考虑到数据规模和实时性的要求。
4. 元数据存储和备份:元数据存储和备份是元数据管理的基础设施。
选择合适的存储方案和备份策略,能够确保元数据的安全性和可恢复性。
5. 元数据映射和转换:元数据映射和转换是将不同来源和格式的元数据进行整合的关键技术。
通过元数据映射和转换,可以实现不同系统之间的数据共享和交换。
6. 元数据分析与利用:通过对元数据进行深入分析,可以挖掘出数据的潜在价值和知识。
利用元数据分析结果,可以为决策支持、
知识发现等应用提供支持。
综上所述,元数据管理内容广泛而复杂,涉及到标准制定、质量保证、采集、存储备份、映射转换和分析利用等多个方面。
科学数据共享协议模板1. 引言科学研究离不开数据的支持与共享。
数据共享有助于促进科学研究的进展,增加数据的可再现性和可信度,并提供更多的机会供其他研究者进行二次分析。
为了确保科学数据的合理共享和使用,本协议旨在规范数据共享的原则、权限和义务。
2. 定义2.1 数据:指科学研究中生成、收集或处理的信息,包括但不限于观测数据、实验数据、调查数据、模拟数据等形式。
2.2 数据提供方:指数据的所有者或者依法拥有数据合法使用权的个人或机构。
2.3 数据接收方:指获得数据提供方授权并同意遵守本协议的个人或机构。
3. 数据共享原则3.1 开放性原则:数据提供方应当以开放的心态对待数据共享,尽可能向科学社区开放数据资源。
3.2 公平原则:数据接收方应当依据科学贡献或其他合理原则获得使用数据的权限。
3.3 透明度原则:数据提供方应当详细描述数据的来源、采集方法、处理过程和可能存在的限制,确保数据的透明度。
3.4 共同承担原则:数据提供方和数据接收方应当共同承担数据共享过程中的责任和风险。
4. 数据共享权限4.1 数据发布:数据提供方有权将数据以适当的形式发布在公共数据库、科学期刊或其他数据共享平台上。
4.2 数据访问:数据提供方可以设定数据的访问权限,例如开放式访问、注册访问或有条件访问等方式,以保护数据的安全和合法使用。
4.3 数据使用:数据接收方获得数据提供方授权后,可以依据协议约定进行数据使用,包括但不限于科学研究、教育、非商业用途等。
5. 数据共享义务5.1 数据提供方应当清晰地标识数据的知识产权归属情况。
5.2 数据提供方应当遵守当地法律和伦理要求,确保数据的合法性和可信度。
5.3 数据提供方应当提供数据的相关元数据,以便其他研究者了解数据的内容和特征。
5.4 数据接收方应当尊重数据的知识产权,不得将数据用于未经授权的商业目的。
5.5 数据接收方应当在发表相关研究成果时,适当引用数据提供方的数据来源和引用标准。
元数据方法元数据方法是一种用于管理和组织数据的方法论,它通过定义和描述数据的属性和特征,使数据能够更好地被理解、使用和共享。
在信息时代,数据量呈爆炸式增长,元数据方法的重要性愈发凸显。
本文将从元数据的定义和作用、元数据方法的实践和应用、元数据管理的挑战和未来发展等方面展开阐述,深入探讨元数据方法对于数据管理的重要性。
一、元数据的定义和作用元数据是指描述数据的数据,它包括数据的定义、结构、性质、关系、来源、格式、使用方式等信息,是数据的“数据”,可以帮助人们更好地理解和使用数据。
元数据可以分为三个层次:物理层元数据(描述数据存储和传输的方式)、逻辑层元数据(描述数据的语义和关系)、认知层元数据(描述数据的使用方式和特征)。
通过元数据,人们可以更快速、准确地找到需要的数据,提高工作效率和数据质量。
元数据的作用主要有以下几个方面:1.数据发现和访问:元数据可以提供数据的描述和标签,使用户能够快速找到需要的数据,节省了查找和整理数据的时间。
2.数据质量管理:元数据可以描述数据的来源、质量和变化过程,帮助用户评估数据的可靠性和准确性,为数据清洗和处理提供依据。
3.数据整合和共享:元数据可以描述数据的结构和关系,使数据集成和共享更加方便和高效。
4.数据安全和隐私保护:元数据可以描述数据的安全要求和隐私级别,帮助用户制定数据安全策略和隐私保护措施,保护数据的安全性和隐私性。
二、元数据方法的实践和应用元数据方法可以应用于各个领域和行业,如企业数据管理、科学研究、数字图书馆、知识管理等。
以下以企业数据管理为例,介绍元数据方法的实践和应用。
1.数据库管理:在数据库中,元数据可以描述表、字段、索引、约束、视图等对象的定义和属性,为数据库的设计、维护和查询提供基础。
2.数据集成:在数据集成过程中,元数据可以描述不同数据源的结构和语义,帮助用户对数据进行映射和转换,实现数据的一致性和互操作性。
3.数据分析和挖掘:在数据分析和挖掘过程中,元数据可以描述数据的特征和关系,为模型的建立和分析提供依据,提高分析的准确性和效率。
临床研究中的数据共享流程在临床研究领域,数据共享是一种促进科学交流和提升研究效率的重要方式。
通过共享数据,研究者们能够相互学习和借鉴,推动科学进步。
本文将介绍临床研究中的数据共享流程,并探讨其意义和挑战。
一、数据准备临床研究中的数据共享首先要进行数据准备工作。
这包括数据清洗、数据整合和数据标准化等过程。
数据清洗是为了消除数据中的噪音和错误,保证数据的准确性和完整性。
数据整合是将多个数据源的数据进行整合,形成一个完整的数据集。
数据标准化是为了确保不同研究中使用的数据具有一致的格式和单位。
二、数据共享协议在数据准备完成后,需要与其他研究团队或数据资源共享平台签订数据共享协议。
这份协议规定了数据共享的具体细节和权限,包括数据使用范围、数据访问方式、数据保密措施等内容。
同时,协议还需要明确数据的作者和出处,以保护研究人员的知识产权。
三、数据共享平台数据共享需要依托于数据共享平台进行。
这些平台可以是由学术机构或研究机构建立和维护的,也可以是第三方的商业平台。
数据共享平台提供了一个集中存储和管理数据的环境,研究者可以通过平台进行数据上传、下载和查询等操作。
平台还需要具备安全性和隐私保护的功能,以保护数据的安全性和使用权。
四、数据共享流程数据共享的具体流程通常包括以下几个步骤:1. 数据上传:研究人员将准备好的数据上传至数据共享平台。
在上传过程中,需要保证数据的安全和完整性,同时需提供必要的元数据,如数据来源、数据收集时间等。
2. 数据验证:平台会对上传的数据进行验证,确保数据的准确性和合法性。
如果数据存在问题,平台会向上传者反馈并要求进行修正。
3. 数据共享:经过验证的数据将被开放共享给其他研究人员或感兴趣的个人。
共享可以是公开的,也可以是仅对特定群体开放的。
共享方式可以通过下载、查阅或在线访问等方式进行。
4. 数据分析:其他研究人员可以基于共享的数据进行进一步的数据分析和研究。
他们可以利用这些数据来验证自己的研究结果、寻找新的研究灵感或进行模型验证等。
主数据标准、元数据标准、数据质量标准主数据标准、元数据标准和数据质量标准是数据管理中的三个重要概念,它们在确保数据的准确性和一致性方面发挥着关键作用。
一、主数据标准主数据是指在企业或组织中共享的核心数据,这些数据是多个业务部门和系统中共同使用的。
主数据标准是指对主数据进行统一规范和定义的准则,以确保不同系统之间能够正确地共享和使用这些数据。
主数据标准的建立可以解决以下问题:1. 数据不一致:由于不同系统使用不同的数据定义和规范,导致同一数据在不同系统中可能存在差异,从而影响数据的准确性和一致性。
通过主数据标准,可以确保所有系统都遵循相同的规范,避免数据不一致的问题。
2. 数据冗余:如果没有统一的数据标准,不同系统可能会重复存储相同的数据,导致数据冗余。
通过主数据标准,可以将这些冗余数据整合到一个中心位置,避免数据重复存储。
3. 数据难以集成:如果没有统一的数据标准,不同系统之间的数据集成将会变得非常困难。
通过主数据标准,可以简化数据集成过程,提高系统的可扩展性和灵活性。
二、元数据标准元数据是描述数据的数据,它提供了关于数据的含义、结构、属性以及其它特征的信息。
元数据标准是指对元数据进行统一规范和定义的准则,以确保对数据的正确理解和使用。
元数据标准的建立可以解决以下问题:1. 数据理解困难:如果没有元数据标准,不同人员可能对同一组数据有不同的理解和解释,导致数据使用上的混乱。
通过元数据标准,可以确保所有人员对数据的理解保持一致。
2. 数据管理困难:如果没有元数据标准,对数据的添加、修改和删除将变得随意和混乱,导致数据质量下降。
通过元数据标准,可以规范数据的操作流程。
3. 数据整合困难:如果没有元数据标准,不同系统之间的数据整合将会变得非常困难。
通过元数据标准,可以简化数据整合过程,提高系统的可扩展性和灵活性。
三、数据质量标准数据质量是指数据的准确性、完整性、一致性和可靠性等方面。
数据质量标准是指对数据进行统一规范和定义的准则,以确保数据的准确性和可靠性。
元数据通俗理解元数据,顾名思义,是指描述数据的数据。
在计算机科学中,元数据是对数据的描述,它提供了关于数据的信息,包括数据的类型、格式、来源、大小等。
元数据可以帮助人们更好地理解和管理数据,提高数据的使用效率和价值。
元数据可以分为结构元数据和描述元数据两种类型。
结构元数据描述的是数据的结构信息,包括数据的字段、表、关系等。
描述元数据则描述的是数据的内容信息,比如数据的含义、属性、分类等。
在日常生活中,我们经常接触到元数据的应用。
比如,我们在使用搜索引擎时,输入关键词,搜索引擎会根据我们的输入去查询网页的元数据,找到与关键词相关的网页。
搜索引擎通过分析网页的元数据,可以确定网页的内容、作者、发布时间等信息,从而帮助我们找到我们需要的信息。
元数据在数据管理和数据分析中起着重要的作用。
在数据管理中,元数据可以帮助我们更好地组织和管理数据,提高数据的可访问性和可用性。
比如,在数据库中,表的字段和类型就是表的结构元数据,它们描述了表中数据的类型和组织方式。
在数据分析中,元数据可以帮助我们理解和解释数据,为数据分析提供依据。
比如,在进行数据挖掘时,我们可以通过分析数据的元数据,了解数据的属性和分布情况,从而选择合适的数据挖掘方法和算法。
元数据的应用范围非常广泛,几乎涵盖了所有与数据相关的领域。
在科学研究中,元数据可以帮助研究人员更好地理解和共享科研数据,提高科研的可重复性和可信度。
在商业领域中,元数据可以帮助企业组织和管理海量的业务数据,从而提高企业的运营效率和决策水平。
在互联网时代,元数据更是扮演着重要角色,它是信息时代的基石,支撑着互联网的发展和应用。
在元数据的应用过程中,我们需要注意一些问题。
首先是元数据的准确性和完整性。
元数据对于数据的理解和使用至关重要,如果元数据存在错误或遗漏,可能会导致对数据的错误理解和使用。
因此,我们需要对元数据进行维护和更新,确保其准确性和完整性。
其次是元数据的共享和交流。
元数据的标准元数据的标准格式一、引言元数据是描述数据的数据,它提供了数据的定义、结构、属性以及与其他数据之间的关系。
标准化的元数据格式对于数据的管理、共享和交换至关重要。
本文将介绍元数据的标准格式,包括元数据的定义、元数据标准的目的和重要性,以及常见的元数据标准格式。
二、元数据的定义元数据是指描述数据的属性、特征、结构和关系的数据。
它提供了数据的语义信息,帮助用户理解数据的含义和用途。
元数据可以包括数据的名称、类型、格式、单位、范围、来源、创建时间、更新时间等信息。
三、元数据标准的目的和重要性1. 目的元数据标准的目的是为了规范元数据的格式和内容,提高数据的可管理性、可共享性和可交换性。
通过统一的元数据标准,可以减少数据管理的复杂性,提高数据的质量和可信度。
2. 重要性元数据标准的重要性体现在以下几个方面:- 数据管理:元数据标准可以帮助组织对数据进行有效管理,包括数据的采集、存储、清洗、分析等过程。
- 数据共享:元数据标准可以提供数据的共享和交换的基础,不同组织和系统之间可以通过遵循相同的元数据标准来实现数据的互操作性。
- 数据分析:元数据标准可以帮助用户理解数据的结构和含义,从而更好地进行数据分析和挖掘。
- 数据质量:元数据标准可以提供数据质量的评估和管理的依据,帮助组织提高数据的准确性、完整性和一致性。
四、常见的元数据标准格式1. Dublin Core(DC)Dublin Core是一种广泛应用的元数据标准,它定义了15个基本元数据元素,包括标题、作者、主题、描述、日期、类型、格式等。
Dublin Core适用于各种类型的文档和资源。
2. Metadata Object Description Schema(MODS)MODS是一种用于描述文档和资源的元数据标准,它基于XML语言,包括标题、作者、主题、摘要、日期、格式等元数据元素。
MODS可以适用于各种类型的文档和资源。
3. Metadata Encoding and Transmission Standard(METS)METS是一种用于描述复杂数字对象的元数据标准,它基于XML语言,包括结构、内容、行为等元数据元素。
科研机构数据管理与信息共享方案在当今数字化时代,科研机构所产生和处理的数据量呈爆炸式增长。
这些数据不仅是科研成果的重要体现,也是推动科学研究不断前进的宝贵资源。
然而,如何有效地管理这些数据,并实现信息的共享,成为了科研机构面临的重要挑战。
为了应对这一挑战,制定一套科学合理的数据管理与信息共享方案显得尤为关键。
一、数据管理的重要性科研数据是科研活动的重要产出,它涵盖了实验数据、观测数据、计算数据、文献数据等多种类型。
有效的数据管理能够确保数据的准确性、完整性和可靠性,为科研工作提供坚实的基础。
首先,准确的数据是得出科学结论的前提。
如果数据在收集、记录或处理过程中出现错误,可能会导致研究结果的偏差甚至错误。
其次,完整的数据能够提供更全面的信息,有助于深入分析和挖掘潜在的规律和趋势。
再者,可靠的数据管理有助于数据的长期保存和复用。
科研工作往往具有延续性,以往的数据在新的研究中可能会发挥重要作用。
二、数据管理的原则1、标准化制定统一的数据标准,包括数据格式、命名规范、元数据描述等,确保数据的一致性和可读性。
2、安全性采取严格的安全措施,如访问控制、数据加密、备份与恢复等,保护数据的机密性、完整性和可用性。
3、质量控制建立数据质量评估和监控机制,及时发现和纠正数据中的错误和偏差。
4、可追溯性记录数据的产生、处理和修改过程,确保数据的来源和演变过程清晰可查。
三、数据管理的流程1、数据规划在科研项目启动阶段,明确数据的需求、类型、规模和预期用途,制定数据管理计划。
2、数据收集按照预定的规范和方法收集数据,并进行初步的整理和校验。
3、数据存储选择合适的数据存储介质和数据库系统,根据数据的特点和访问需求进行分类存储。
4、数据处理对收集到的数据进行清洗、转换、整合等处理操作,使其符合分析和使用的要求。
5、数据分析运用适当的分析方法和工具对数据进行挖掘和分析,提取有价值的信息。
6、数据共享在遵循相关法律法规和保护知识产权的前提下,实现数据的共享和传播。
信息资源核心元数据1 范围本文件规定了信息资源元数据的描述方法、元数据模型、核心元数据描述以及核心元数据扩展的一般要求。
本文件适用于信息资源进行编目、归档、建库、发布、共享、交换和查询等。
2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。
其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 7408 数据元和交换格式信息交换日期和时间表示法3 术语和定义下列术语和定义适用于本文件。
信息资源 information resource在政治、经济和社会等各领域产生和使用,具有各种载体形式和可供机器读取特征的信息内容的总称。
元数据 metadata定义和描述其他数据的数据。
[来源:GB/T 18391.1-2009,3.2.16]元数据元素 metadata element元数据的基本单元。
注1:与UML术语中的属性同义。
注2:元数据元素在元数据实体中是唯一的。
[来源:GB/T 19710-2005,4.6]元数据实体 metadata entity一组说明数据相同特性的元数据元素。
注1:与UML术语中的类同义。
注2:可以包含一个或一个以上元数据实体。
[来源:GB/T 19710-2005,4.7]元数据子集 metadata section元数据的子集合,由相关的元数据实体和元素组成。
注:与uml术语中的包同义。
[来源:GB/T 19710-2005,4.8]核心元数据 core metadata描述信息资源基本属性的元数据元素和元数据实体。
4 元数据的描述方法基本要求本文件采用摘要表示的方式定义和描述元数据,摘要内容包括:中文名称、定义、英文名称、数据类型、值域、缩写名、约束/条件、最大出现次数、备注。
中文名称赋予元数据元素或元数据实体的一个中文标记。
元数据实体名称在本文件范围内应唯一,元数据元素名称在元数据实体中也应唯一。
第26卷第5期2007年9月地理科学进展PROGRESSINGEOGRAPHYVol.26,No.5Sept.,2007收稿日期:2007-06;修订日期:2007-07.基金项目:国家科技基础条件平台,地球系统科学数据共享网(2006DKA32300)。
作者简介:刘润达,男(1980-),河南许昌人,博士生。
研究方向:科学数据共享,网络信息资源整合技术等。
科学数据共享关键问题探索———以地球系统科学数据共享网为例刘润达1,2,诸云强1(1.中国科学院地理科学与资源研究所,北京100101;2.中国科学院研究生院,北京100039)摘要:作为科学基础设施,科学数据共享平台建设可促进科技原始性创新,提高国家科技竞争能力。
本文回顾我国近年推动科学数据共享方面的工作,指出科学数据共享实施过程中所遇到的主要问题;针对这些问题,在共享理念、数据资源整合和平台建设三个方面探索科学数据共享今后发展的重点和工作方法。
具体结合地球系统科学数据共享网建设实践,提出搭建科学数据交换平台,构建科学数据共享联盟;将科学数据共享与科研项目相结合,实行主动服务;建立强大的科学数据搜索引擎;重视文档、信息服务等。
关键词:数据共享;科学数据;数据联盟;数据中介1引言科学数据作为现代科学可持续发展的重要资源,与科技创新是密不可分的[1]。
为促进科学数据资源的共享和交换,许多发达国家和国际组织都开展了一系列的基于计算机网络的科学数据共享的研究和实践,目的是将长期积累的科学数据为本国以及全球的可持续发展等研究提供数据支撑服务。
例如世界数据中心(WDC,WorldDataCenter)等国际组织的成立,在世界范围内进行科学数据共享的工作[2,3];美国及欧洲的一些发达国家建立了国家级科学数据中心群和数据共享服务网络[4 ̄6],如NASA主持的DAACs,全球变化数据和信息系统,全球变化主目录(GCMD)等。
我国自上世纪80年代起就开始在多个层面上推动科学数据的共享。
附 录 A 科学数据共享核心元数据
科学数据共享核心元数据为元数据子集和实体中必选的元数据,可用于数据集编目、数据交换网站活动和对数据集的描述。
C.2.1内容组成 表C.1 科学数据共享核心元数据 元数据标识符(M) 数据集格式名称(M) 元数据语种(C) 数据集格式版本(M) 元数据字符集(C) 关键词说明(O) 元数据联系方(M) 数据集访问限制(O) 元数据创建日期(M) 数据集使用限制(O) 元数据标准名称(O) 数据集安全限制分级(M) 元数据标准版本(O) 数据集语种(M) 数据集名称(M) 数据集字符集(C) 数据集日期(M) 数据集分类(C) 数据集摘要(M) 数据志说明(C) 数据集负责方(O) 数据集在线资源链接地址(M)
C.2.2核心元数据定义 C.2.2.1元数据标识符 定 义:元数据的唯一标识 英文名称:metadataIdentifier 数据类型:字符串 值 域:自由文本 短 名:mdid 注 解:必选项;最大出现次数为1;必须是第一个著录项目、标识符须唯一、由字母(含下划线(_)短划线(-)点(.)斜线(/)逗号(,)和空格( ))或数字组成
C.2.2.2元数据语种 定 义:元数据使用的语言 英文名称:language 数据类型:字符串 值 域:语种代码<>(B.3.15) 短 名:mdLang 注 解:必选项;最大出现次数为1
C.2.2.3元数据字符集 定 义:元数据集使用的字符编码标准的全名 英文名称:characterSet 数据类型:字符串 值 域:字符集代码<>(B.3.6) 短 名:mdChar 注 解:必选项;最大出现次数为1
C.2.2.4元数据联系方 定 义:对元数据信息负责的单位或个人 英文名称:citedResponsibleParty 数据类型:复合型 短 名:citRespParty 注 解:可选项;最大出现次数为N 子 元 素:负责方 = 负责人姓名 | 负责单位名 + 0{负责方联系信息} 1 扩展巴氏范式:citRespParty = rpIndName | rpOrgName , 0{ rpCntInfo } 1
C.2.2.4.1元数据联系人姓名 定 义:元数据联系人姓、名、头衔,用分隔符隔开 英文名称:individualName 数据类型:字符串 值 域:自由文本 短 名:rpIndName 注 解:条件必选项;最大出现次数为1;未选用元数据联系单位和元数据联系人职务时为必选
C.2.2.4.2元数据联系单位 定 义:元数据联系单位名 英文名称:organisationName 数据类型:字符串 值 域:自由文本 短 名:rpOrgName 注 解:条件必选项;最大出现次数为1;未选用元数据联系人名和元数据联系人职务时为必选
C.2.2.4.3元数据联系方联系信息 定 义:与元数据联系人和/或元数据联系单位联系所需的信息 英文名称:Contact 数据类型:复合型 短 名:Contact 子 元 素:联系 = 0{电话}1 + 0{地址}1 + 扩展巴氏范式:Contact = 0{ cntPhone }1 , 0{ cntAddress }1
C.2.2.4.3.1元数据联系人电话信息 定 义:可以与元数据联系人或元数据联系单位通话的信息 英文名称:phone 数据类型:复合型 短 名:cntPhone 注 解:可选项;最大出现次数为1 子 元 素:电话 = 0{电话}n + 0{传真}n 扩展巴氏范式:cntPhone = 0{ voiceNum }n + 0{ faxNum }n
C.2.2.4.3.1.1元数据联系人电话 定 义:可以与元数据联系人或元数据联系单位通话的电话号码 英文名称:voice 数据类型:字符串 值 域:自由文本 短 名:voiceNum 注 解:可选项;最大出现次数为N
C.2.2.4.3.1.2元数据联系人传真 定 义:元数据联系人或元数据联系单位的传真号码 英文名称:facsimile 数据类型:字符串 值 域:自由文本 短 名:faxNum 注 解:可选项;最大出现次数为N
C.2.2.4.3.2元数据联系方地址 定 义:可以与联系人或联系单位联系的物理地址和电子邮件地址 英文名称:address 数据类型:复合型 短 名:cntAddress 注 解:可选项;最大出现次数为1 子 元 素:地址 = 0{详细地址}n + 0{所在城市}1 + 0{所在行政区}1 + 0{邮政编码}1 + 0{所在国家}1 + 0{电子邮件地址}n 扩展巴氏范式:cntAddress = 0{ delPoint }n , 0{ city }1 , 0{ adminArea }1 , 0{ postCode }1 , 0{ country }1 , 0{ eMailAdd }n
C.2.2.4.3.2.1元数据联系方详细地址 定 义:位置的详细地址 英文名称:delilveryPoint 数据类型:字符串 值 域:自由文本 短 名:delPoint 注 解:可选项;最大出现次数为N
C.2.2.4.3.2.2元数据联系方城市 定 义:所在城市 英文名称:city 数据类型:字符串 值 域:自由文本 短 名:city 注 解:可选项;最大出现次数为1
C.2.2.4.3.2.3元数据联系方行政区 定 义:所在省、自治区、直辖市 英文名称:administrativeArea 数据类型:字符串 值 域:自由文本 短 名:adminArea 注 解:可选项;最大出现次数为1
C.2.2.4.3.2.4元数据联系方邮政编码 定 义:邮政编码 英文名称:postalCode 数据类型:字符串 值 域:自由文本 短 名:postCode 注 解:可选项;最大出现次数为1
C.2.2.4.3.2.5元数据联系方国家 定 义:所在国家 英文名称:country 数据类型:字符串 值 域:ISO 3166-3,可以使用其它部分 短 名:country 注 解:可选项;最大出现次数为1
C.2.2.4.3.2.6元数据联系方电子邮件地址 定 义:元数据联系人或元数据联系单位的电子邮件地址 英文名称:electronicMailAddrss 数据类型:字符串 值 域:自由文本 短 名:eMailAdd 注 解:可选项;最大出现次数为N
C.2.2.5元数据创建日期 定 义:创建元数据的日期 英文名称:metadatadateStamp 数据类型:字符串 值 域:日期<>(B.3.2) 短 名:mdDateSt 注 解:必选项;最大出现次数为1
C.2.2.6元数据标准名称 定 义:执行的元数据标准名称 英文名称:metadataStandardName 数据类型:字符串 值 域:自由文本 短 名:mdStanName 注 解:可选项;最大出现次数为1
C.2.2.7元数据标准版本 定 义:执行的元数据标准版本 英文名称:metadataStandardVersion 数据类型:字符串 值 域:自由文本 短 名:mdStanVer 注 解:可选项;最大出现次数为1
C.2.2.8数据集名称 定 义:已知的数据集名称 英文名称:title 数据类型:字符串 值 域:自由文本 短 名:resTitle 注 解:必选项;最大出现次数为1
C.2.2.9数据集日期 定 义:数据集的参照日期 英文名称:date 数据类型:复合型 值 域:参见 引用信息.日期引用<> 短 名:refDate 注 解:必选项;最大出现次数为1
C.2.2.10数据集摘要 定 义:数据集内容的简单说明 英文名称:Abstract 数据类型:字符串 值 域:自由文本 短 名:abstract 注 解:必选项;最大出现次数为1
C.2.2.11数据集负责方 定 义:数据集负责人或单位及其联系方法 英文名称:citedResponsibleParty 数据类型:复合型 短 名:citRespParty 注 解:可选项;最大出现次数为N 子 元 素:负责方 = 负责人姓名 | 负责单位名 + 0{负责方联系信息} 1 扩展巴氏范式:citRespParty = rpIndName | rpOrgName , 0{ rpCntInfo } 1
C.2.2.11.1数据集负责人姓名 定 义:数据集负责人姓、名、头衔,用分隔符隔开 英文名称:individualName 数据类型:字符串 值 域:自由文本 短 名:rpIndName 注 解:条件必选项;最大出现次数为1;未选用负责单位和负责人职务时为必选
C.2.2.11.2数据集负责单位 定 义:数据集负责单位名 英文名称:organisationName 数据类型:字符串 值 域:自由文本 短 名:rpOrgName 注 解:条件必选项;最大出现次数为1;未选用负责人名和负责人职务时为必选
C.2.2.11.3数据集负责方联系信息 定 义:与数据集负责人和/或负责单位联系所需的信息 英文名称:Contact 数据类型:复合型 短 名:Contact 子 元 素:联系 = 0{电话}1 + 0{地址}1 + 扩展巴氏范式:Contact = 0{ cntPhone }1 , 0{ cntAddress }1
C.2.2.11.3.1数据集负责人电话信息 定 义:与数据集负责人或负责单位通话的信息 英文名称:phone 数据类型:复合型