历届Dublin Core元数据年会取得的主要进展
- 格式:pdf
- 大小:273.64 KB
- 文档页数:9
典型的元数据方案3.1都柏林核心(Dublin core)简介Dublin core是都柏林元数据核心元素集(Dublin metadata core element set)的简称,在1995年3月,由超级图书馆中心和美国超级计算机应用中心主持,在美国俄亥俄州都柏林召开的第一届元数据研讨会上提出的。
其目的就是希望建立一套适合描述网络资源的方法,用来信息识别,查询,组织,检索。
DC元数据简练,易于理解,扩展性强,与其他元数据形式兼容性强。
网络资源能够被有效的整合利用,是它成为了一个良好的网络资源描述元数据集合。
DC研讨会已经召开了十届,从理解DC研讨会中我们可以总结出每一节研讨会都推出了一些具体的研究成果,并且在深度,广泛度上都有发展。
DC元数据理论不断在实践中完善。
都柏林十次研讨会时间地点及成果如表13.2 DC语法的实现DC在HTML的语法主要是通过“<META>标记”和“<LINK>标记”来实现的。
以下是一个基于XML和RDF的DC元数据详例:<?xml version=”1.0”encoding=””GB2312”?><rdf:RDF xmlns:rdf=”http//:/1999/02/22-rdf-syntax-ns#”xmlns:dc=.dc/elements/1.0/><rdf:Description rdf:about=/><dc: title>新华网首页</dc:title><dc:creator>新华通讯社网络中心</dc:creator><dc:subject>新闻</dc:subject><dc:publisher>新华社通讯</dc:publisher></rdf:Description></rdf:RDF>上面就是多媒体对象的DC描述,用DC描述网络信息资源十分方便,为了节省篇幅,直接用RDF/XML元数据框架来叙述。
网络信息资源的特点网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。
1.数量增长迅速,质量良秀不齐2.信息源不规范,难以客观著录3.内容丰富斑斓,难以准确标引4.存取特征是其最为本质的特征5.内容新颖实效性强6.检索手段方便快捷网络信息资源MARC编目1.概况OCLC实验结果①除了少数例外,MARC/AACR2能够适应因特网资源的编目需要;②对因特网资源进行编目,需要一种将书目记录与受编因特网资源链接起来的方法;③尽管这些编目员熟悉计算机文档编目,但仍需要配备一些与因特网资源编目相关的资料。
”2.网络信息资源MARC编目方法网络资源CNMRC字段001 记录标识号010 国际标准书号011 国际标准连续出版物号100 通用处理数据101 文献语种135 编码数据字段:电子资源200 题名与责任说明205 版本说明207 资料特定细节项:连续出版物卷期编号230 资料特定细节项:电子资源特征210 出版发行项225 丛编项3-- 附注块336 电子资源类型标识5-- 相关题名块6-- 主题分析块7-- 知识责任块856电子资源地址与检索中文电子图书的CNMARC记录记录状态:n 记录类型:l 书目级别:m 层次等级:0编目等级:# 著录格式:#001 612003000001010 ## $a7-307-03791-2100##$a20030911d2002####k##y0chiy0110####ea 101 0# $achi135 ## $adrbn#nnnanaua200 1# $a财务管理 $f简东平著210 ## $a武汉$c 武汉大学出版社$d2002330 ## $a本教材为湖北省教育厅会计学改革试点专业系列教材之一,内容涉及财务管理的基本概念、基本观念、筹资管理、项目投资管理等。
主要适用于高职高专财务会计专业及其他相关专业的教学。
336 ## $a文本型(财务管理教科书)690 ## $aF275 $v4701 #0 $a简东平 $4著856 4#$u/List.asp三、描述性元数据DC什么是DC元数据?所谓DC元数据(the Dublin Core metadata)是指一个简单的、有效地描述网络资源的、并被用户所接受的元数据集。
多源异构数据集成技术研究随着信息时代的到来,数据量的快速增长使得如何有效地集成和处理多源异构数据成为了亟待解决的问题。
为了满足不同用户的需求,从不同的数据源中获取有用的信息,人们开始关注如何将多个数据源中的数据集成,形成一个完整的数据集。
本文将对多源异构数据集成技术进行分析研究,探讨其发展历程、现状、解决方案及未来趋势等问题。
发展历程数据集成作为信息获取和分析的关键技术,早在上世纪80年代就引起了广泛关注。
当时主要采用的是数据仓库技术,即先将不同数据源的数据导入到一个以主题为单位的数据仓库中,然后再进行处理。
但这种方法对于数据实时性要求较高的场景来说,效率较低。
随着互联网和Web技术的发展,数据源的形式更加多样,如何进行数据集成成为了一个更加重要并且复杂的问题。
2001年,美国信息技术研究机构Gartner提出了企业级级应用集成(EAI)的概念,初步解决了多个应用系统之间数据共享的问题。
不过EAI仍面临着诸多挑战,如数据格式不同、语义不一致等问题,这使得研究者们开始关注如何解决异构数据的集成问题。
现状分析现在数据集成技术普遍采用的是基于Web的数据集成方法,常用的有Web服务、XML和Ontology等技术。
其中Web服务技术作为一种轻量级的技术,无需安装客户端即可使用,便于交互式应用程序的开发,逐渐成为了数据集成的主流技术。
Web服务数据集成的实质是将各个数据源以Web服务接口的形式暴露出来,同时根据需要执行数据转换和业务逻辑的处理。
这种方式对于异构数据集成有很大的优势,支持灵活的应用程序开发。
Ontology技术是另一种解决异构数据集成的重要技术。
通过构建或提取数据源的本体,将不同数据源之间的语义差异抽象成一致的概念,从而实现数据集成。
Ontology技术能够有效提高数据集成的精度,同时减少对数据源结构和格式的依赖。
解决方案在多源异构数据集成过程中,存在诸多问题,例如数据源复杂性、数据格式不同、数据语义不一致、数据安全性等等。
都柏林核心元数据集元素名称:题名(Title)标签: 题名(Title)定义: 赋予资源的名称。
注释: 资源名一般指资源对象正式公开的名称。
元素名称:创建者(Creator)标签: 创建者(Creator)定义: 创建资源内容的主要责任者。
注释: 创建者的实例包括个人,组织或某项服务。
一般而言,用创建者的名称来标识这一条目。
元素名称:主题(Subject)标签: 主题及关键词(Subject and Keywords)定义: 资源内容的主题描述。
注释: 如果要描述特定资源的某一主题,一般采用关键词、关键字短语或分类号,最好主题和关键词从受控词表或规范的分类体系中取值。
元素名称:描述(Description)标签: 描述(Description)定义: 资源内容的说明。
注释: 描述可以包括但不限于以下内容:文摘、目录、对以图形来揭示内容的资源而言的文字说明、或者一个有关资源内容的自由文本描述。
元素名称:出版者(Publisher)标签: 出版者(Publisher)定义: 使资源成为可以获得并可用的责任者。
注释: 出版者的实例包括个体,组织,或服务。
一般而言,应该用出版者的名称来标识这一条目。
元素名称:其他责任者(Contributor)标签: 其他责任者(Contributor)定义: 对资源的内容作出贡献的其他实体。
注释: 其他责任者的实例可包括个人、组织或某项服务。
一般而言,用其他责任者的名字来标识这一条目。
元素名称:日期(Date)标签: 日期(Date)定义: 与资源生命周期中的一个事件相关的时间。
注释: 一般而言,日期应与资源的创建或出版日期相关。
建议采用的日期格式应符合ISO 8601 [W3CDTF]规范,并使用YYYY-MM-DD的格式。
元素名称:类型(Type)标签: 资源类型(Resource Type)定义: 资源内容的特征或类型。
注释: 资源类型包括描述资源内容的一般范畴,功能,种属,或聚类层次的术语。
都柏林核心(Dublin Core)元数据发展简史上海图书馆数字化工作部随着WWW的不断发展,网络上信息资源正呈不断增多的趋势。
但随之而来的问题是,人们发现在海量的信息环境中,信息的查找和检索变得越来越困难。
网络上充斥着各种各样的信息,但人们却不知道究竟该怎样才能找到自己所需要的信息。
为了有效地解决查找网络资源这一问题,元数据这一概念被提了出来。
元数据也被称为是关于数据的数据,它是专门用来描述数据的特征和属性的。
由于电子文件所具备的多种多样的格式和控制方法,它们可能不能被每个人直接使用:因为也许人们不熟悉或不了解它的格式;也许它的内容被加密了;或者它只有在交费后才能被接受;也或者这个资源太大,存取起来既困难又费时。
在这些情况下,元数据能支持用户决策过程。
它包含的数据元素集就是用来描述一个信息对象的内容和位置,以便能在网络中方便的查找和检索。
从元数据提供者的角度来看,元数据能改进文件的检索能力(特别是搜索的精确性)、以及对藏品的控制和管理问题。
而各种网络上的搜索引擎,如Lycos、Alta Vista、Open Text等,虽然对许多资源有自动索引功能,但其查准率却极低。
而一些由专业人员提供的不仅复杂并被结构化的特殊体系方案,如MARC、GILS、TEI header、IAFA模块(用来描述匿名的FTP档案和基于主题的信息网关)和FGDC,这些标准虽然能达到一定的查准率,但在数据加工标引工作上既费时又费人工,并且需要的是专业的从业人员,因此对于充斥于网上的海量信息可以说是无能为力。
这些复杂的体系方案通常都需要大量的时间,金钱和合格的职员,因此创造一个更简单的元数据模型和体系方案显得非常吸引人。
而且,随着因特网上的搜索服务的改进,从各种复杂或简单的元数据格式到各个不同的用户团体之间,也特别需要一种标准化的语言或交换格式。
所以,创立一个简单的、并且在网络中为各个用户团体所接受的标准化元数据元素集,成为了网络发展的迫切需要。
16摘要:农业资源信息化是智慧农业的前提和基础,智慧农业的发展离不开大数据支撑,元数据是整合农业产业链数据、实现数据互融互通、保障数据鲜活性和准确性的重要手段。
基于元数据在数据产业链的重要性,该文对元数据的标准建设、内容规划、共享融通进行了研究分析,对元数据未来的发展进行了初步的建议和展望。
关键词:元数据;农业信息化;资源2011)。
朱虹等[1]对农产品流通环节的元数据标准化提供了初步规划。
袁红梅提出了元数据的3种格式、4种类型,讨论了元数据在网络信息资源组织中的应用。
樊景超等提出了农业观测数据共享元数据,2019年农业农村部为了规范农业数据集共享中的语义理解和描述,发布了《NY/T 3500-2019 农业信息基础共享元数据》行业标准,定义了基础共享元数据、元数据扩展、农业信息资源代码编码。
2 农业元数据标准目前现有的各农业元数据标准以科技部科学数据共享工程技术标准为依据,以《农业科学数据共享标准体系及参考模型》为主要指导。
当前,中国针对农业领域的元数据标准尚未全面展开,虽然已经建立了初步的关键核心元数据标准,但是仍缺乏专门针对乡村振兴战略要求的、面向智慧农业、精准农业、无人农场大环境发展需求的元数据标准体系。
元数据是数据的数据,是对数据含义的描述,依靠元数据对数据的含义描述,数据属性信息均被标注,显著提高信息的可管理性,极大促进信息在产业链上的共享沟通,农业元数据标准的建立,解决了目前农业信息沟通不畅、难以共享的问题。
党的二十大报告提出全面推进乡村振兴的发展目标。
坚持农业农村优先发展,坚持城乡融合发展,畅通城乡要素流动。
乡村数字化、农业智慧化是全面推进乡村振兴的重要手段和必然要求,为此,中央网信办、农业农村部、国家乡村振兴局会同有关部门制定了《数字乡村发展行动计划(2022-2025年)》,提出了“十四五”时期数字乡村发展目标、重点任务和保障措施,对数字乡村工作进行了全面部署。
行动计划中明确提出了建立健全农业数据资源目录,加快建设全国农业农村基础数据库,构建全国农业农村数据资源“一张图”。
国家图书馆关于中文Metadata标准的研究与制订孙蓓欣陈华明随着数字图书馆的进展,元数据的研究日益受到重视。
国家图书馆在开展多项数字图书馆研制项目的进程中,关注国外此项研究与利用的有关情况,并开始了中文元数据标准的研究与制定工作。
一、数字图书馆元数据工作回顾信息技术的高度发展,给传统的图书馆界提出了新的挑战。
中文文献资源的共建共享已经成为信息界和图书馆界共同关心的话题,近年来,随着中国数字图书馆研究与开发的不断深入,数字化信息资源急剧增加,中国国家图书馆也在数字资源元数据的研究方面做了一些有益的尝试。
自20世纪90年代中期以来,国家图书馆一直致力于数字图书馆的研究和建设,近十年来,我们所开展的一些数字图书馆项目在元数据的创建和应用方面取得了丰富的经验,其中包括:SGML 的图书馆应用、基于特征的多媒体信息检索系统、中国数字图书馆演示系统、知识网络——数字图书馆系统工程、中国试验型数字图书馆、拓片数据库的研制以及中国数字图书馆网站的部分资源。
上面列出的项目包括但不仅限于元数据的创建和应用,下面,我简单地介绍一下这些项目所涉及的元数据应用的情况。
1. 文化部科研项目《SGML的图书馆应用》该项目是1997年文化部立项的科研项目,与北京大学计算机研究所合作开发。
国家图书馆现代文津信息技术研究中心参照国外利用SGML的情况,开发了基于SGML的图书馆应用系统,使用户可以通过Internet的WWW浏览器直接存取SGML应用系统的数据。
系统于1998年2月开始在我馆提供给用户使用,取得了良好的效果。
2.基于特征的多媒体信息检索系统的研究该项目是中国科学院技术研究所与国家图书馆的合作项目,列入1996年国家863攻关计划,现已通过技术鉴定。
项目主要研究基于内容特征的图像信息检索,实现按照图像的纹理、颜色、形状等特征对图像信息进行检索;研究中文信息的全文检索,利用相关检索机制,提高检索效率;研究信息存储管理方法,实现跨平台的客户端检索。
历届Dublin Core元数据年会取得的主要进展DC-11995年3月1-3日,第一届元数据研讨会在美国俄亥俄州的Dublin召开。
大会的目的旨在确定所研究的问题的范围,即是否只要一个简单的元数据元素集就能对网上的各种主题资源进行描述,会议为进一步发展描述电子资源的元数据元素的定义打下基础。
这届研讨会最主要的成果是设定了一个包含十三个元素的都柏林核心元素集:Dublin Core(或简称为都柏林核心DC)。
都柏林核心是在网络环境如因特网中,帮助发现文件类对象(DLO)所需要的最小元数据元素集。
而它的结构句法问题则作为一个执行细节没有进行详细说明。
DC-1所定义的13个元素:Subject: 主题、Title: 题名、Author: 作者、Publisher: 出版者、OtherAgent: 相关责任者、Date: 出版日期、ObjectType: 对象类型、Form: 格式、Identifier: 标识、Relation:关联、Source: 来源、Language: 语种、Coverage: 覆盖范围。
会议还指出了指导元数据发展的原则,这些原则在很大程度上影响了DC元数据的未来形态,为DC的未来发展定下了基调。
●“简单性原则”要求定义一个能得到最广泛应用、被全球所理解和接受的最小元素集,并能作为特殊用户详细描述需求的一个核心集。
●“易用性原则”要求能方便作者和信息提供者描述自己的文档,而不给他们增加太多的负担,并能方便地实现资源发现工具之间的互操作性。
●“内在性(intrinsicality)原则”指DC元数据以揭示描述对象自身的内容属性为主,外部属性为辅。
●“可扩展性原则”希望DC成为一个“核心”元素集合而可以通过各种方式扩展为适应各领域资源描述需要的元数据方案。
●“句法独立(syntax independence)原则”指DC元数据的元素可以以多种方式编码,应用于各类技术平台中。
DC只规定元素的基本语义。
●“可选择性”指DC元素集合中的任何元素都是可选的。
●“可重复性”指DC元素集合中的任何元素都是可重复的。
●“可修改性”指在具体应用中可以对DC元素集中的任何元素进行进一步“修饰”或“限定”,但不能扩大或改变元素的基本语义。
确定将来的发展方向:扩展对象类型,扩大功能范围,建立标准的扩展机制,继续优化已有成果。
伴随着这些原则将出现这些可能:核心元素集越小越好,且能被大多数用户所理解,元素集能灵活地描述广泛的主题区域内的资源。
DC-2第二届元数据研讨会于1996年4月1-3日在英国的Warwick召开。
它旨在扩大第一届元数据研讨会的影响。
会议的目标之一是明确成功应用INTERNET资源描述格式尚存在哪些障碍,大家认为需要在下述四个方面获得实质性进展:定义应用语法;开发用户指南;明确扩展机制;定义一个可兼容多种不同元数据的框架。
这次会议的最主要的成果既是后来被称之为“Warwick框架”的元数据结构的概念基础。
这个框架和Meta Content框架,成为了资源描述框架RDF发展的基础。
Warwick框架即是这样的一种容器——包型的结构。
这一结构具有下述特征:①模块化,可包含不同类型的元数据对象;②扩展性,可纳入新的元数据类型;③分布式,可参引外部的元数据对象;④嵌套型,可将元数据对象视为具有与之联系的元数据结构的信息内容。
DC-31996年9月24-25日,在美国的俄亥俄州的Dublin 组织了第三届元数据研讨会。
会议专门围绕在网络环境中描述图像和图像数据库的问题进行了讨论。
在第三次元数据会议中对DC的几个元素进行了修改,以使它们不至于以文本为中心。
另外还在原来十三个元素的基础上又新增加了两个元素:Description和Rights Management。
Description与Subject现在成为了两个独立的元素,因为图像专家认为它们对于图像来说是两个截然不同的概念。
这样,Subject将包括关键字,控制词条和正式分类指定标准。
而Description则用于图像方面的描述性文字或内容描述,并包括文本文件下的摘要。
权限管理字段被认为是一个核心描述记录的必要组成部分。
它对于图象描述极其重要,因此如果不包括这一元素将阻碍DC在图像领域的广泛应用。
DC-41997年3月3-5日,第四届元数据会议在澳大利亚首都堪培拉召开。
会议涉及了DC应用的一个根本性问题:如何扩展。
讨论扩展问题立刻遇到了分歧:DC是否可以增加、以及如何增加新的元素?这次会上两派意见的交锋得到了显性化:最小主义(Minimalists)学派坚持简单性原则,强调必须尽可能保持DC“核心”的“纯洁性”;结构主义学派(Structuralists)则认为必须要有一定的限定和修饰才能在应用中得到广泛的采用。
会议的一大成果就是提出了三类“堪培拉限定词”,即对DC元数据元素可以从取值的语种(Language)、模式体系(Scheme)和进一步修饰元素的属性类型(Type)三个方面进行限定或扩展。
语种指元素取值描述字段的语言,而不是资源本身所使用的语言;模式体系用来确定元素值遵从的某个体系结构中的合法值,如分类表、主题词、各类代码表以及日期表达方法等;Type是争议最大的一类限定,从名称上也很让人混淆,似乎称为“子元素”更合适一些。
它是指给定字段的一个方面,用途是缩小字段的语义范围,提高精度、丰富语义。
堪培拉会议根据扩展需求提出了DC元数据的另一个版本:“修饰版”(或称“限定版”)DC,对DC元数据采用HTML进行编码提出了一些指南性的意见。
这次会议对于DC的应用起到了相当大的作用。
DC-51997年10月,在芬兰首都赫尔辛基召开了第五次元数据会议。
这次会议的成果被概括为“芬兰终结(Finnish Finish)”,Finnish Finish将成为第一个DC正式标准的基础,并为它的广泛应用提供支持。
会议讨论了日期、覆盖范围和关联这三个元素,使十五个DC元素的定义讨论最终告一段落。
①日期(Date)。
这个元素自研究之初就存在问题,在资料的生命周期中有很多重要的日期,经过讨论,代表们认为日期的原始含义应该是:一个与资源创造或可获取性有关的日期。
②覆盖范围(Coverage)。
元素可被理解为资源知识内容的时空特征,其范围所包括的资源可以是从以图像显示的地理参考(geographically—refercnced)数据到天文测量数据集。
关于覆盖范围元素的应用目的最后也达成了共识:即为了支持资源的空间参考(spatially—referenced)。
③关联元素和1:1原则。
即每个资源都要有一个独立的元数据描述,而每一个元数据描述所包含的元素必须对应于一个单独的资源。
会后生成了一个子元素专题组,并使Z39.50能支持用DC指定的搜索。
DC-6第六次元数据会议于1998年11月2-4日,在美国的华盛顿特区举行。
会议产生了1999年工作计划,它包括DC的正规化、DC的标准化、DC在HTML中的编码、DC的限定、DC与其他资源描述方案之间的互操作性、RDF及其国际化等问题。
DC-7第七届元数据研讨会于1999年10月25-27日在德国法兰克福举行,主要议题是DC的限定问题,代理、引用、权限管理、题名等专题组取得了实质性成果。
最终在1999年12月22日形成了都柏林核心修饰词1.0工作草案。
DC-8第八届DC专题学术讨论会于2000年10月4-6日在加拿大的渥太华举行。
本届会议的主要目的是为了加强各个DC工作组的实验、交流和分享各种实验的实施经验,促进DC支持各异质元数据系统之间交互操作性。
总结了DCMI于2000年在DC限定词、DC标准化、DC作为元数据的语法、教育界的DC、DC登记、应用属性等方面工作的进展情况,推出DC修饰词标准。
2001都柏林核心及元数据应用国际研讨会(第9届会议)于2001年10月22-26日在日本东京举行。
主题包括:元数据的概念模型;元数据应用的系统与工具;元数据应用:案例分析、调查统计;基于元数据的创新的活动;元数据互操作;各种元数据技术标准的相互关系。
DC-20022002都柏林核心及元数据应用国际研讨会于10月13-17日在意大利的佛罗伦萨举行。
讨论的领域包括:电子政务;搜索引擎与元数据;知识管理;电子政务与Internet中使用的DC元数据;语义Web:标准分类体系、索引、元数据和本体的作用;元数据互操作:工具与协议等。
DC-20032003都柏林核心及元数据应用国际研讨会于2003年9月28日-10月2日在美国西雅图召开。
中心议题是社区支持的讨论与实践——元数据研究与应用。
会议在元数据使用团体和元数据应用的过程、著录目标、元数据参考模型、协议、标准等方面展开了讨论。
各工作组正式提出或修订各自的章程,提出要用抽象模型对各类应用纲要进行规范。
DC-2004DC-2004元数据年会于2004年10月11-14日在上海举行。
这次会议的主题是多文化和多语种环境下的元数据。
着重讨论了DCMI各工作组和W3C、IFLA和NISO等相关组织在元数据标准及应用等方面的众多议题,并就元数据应用纲要的形式化问题、进一步加速和扩展DC应用领域等问题进行了深入具体的讨论,推进DC作为支撑W3C语义万维网的最佳实践已成为DCMI当前最为重要的一项工作。
会议的主题是“Vocabulary in Practice”,显示了DC专注于语义及推进应用的工作重点。
本次会议取得了如下成果:4个新的属性术语得到了认可,它们是:instructionanMethod(教育元数据工作组提出)、accrualMethod、accrualPeriodicity 和accrualPolicy(资源集合元数据工作组提出);为contributor的修饰词(子元素),MARC relator terms(MARC关系词)得到了认可;应用委员会也要继续审查DCSV(Dublin core structured Value)规范术语的使用不符合抽象模型的问题。
DC-20062006年国际都柏林核心及元数据应用于10月3日-6日在墨西哥曼萨尼约Manzanillo召开,会议以“Metadata for Knowledge and Learning”为主题。
会议论文分三个主题:元数据模型、本体与控制词表和教育元数据。
小组讨论的论文分成四场:元数据方案实施、调整与共享、应用部署以及领域中的资源。
DC-20072007年度的“都柏林核心与元数据应用国际研讨会”于8月27日至31日在新加坡举行。
本次会议的主题是“元数据应用纲要的理论与实践(Application Profi le: Theory and Practice)”,提出了一整套以DC元数据抽象模型为基础的元数据形式化方案,被归纳为“新加坡框架(Singapore Framework)”,为下一阶段开发元数据软件工具,以及编制可用性和互操作性强的元数据方案提供了一个统一的模型和编码基础,有望使元数据应用长期滞后于实践需求的状况得到根本性的改善。