置标语言(SGML、HTML、XML)
- 格式:ppt
- 大小:282.50 KB
- 文档页数:17
应用系统建设标准和规范1标准体系信息系统建设的核心目标是互联互通、信息共享、业务协同,而实现这些功能的关键是技术标准的科学确定。
标准不仅是信息系统建设的指针,也是信息系统建设效果评估的依据。
应用系统建设是一个复杂的系统工程,它涵盖从操作系统、数据库系统、中间软件、支撑软件及多个应用软件等各个方面的内容,包括系统信息安全、处理流程定义、信息内容格式、数据交换格式等各个方面的问题。
它要求达到充分利用数字虚拟空间,跨越各职能部门间的限制,使各职能部门互联互通与跨部门协同办公的目标。
要做到这一点,就必须对职能部门的各个层次、各个方面制定一系列的标准和规范。
按照此标准化体系,能够对政务数据和信息进行灵活、有效、多元化的管理,实现以政务信息驱动横向/纵向政务流程。
行业信息化标准体系,涉及以下几个方面:总体标准、业务应用标准、信息资源标准、应用支撑标准、网络基础设施标准、信息安全标准和信息化管理标准等方面。
1.1总体标准包括术语标准、标准化指南和总技术要求等。
术语标准主要包括与烟草行业信息化相关的术语标准,以统一烟草行业信息化建设中遇到的主要名词、术语和技术词汇,避免引起对它们的歧义性理解。
术语标准可分为烟草行业专用术语、基础术语和专业术语。
标准化指南包括标准化工作的工作导则、编制指南以及实施细则等。
总技术要求包括烟草行业信息化建设统一技术平台要求以及计算机网络和信息安全技术管理规范等。
1.2应用标准应用标准分体系包括文档交换格式和应用系统等。
文档交换格式标准主要是指为了实现应用系统之间文档交换的兼容性而制定的标准和规范。
应用系统主要包括烟草行业管理信息系统、烟草行业工/商企业管理信息系统以及相应的子系统的相关标准。
其中,烟草行业管理信息系统包括电子政务、电子商务、卷烟生产经营决策管理系统和其它应用系统。
1.3信息资源标准信息资源标准分体系包括数据元、信息分类与编码和数据库等。
数据元标准包括烟草行业专用数据元以及数据元的通用规则、贸易数据元和电子政务数据元等方面的相关标准。
标准通⽤标记语⾔SGML(StandardGeneralizedMarkupLanguage)简介什么是SGML SGML是国际上定义电⼦⽂档和内容描述的标准。
它源于1969年IBM公司开发的⽂档描述语⾔GML,GML主要⽤来解决不同系统中⽂档格式不同的问题。
后经过多年发展,1986年经ISO批准为国际标准ISO8897,并被称为SGML。
制定SGML的基本思想是把⽂档的内容与样式分开。
在SGML中,标记分两种:⼀种⽤来描述⽂档显⽰的样式,称为程序标记;另⼀种⽤来描述⽂档中语句的⽤途,称为描述标记。
⼀个SGML⽂件通常分三个层次:结构、内容和样式。
结构为组织⽂档的元素提供框架,内容是信息本⾝,样式控制内容的显⽰。
SGML的平台⽆关性、结构化、可扩展等特性,使得它使⽤范围很⼴,被许多⼤型公司⽤来创建和发布信息。
设计思想 将内容和样式分开.特点1. 它可以⽀持众多的⽂档结构类型,例如布告、技术⼿册、章节⽬录、设计规范、各种信函等;2. 它可以创建与特定的软硬件⽆关的⽂档,因此很容易与使⽤不同计算机系统的⽤户交换⽂档。
标识性置标语⾔、程序标记、描述标记表⽰性标记(Presentational markup)表⽰性标记是确定⽂本表⽰⽅式的标记,但不影响其结构。
在HTML中,表⽰性标记由<b>,<i>(带有相应的结束标记)或之类的标记表⽰。
程序标记(Procedural markup)过程标记为⽂本处理器提供了如何处理⽂本的指令。
当处理器运⾏⽂本时,将遵循过程标记。
为⽂档处理系统(例如troff,PostScript和TeX)创建了程序标记。
描述标记(Presentational markup)描述性标记标记了⽂档的不同部分,然后给出了如何显⽰⽂本的说明。
描述性标记也以“语义标记”为名。
它的HTML⽰例为<form>,<table>,<HEAD>等。
⼀、XML语⾔简介1、XML发展史1) gml:(1969)Generalized Markup Language通⽤标记语⾔:主要的⽬的是为了达到不同的电脑进⾏通讯的数据规范2) sgml(1985)标准通⽤标记语⾔3) html(1993)HyperText Markup Language :随着万维⽹的出现才出现的html语⾔,但是本⾝是有缺点的,例如其标记不能⾃定义,本⾝缺少⼀些含义;html没有真正的国际化4) xml():1998 Extensiable markup language(可扩展标记语⾔) w3c组织在html语⾔的基础上推出xml语⾔备注 :可扩展标记语⾔主要是给浏览器或者给⼀些语⾔观看的,但并不是纯粹的给浏览器看的,也可以给java、其他语⾔看,xml的编程是好多语⾔都可以使⽤的。
2、XML的常见应⽤1)xml的出现解决了程序间数据传输的问题:(数据传输的通⽤格式),⽤xml格式来传送数据,具有良好的可读性和可维护性2)xml可以做配置⽂件:⽐如tomcat服务器的Server.xml,web.xml;sturts中的sturts-config.xml⽂件;以及hibernate的hibernate.cfg.xml3)xml可以充当⼩型的数据库可使⽤xml⽂件做⼩型数据库,程序中会⽤到⼀些经常要⼈⼯配置的数据。
如果放在数据库中读取不合适(会增加数据库的维护⼯作),则可以考虑⽤xml来做⼩型数据库(⽐如msn中保存⽤户聊天记录就是⽤xml⽂件的),⽽且直接读取⽂件显然要⽐读取数据库快3、XML⽂件的构成:【1】 ⽂档声明<?xml vesion="1.0" enconding="gb2312"? standalone="yes"?>1) xml :表明该⽂件是xml⽂件2) version :表⽰xml的版本号3) enconding :⽂档的字符编码,⽤来告诉浏览器按照什么样的编码⽅式来解析,但是⽂件在存储的时候⽤的是ANSI,(在保存的时候可以进⾏不同的编码格式保存)编码问题:ANSI是American national standard insitute(美国国家标准协会)制定的⼀个编码格式,在不同的国家是不⼀样的,中国ansi对应的就是gb2312;在台湾ansi对应的可能就是gbk big54) standalone :⽂档定义是否独⽴使⽤(即这个xml⽂件是否和别的⽂件由配合使⽤)standalone="no"是默认的【2】 元素1)⼀个xml元素可以包含的内容:字母、数字以及其他⼀些可见字符,但是必须遵守下⾯⼀些规范: A、区分⼤⼩写,例如:<P><p> 是两个不同的标记 B、不能以数字或“_”(下划线)开头 C、不能包含空格 D、名称不能以数字开头,中间不能包含冒号,冒号是留给命名空间使⽤的 E、标签成对、空标签关闭、标签正确嵌套[2]元素/标签 的写法:2)备注: 不含标签体的两种写法:<age></age> 或者</age> 对于xml标签中出现的所有空格和换⾏,xml解析程序都会当做标签内容进⾏处理,例如下⾯两段内容的意义就不⼀样: 写法⼀:<stu>xiaoming</stu> 这种写法是标准的格式要求写法 写法⼆: <stu> xiaoming </stu>由于在xml⽂件中,空格和换⾏都作为原始内容被处理,所以,在编写xml⽂件中,要特别注意【3】属性 属性值⽤双引号括起来,或者⽤单引号括起来。
标准通用标记语言
标准通用标记语言(SGML)是一种用于创建电子文档的标记语言。
它是一种元语言,意味着它可以用来定义其他标记语言。
SGML的设计目的是为了解决不同计算机系统之间文档交换的问题。
SGML包含三个主要组件:文档类型定义(DTD)、元素和属性。
DTD定义了一个文档中允许出现哪些元素和属性,以及它们之间的关系。
元素是文档中的基本单元,可以包含其他元素或者文本。
属性则提供了有关元素的附加信息。
SGML还提供了实体和注释等功能。
实体可以用来代替常用字符或符号,例如特殊字符、符号和图像等。
注释则允许在文档中添加对某些内容的解释或说明。
使用SGML创建电子文档需要以下步骤:
1. 创建DTD,定义文档结构和规则。
2. 编写文本内容,并使用标签将其标记。
3. 根据DTD验证并修正错误。
4. 生成最终输出格式,例如HTML或XML。
SGML已经被广泛应用于许多领域,例如医学、法律、出版业等。
它也为HTML和XML等其他标记语言的发展提供了重要基础。
总之,SGML是一种强大的标记语言,可以用于创建各种类型的电子文档。
它提供了丰富的功能和灵活性,使得文档的创建和交换变得更加容易和高效。
HTML的定义实现网页结构以及内容的语言HTML是什么:HTML是Hypertext Markup Language的缩写,即超文本标记语言。
它是用于创建可从一个平台移植到另一平台的超文本文档的一种简单标记语言,经常用来创建Web 页面。
HTML文件是带有格式标识符和超文本链接的内嵌代码的ASCII 文本文件。
用Monyer 的话说,HTML就是做网页结构及内容实现的一门语言。
下面这段代码是HTML的基本结构,在“<>”中的为HTML标记,一般一个“<xxx>”标记出现,则必需要一个相应的“</xxx>”对其标示范围进行结束;除非该标记为自关闭标记,一般以“<xxx/>”的形式出现。
<html><head><title>Monyer's Example</title></head><body><div id="first">Hello World !</div><div id="second">Hello Monyer !</div></body></html>代码一如果把网页(<html>...</html>)看成是人的话,那么<head>...</head>是他的头,但这部分内容通常不会在网页正文中显示;<body>...</body>是他的身体,也是一个网页内容显示部分。
所以将以下代码保存为*.html后并双击在网页浏览器中运行,显示的仅仅是:Hello World !Hello Monyer !但所有的HTML标记均是被浏览器执行的对象,并不会显示出来。
需要注意的是,在上段代码中承载“Hello World !”和“Hello Monyer !”的两个“<div/>”容器内部均有一个id标识,id中的内容是可以随便定制的,但请务必保证id中内容的唯一性——因为它是使别人找到它所在的门牌号。
上海交通大学硕士学位论文HTML转换到XML格式以及不同XML标准格式之间的转换姓名:戴怡钧申请学位级别:硕士专业:计算机应用技术指导教师:王永成20030101上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:日期:年月日上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密口,在一年解密后适用本授权书。
本学位论文属于不保密口。
(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日HTML转换到x札格式以及不尚XML标准格式之间的转换摘要当今是信息时代,信息如爆炸般地产生,由于Intemet的普及,更把信息带到全球。
但这些信息不仅文种各异,而且格式杂乱纷繁。
如何整理这些信息?如何使信息的表示尽可能地实现规范化,尽可能地容易处理?这已成为很多人关心的问题。
早期,人们提供了HTML语言,它可以较好地表示网上的信息。
但是,随着实践的拓广与深入,HTML的弊病逐日明显与突出。
它已阻碍了信息在网上的进一步传播与加工。
于是,开创一种更新更富于表达也更易于识别加工的网络信息表达格式,即XML,已成为时代的研发热点。
为了统一规范,很多人都在研发XML的标准。
标准不仅要受到权威单位的认可,更重要的是要得到广大用户的认同与使用。
在这方面我国还相对滞后。
为此,首先,我在导师的指导下,抓紧时机,抢先研发标准,以促进我国权威部门的先行,并做其参考;其次,我们研究了如何完成HTML格式到XML格式的转化,如何在不同的XML格式间进行信息的转换等等问题,并取得了初步进展。
第一章一、名词解释1、文献:是用一定的技术手段把一定的信息内容记录到一定载体上形成的存储型传递媒体。
2、著录:对表示文献内容、外表形式和物质形态的特征进行分析、选择和记录的过程。
标引:指在分析文献内容和情报提问的基础上,用某种索引语言或标志符号把文献的主题概念及其他有检索意义的特征标示出来,作为情报存储和检索依据的处理过程。
按照索引语言或标示符号的类型,可分为分类标引,主题标引和非主题标引。
3、款目:依据一定的方法,对表示文献内容,外表形式和物质形态的特征所做出的记录。
4、信息组织的必要性即为什么要学习信息组织?a.知识和信息的海量新和无限性与人的精力和时间的有限性形成了尖锐的矛盾;b.知识和信息的无序性和污染性与人类使用的选择性也形成了尖锐的矛盾;c.越来越多的人意识到,“原始信息本身并不能产生价值” ,只有对信息资源采用相应的方法加以控制和处理才能使人们实现对其合理开发和有效利用,而信息组织则是解决这一问题的根本方法和关键措施之一;d.深入研究与解决关于信息组织的系列问题是十分必要的。
5、信息组织(信息序化或信息整理):利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
6、信息组织的基本专业要求是?a.信息内容有序化;b.信息流向明确化;c.信息流速适度化。
7、耗散结构论是比利时学者普里高津提出来的;协同论是德国物理学教授海尔曼. 哈肯提出来的。
知识理论——H.E. 布里斯提出来的。
知识组织可分为主观知识的组织和客观知识组织两种类型。
8、专指度:是指我们在信息揭示的主题标引中对信息中各个主题的内容和方面的展示过程。
9、按照信息组织的组织对象把信息组织分为信息资源组织和检索工具;依据信息组资源的注意内容,主要分为分类法和主题法。
第二章1、七分法是我国出现最早的一部图书分类体系,始创于汉代的《七略》,后现于南朝的《七志》和梁朝的《七录》。
俄语国家语料库的标注系统作者:陈虹来源:《文教资料》2014年第12期摘要:标注是语料库的重要特征,其层次和质量决定所建语料库的级别和有效使用程度。
俄语国家语料库是当今世界上成功创建的大型现代语料库之一,其标注模式是在国际标注模式的基础上,结合俄语自身的语言特征进行扩展的成功范例。
目前它的标注体系包括四种,即元文本标注、词法标注、句法标注和语义标注。
研究国外包括俄语在内的各语种语料库的标注经验,可以更好地为建设国内语料库提供参考和借鉴。
关键词:俄语国家语料库标注语料库一、引言在创建语料库时,需要对收集来的普通文本进行处理,即在纯文本文件中添加表示文本基本信息或文本单位语言特征的特殊符号或符号串,这些符号或符号串称为标记或附码(тэг,tag)。
为语料库纯文本添加标记的过程称为标注(разметка или аннотация,annotation or tagging),标注后,文本包含的信息由隐性变为显性,利用相应的检索系统可以最大限度地使用语料库,语料库的有效使用依赖于纯文本标注的层次和质量。
对纯文本利用计算机资源进行批量处理和检索,以及多维度、多层面标注纯文本,是语料库语言学、计算语言学的重要课题之一。
从世界范围来看,俄语语料库的标注以俄语国家语料库(Национальный Корпус Русского Языка,НКРЯ)的标注最成功、最具代表性,层次和质量最高。
和汉语一样,俄语也是世界上最复杂的语言之一,研究俄语纯文本的标注及俄语语料库的标注系统,有助于进行汉语相关领域的研究。
二、语料库标注(一)语料库标注的规范语言为了表示文本中包含的语言信息,方便语言学研究,语料库需要进行规范、系统的标注。
适用于万维网大多数网页的标记语言——HTML语言(HyperText Markup Language,超文本标记语言),由于其标记是固定的,因此不能满足标记必须是自定义的语料库标注的需要。
现阶段世界各国开发语料库使用的标记语言有两种,即SGML语言(Standard General Markup Language,标准通用标记语言)和XML语言(Extensible Markup Language,可扩展标记语言)。