交通运输信息系统数据库字段命名及属性定义规范化研究

  • 格式:docx
  • 大小:44.91 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

交通运输信息系统数据库字段命名及属性定义规范化研究

王昱元;赵怀鑫;张绍阳;宋文丽

【摘要】为促进交通运输行业数据的共享交换,加强共享交换信息的可理解性和

信息系统的可维护性,结合交通运输行业信息化发展现状,提出统一交通运输信息系统数据库字段命名方法以及属性定义。在字段命名方面,考虑字段名的业务属性、标准性及可理解性,给出了包括基本业务领域标识、引用标准类别标识和字段名缩写等部分的字段命名规则,其中字段名缩写采用中文名称拼音缩写和英文名称缩写两种方法。在属性定义方面,根据《交通信息基础数据元》(JT/T697-2013)

中的数据属性定义方法,对常见的5类数据库管理系统的字段类型、格式及备注

等属性定义作了推荐。相关交通运输信息化项目应用表明,通过对字段名和属性定义的规范,保证了数据交换和共享双方的相互识别.提高了在标准符合性检测方面的准确率。

【期刊名称】《交通运输研究》

【年(卷),期】2015(001)003

【总页数】8页(P89-96)

【关键词】交通运输行业;字段命名方法;字段属性;数据共享交换;名称缩写

【作者】王昱元;赵怀鑫;张绍阳;宋文丽

【作者单位】[1]长安大学信息工程学院,陕西西安710064;[2]陕西省交通运输厅综合规划处,陕西西安710021;[3]西安兴网通信科技有限公司,陕西西安710075

【正文语种】中文

【中图分类】U9

“十二五”期间,交通运输信息化的主要目标是实现“从效率到效能、从分散到集约、从封闭到开放”的三个转变,因此共享交换在避免重复建设、落实协同机制、实现资源共享等方面具有深远的意义。从数据的交换和共享角度,规范的数据库字段名在数据交换中是保证双方相互识别的主要标识,同时,字段属性在同一数据库的统一定义也会给交换和共享带来便利。

《交通信息基础数据元》(JT/T 697—2013)[1]是交通运输行业重要的数据标准,遵守ISO/IEC 11179—1的规定,在数据元的属性中,给出了分类编号。该编号

采用“字母+数字”分类序号的方式,但没有字段名属性。在字段名称设计中,使用该数据元标准的中文名称或分类编号存在很多弊端,不符合软件开发习惯,通常开发人员倾向于使用自定义的字段名,这样造成了数据字段和标准不对应的问题;在属性规定方面,《交通信息基础数据元》出于统一数据属性的目的对数据的类型、格式等属性进行了规定,但为了避免特定数据库管理系统的限制,规定的类型和格式使用通用的方法描述。然而在实际编程中参照标准进行数据库字段设计时,由于数据库系统不同、表达方式不同、编程阶段不同等,开发人员存在理解差异,造成数据字段的属性定义不统一,影响了标准的执行效果。

目前,其他一些行业已不同程度地开展了数据库字段命名及属性定义方法的研究工作。如刘丽等[2]针对国土资源数据库命名缺乏整体协调统一的问题,结合国土资

源数据具有多业务、多时相、多领域、海量性等重要特征推荐了两类命名规则:以行政区为基础的命名规则和以标准图幅为基础的命名规则。这两类规则皆采用三十位数字的编码方法,使不同时间、不同业务、不同空间上的数据命名达到标准上的统一。张永波等[3]制订了《中国地下水资源空间数据库标准》,其中采用了“八

位数字+字母”的图元编码方法对相关地下水资源数据进行统一规范,提高了全国地下水资源评价的效率与准确率。王霞等[4]提出了卫生信息编码标准代码体系,

对卫生信息进行分类并加以编码,该信息编码标准遵循国际标准、国家标准和行业标准的原则,建立和制订了适合、满足行业需要的信息编码体系和标准。

另外,一些通用的字段命名方法在各种数据库管理系统以及编程语言中都得到了广泛的应用,如驼峰命名法、Pascal命名法、匈牙利命名法。Ora⁃cle推荐了字段名命名方法,其中规定英文单词可以采用缩写命名,单词之间用下划线连接,对于存储特殊内容的字段可以将具有特殊含义的单词加在结尾;MYSQL也推荐了字段命名规则,规定表别名加单词的方法,首字母小写,后面单词的首字母大写。

现有数据库字段命名方法及其混合方法虽然在众多数据库中可满足编程人员的要求和习惯,但由于交通运输行业的行业特点,并不能满足或符合行业内的数据共享与交换要求。而事实上当前交通运输行业数据库字段命名方法的不统一的确给数据共享和交换带来诸多不便,为此本文将参考其他行业在字段名统一方面的成果,提出对交通类数据库字段命名和数据属性定义进行统一规定,并对主流数据库中不同存储对象的字段类型、格式和备注等属性信息进行推荐,以期推动业界数据的共享与交换工作。

1.1 数据组织粒度

数据的产生可以分为以下两种情况。第一种情况:产生自客观事物信息的数据化。客观事物信息的数据化过程就是将现实世界中的信息转化为计算机中存储数据的过程。第二种情况:从其他系统交换而来的数据,属信息的互联互通,也是信息化发挥综合效益的重要途径。可见,从其他系统交换数据是信息系统数据的重要来源之一。

信息有粒度,数据也是有粒度的。从数据的产生过程可知,客观事物信息数据化时,即产生了单个的独立数据;同一类独立数据的集合,形成数据组织的最原始单位,即数据项;对多个数据的有序组织,就形成了数据集。因此,从数据组织角度,可将数据分为三个粒度:独立数据、数据项、数据集。

(1)独立数据

独立数据是指单个的、具体的客观事物的属性值。例如“张三”,该数据代表某个人的姓名。独立数据具有数量庞大、分散的特点,不易管理。归类是人类认识事物的一个基本方法。在数据管理中,一般也对数据进行归类。

(2)数据项

数据项是对客观事物某个属性标识及其内容的总称,也称为数据元素,可以理解为同一类数据的集合,数据项的定义即为该类数据的定义。例如,“姓名”代表了一个数据项,“张三”是该数据项的一个特定值,该值必须服从“姓名”数据项的定义。数据项将数据按类别进行有效组织,起到了提纲挈领的作用。数据项的定义包括类型、格式等,是计算机中对数据进行组织的最小单位。数据项的定义对独立数据形成了约束。在关系型数据库中,数据项与“字段”的定义相对应。

(3)数据集

数据集是指有限数据项及其内容的集合。在交换中,一般是以数据集的方式进行交换,数据集是交换数据的集合,可大可小。数据集的属性包括其组织方式、内容、表示方式等。

1.2 数据交换中的数据概念及其粒度

信息的价值是在交换中体现的。从前文可知,从其他系统交换数据是信息系统数据的一个重要来源。下面针对关系型数据库之间的数据交换过程进行分析。

在关系型数据库中,所有数据都存储在关系(通常所说的二维表)中。客观事物的同一特性的数据存储在二维表的一个列中,该列称为一个字段(或属性),字段的概念与数据项的概念相对应。每一行对应着一个客观事物对象,称为记录(或元组)。因此,在以关系型为主的数据存储中,数据的标准化就是对关系表的字段(即列)定义的统一规定。

在交换过程中,单个数据是最基本的交换内容。数据的组织可分为以下三个层次。