林业科学数据分类与编码V中国林业科学数据中心
- 格式:doc
- 大小:362.50 KB
- 文档页数:11
计算机教学与教育信息化本栏目责任编辑:王力林业院校中“数据科学导论”的课程改革探索熊飞,曹涌,孙永科(西南林业大学大数据与智能工程学院,云南昆明650224)摘要:数据科学导论是数据科学与大数据专业中很重要的导论性课程,课程中涉及了统计学、计算机、机器学习和深度学习的大量前沿内容,具有理论复杂、知识点繁多的特点。
理工科基础较为薄弱的林业院校学生掌握难度较大。
本文提出了数据分析基础、机器学习与深度学习和数据管理与产品开发的三大模块构成的课程体系以及相应的教学模式,侧重于培养学生以数据为中心的思维模式,形成了符合林业院校特色的导论课程。
关键词:数据科学导论;课程改革;导论课程;林业院校;思维模式中图分类号:TP391文献标识码:A文章编号:1009-3044(2021)15-0147-03开放科学(资源服务)标识码(OSID ):Exploration on Course Reform of Introduction to Data Science in Forestry Universities XIONG Fei,CAO Yong,SUN Yong-ke(College of Big Data and Intelligent Engineering,Southwest Forestry University,Kunming 650224,China)Abstract:Introduction to Data Science is an important introductory course for Data Science and Big Data Technology,which covers a wide range of cutting-edge content in statistics,computers,machine learning,and deep learning.Therefore learning of this course is a challenging work for students that whitweak foundations in science and engineering in forestry universities.A teaching model focus on cultivating a data-centric mindset is introduced in this paper,which includes three parts:data analysis,Machine learning and deep learning,data management and product development.The redesign of Introduction to Data Science makes it con⁃form to the characteristics of forestry university.Key words:introduction to data science;course reform;introductory course;forestry universities;1引言2015年由国务院印发了《国务院关于印发促进大数据发展行动纲要的通知》标志着国家把大数据上升到了国家战略的层面,随后在2016年教育部在《教育部高等教育司关于2016年度普通高等学校本科专业设置工作有关问题的说明》中增加了数据科学与大数据技术专业(专业代码:08910T )来促进数据科学专业人才的培养。
林业科学数据元数据标准(V3.10版)1 主题内容与适应范围本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据内容框架和林业科学数据共享元数据标准。
提供了有关林业科学数据集的标识、内容、分发、数据质量、数据表现、参照系和元数据参考信息等内容。
本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。
本标准的元数据分为两级,即核心元数据和详细元数据。
核心元数据规定了描述数据集最关键的信息内容。
在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。
用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据内容,建立相应级别的元数据库。
2 规范性引用文件下列规范性引用文件通过本部分的引用而成为本标准的条款。
凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准。
但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。
但是不注日期的引用文件,其最新版本适用于本标准。
ISO和IEC 成员维护目前有效国际标准的注册。
科学数据共享工程技术标准—科学数据共享元数据标准内容1.4SDS/T 2112—2004 科学数据共享工程技术标准GB/T 1.1—2000 标准化工作导则GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法GB/T 4880.2-2000 语种名称代码第2部分:3字母代码GB/T 2260-2002 中华人民共和国行政区划代码GB/T 7156-1987 文献保密等级代码SDS/T 2111—2004 元数据标准化原则与方法SDS/T 2122—2004 科学数据共享工程数据分类编码ISO 19115 地理信息—元数据(Geographic information—Metadata)3 术语和定义3.1 数据集dataset数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。
植物地被的项目编码植物学是一门综合性学科,研究内容涉及植物的形态、分类、生理、生态、分布、发生、遗传、进化等,涉及17个学科方向。
伴随着植物学研究的发展,在植物学各个研究领域都产生了海量的科学数据,且随着新技术的发展,数据呈现出数据量大、类型多,且更新快等特点。
如何集成、管理、利用好海量的植物科学数据,进而推动产生新的科学发现,是植物科学领域亟需解决的问题。
数据分类与编码是推进数据深度整合的基础。
数据分类的合理性直接影响数据组织、生产、交换和共享的效率和质量。
因此,开展数据分类与编码标准化工作,可有效提高数据组织和生产的效率和质量,是科学数据共享活动面临的任务之一。
然而,植物科学数据散落在从事植物研究的各个高校、研究所等多个部门,虽然也建立一些植物科学数据共享系统,但是缺乏整体规划,各部门采用不同的分类编码规则,导致各信息系统互不兼容,“信息孤岛”问题严重,无法对不同系统所产生的数据进行整合、综合利用与分析。
而且,在现有的科学数据分类和编码体系中,也缺乏系统、全面的植物科学数据分类与编码方案。
因此,当前亟需建立一套植物科学数据分类和编码系统,为数据集的组织、整合、汇交、发布和目录查询提供系统化、规范化、实用性的分类和编码方案,促进植物科学数据的集成、整合与深度挖掘,推动植物科学研究的进一步发展。
本章在参考了科学数据共享工程数据分类和编码方案(SDS/T2122-2004)、林业科学数据分类和编码(v1.0)、地震科学数据分类与编码(DB/T11.1-2007)等规范的基础上,制定了植物科学数据分类与编码方案,主要服务于植物科学数据的标识、汇交、深度整合及共享,也可以供制定其他学科的数据分类与编码方案参考。
2引用标准GB/T13745-2009学科分类与代码3术语和定义3.1植物科学数据Plantscientificdata科学数据是指人类在认识世界、改造世界的科技活动所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息。
林业调查地类代码表篇一:森林二类调查因子分类及代码一览森林二类调查因子分类及代码一览1、地类:乔木林纯林111 乔木林混交林112竹林113 人工矮化乔木林114 疏林地120国规灌木林131 其它灌木林132 未成林造林地141 苗圃地150采伐迹地161火烧迹地162宜林荒山荒地171宜林沙荒地172 其它宜林地173 旱地211 水田212水域230 未利用地240工矿建设用地251居民建设用地252 交通建设用地253 其它用地2542、权属:国有1 集体2 个人3 其它43、地貌:中山1 低山2 丘陵3 岗地4 平原54、坡位:脊部1 上部2 中部3 下部4 谷地5 平地6全坡75、坡向:北1 东北2 东3 东南4 南5 西南6 西7西北8 无96、母质名称:花岗岩、片麻岩类17、土壤名称:黄宗壤111(山地黄宗壤22黄褐土23黄宗壤性土24)18、土壤/腐殖层/枯枝落叶层厚度:厚1 中2 薄39、立地类型:阴坡中厚层土类型2915阴坡薄层土类型2916阳坡中厚层土类型2917 阳坡薄层土类型291810、森林(林地)类别:生态公益林1 商品林211、起源:天然1 人工212、林种:水源涵养林111 护岸林115护路林116速生丰产用材林132 一般用材林133 薪炭林141果树林151 药用林154 其它经济林15513、平均年龄:记录树木实际生长年龄14、龄组:幼龄林1 中龄林2 近熟林3 成熟林4 过熟林515、产期:产前期1 初产期2 盛产期3 衰退期416、竹林龄组:幼龄竹1 壮龄竹2 老龄竹318、公益林事权:国家级1 省级2 市级3 县级419、公益林保护等级:特殊1 重点2 一般320、生态区域:湿地(水库)14 未纳入国家范围内的水库21、生态功能等级:好1 中2 差322、群落结构:完整结构1 较完整结构2 简单结构323、自然度:? 1 ? 2 ? 3 ? 4? 524 健康状况:健康1 亚健康2 中健康3 不健康425、商品林经营等级:好1 中2 差3226、生长类型:?类林1 ?类林2 ?类林32(转载于: 小龙文档网:林业调查地类代码表)7、可及度:即可及1 将可及2 不可及328、经营类型:人工松类用材林2 人工杉类用材林4 落叶松马尾松短轮伐期用材林11火炬松湿地松短轮伐期用材林12 意杨短轮伐期用材林13水源涵养林14 农田防护林17 护岸林18 护路林19薪炭林27 油料林28 特种经济林29 果树林30其它经济林31 毛竹林32 杂竹林3329、造林类型:填写适合的树种及其代码30、经营措施类型:抚育间伐型1 改造型2 幼林抚育型3 封育型4 管护型531、天然更新等级:良好1 中等2 不良332、工程类别:平原绿化123 退耕还林坡地造林131退耕还林荒山荒地造林132 其它工程29033、土壤水蚀等级:轻度1 中度2强度3 极强度4 强烈534、农地造林的在小班卡片补充说明:是农地造林但是第一栏地类要填写相对应的名称和代码35、立木类型:林木1 散生木2 四旁树336、湿地类型:水库、拦河坝、蓄水区113农用池塘、小型水池14 灌溉用沟、渠15 稻田、水田16 永久性河流21 篇二:二调地类代码表表A1 土地利用现状分类表A2 城镇村及工矿用地篇三:林业信息综合核查表(最新版)1.1 林业综合核查1.1.1 重复上报、虚报登记表核查人员: 核查时间: 年月日1.1.2 人工造林(更新)实绩、退耕还林保存状况小班调查表省: 县: 乡: 上报年度:地区类别: 单位:亩,%调查员: 调查时间: 年月日1.1.3 年度人工造林(更新)保存状况小班调查表省: 县: 乡:上报年度: 地区类别:单位:亩,%,cm调查员:调查时间: 年月日1.1.4 封山(沙)育林实绩核查小班调查表调查员:调查时间: 年月日1.1.5 封山(沙)育林成效核查小班调查表调查员:调查时间: 年月日1.1.6 封山育林实绩核查样圆记录表4省:县:乡:村或封育区: 上报年度: 样圆面积:10 m21.1.7 封山育林成效调查样圆记录表省: 县:乡: 村或封育区:上报年度:样圆面积:10 m21.1.8 飞播造林成苗调查播区因子记载表单位:亩省(自治区、直辖市)县(市、区) 调查年度上报年度计划年度飞播年度播区名称播区图幅号是否重播作业方式作业设计单位资质县确认播区面积: 核实播区面积:播区上报宜播面积A:按分县统计上报面积平差后的宜播面积B:播区核实宜播面积核实宜播面积平均每亩有效苗株数:有苗频度:点播、植苗成活率%: 效果评定: 核实宜播面积前地类:疏林地宜林荒山荒地宜林沙荒采伐迹地火烧迹地其它宜林地其它无立木林地林地权属林木权属飞播类型上报工程类别核实工程类别林种目的树(草)种组成损失面积其中:1.自然灾害 2.建设征用占用 3.开垦种地5不合格原因:1.植被处理2.种子质量 3.播期选择4.风蚀沙埋5.病虫鼠害6.立地条件7.干旱8.播区管护宜播面积不核实原因:1.虚报2.重复上报 3.无作业设计4.面积测量不准宜播面积规划林地情况:调查者: 年月日6。
科普资源分类与代码1 范围本文件规定了科普资源的基本要素、分类原则、分类与编码方法以及代码表。
本文件适用于科普资源的信息采集、分类、存储、管理、共享与交换。
2 规范性引用文件本文件没有规范性引用文件。
3 术语和定义下列术语和定义适用于本文件。
科普 science popularization采取公众易于直观理解、接受、参与的方式,弘扬科学精神、普及科学知识、倡导科学方法、传播科学思想的活动。
[来源:GB/T 41132—2021,定义3.1]科普资源 science popularization resource用于普及科技知识、倡导科学方法、传播科学思想、弘扬科学精神的实物资源和数字资源。
注:本文件中的科普资源包括实物形式、数字形式的科普作品,不包括科普人力资源、科普财力资源和科普设施资源。
分类 classification按照选定的属性(或特征)区分分类对象,将具有某种共同属性(或特征)的分类对象集合在一起的过程。
[来源:GB/T 10113—2003,定义2.1.2]代码 code表示特定事物或概念的一个或一组字符。
注:这些字符可以是阿拉伯数字、拉丁字母或便于人和机器识别与处理的其他符号。
[GB/T 10113-2003,定义2.2.5]4 基本要素内容要素科普资源应具有明确的科技内涵,能够反映科学技术知识、科学方法、科学思想、科学精神。
创作与传播要素科普资源应经过适当的转化加工,具有一定的通俗性、趣味性。
使传播更加快捷,受众更加广泛,内容更易接受。
人文要素科普资源应具有明确的社会意义,能够促进公众理解科学和树立科学世界观,提高公众科学素质,促进科技与社会融合。
5 分类原则科学性根据科普资源所具有的本质属性特征,划分不同的从属关系和并列次序,组成一个合理的科普资源分类体系。
以内容属性作为科普资源的本质属性特征,以当前科普领域的内容为主要依据,对科普资源进行分类,保证稳定性和可用性。
实用性以满足科普资源管理的实际需求为目标,尤其要满足科普资源信息化管理的实际需求。
林业科技信息基础数据库技术规范目录1 主要内容和适用范围2 参考标准3 术语和定义4 文献著录4.1 文献著录项目4.2 文献著录规范5 文献类型与文献载体代码5.1 编制原则和结构5.2 文献类型代码表6 文献保密等级6.1 保密等级6.2 密级的确定6.3文献保密等级代码表7 文摘编写规范7.1 文摘的详简度7.2 文摘的要素7.3 文摘编写的注意事项8 林业科技信息基础数据库技术规范8.1 林业法律法规、林业标准数据8.1.1 国内外林业法律法规全文数据库8.1.2 国内外林业标准全文数据库8.2 林业科技成果、专利和实用技术数据8.2.1 中国林业科技成果数据库8.2.2 中国林业专利技术数据库8.2.3 中国林业实用技术全文库8.3 林业在研科技项目数据8.3.1 林业在研科技项目数据库8.4 林业综合科技信息数据8.4.1 世界林业科技动态数据库8.4.2 中国林业科技文献数据库8.4.2 中国林业博硕士论文库9 数据共享技术要求9.1 数据格式9.2 技术平台9.3 文献的数字化加工林业科技信息基础数据库技术规范1 主要内容和适用范围1.1本技术规范是为建立各类林业科技信息基础数据库,实现林业科技信息资源共享,开展国际林业科技信息交流,更好地开发和利用信息资源而制订的。
1.2本技术规范的适用范围:科技信息资源类数据库的建立和共享。
2 参考标准2.1 GB 3792.1-83 国家标准《文献著录总则》2.2 GB 3469-83 国家标准《文献类型与文献载体代码》2.3 GB 7156-87 国家标准《文献保密等级代码》2.4 GB 3793-83 国家标准《检索期刊条目著录规则》2.5 GB 6447-86 国家标准《文摘编写规则》2.5 GB 2901-82 国家标准《文献目录信息交换用磁带格式》3 术语和定义3.1文献:记录有知识的一切载体。
3.2文献类型代码:指代表文献类型的标记符号。
林业专题空间数据质量控制标准1主题内容与适用范围数据的质量关系到林业科学数据中心的生命力,对数据加工整合的全过程实施有效的监督和质量控制,是数据整合质量的重要保证。
本标准对林业科学数据中心的林业专题数据整合过程中的数据质量控制做了相关的规定。
本标准适用于林业科学数据共享工作中对林业专题空间数据的整合处理。
2参考标准林业专题空间数据加工处理技术规范(“林业科学数据库和数据共享技术标准与规范《第一辑》,2004年3月)3术语和定义质量控制 quality control指为了达到数据质量要求所采取的作业方法。
4林业专题空间数据质量控制标准4.1 数据定义范围林业专题空间数据的来源复杂、类型繁多、分布分散,林业科学数据中心对空间数据的整合工作主要是由纸质图、栅格扫描图、电子版矢量图以及分类遥感影像等加工制作成以矢量格式存储的各种林业专题图和与其相关的辅助图。
4.2 数据类型由于数据来源的复杂性,它导致了林业专题图的空间范围、时间、比例尺、数学基础、属性等信息的多样性。
林业专题空间矢量数据按照几何特征可分为点、线、面三种基本类型;按照专题类型可分为森林分布图、林相图、林业区划图、林业规划图、林业工程分布图、样地分布图、林带分布图等诸多专题。
4.3 质量控制范围林业专题空间数据的质量控制主要包括数据自身的质量评估和是否符合林业科学数据中心的汇交规定两方面内容。
4.4 数据质量评估数据自身的质量是数据的质量控制最核心部分,本标准主要针对这方面内容作相关的规定。
4.4.1数据整合基本原则在确保空间数据来源具有可靠性的基础上,林业领域专家根据其使用价值和科技意义等进行评估和筛选、制定有效的整合技术和方法,再由专业人员进行加工。
林业专题空间数据自身的质量评估主要包括数据的完整性、位置精度、属性精度、合理性等方面的情况。
4.4.1.1 数据完整性林业专题空间数据的完整性主要包括两层含义,即数据覆盖范围和数据层完整。
林业科学数据中心运行与管理规范一主题与适用范围本规范制定了林业科学数据中心建设与运行管理规定,适用于参加国家科学数据共享工程的林业科学数据共享工作。
为加强科国家学数据共享工程支持下设立的林业科学数据中心的管理、运行与维护工作,促进林业科学数据共享工作持续有序进行,保障林业科学数据共享工程各项业务与管理工作的顺利进行,参照国家科学数据中心建设规范以及国家科学数据中心(网)运行管理规定制定本规范。
二引用文件下列文件中的条款通过本规定的应用而成为本规定的条款。
凡是不注明日期的文件,其最新版本适用于本规定。
●国家科学数据中心(网)运行管理规定●国家科学数据共享工程技术标准《国家科学数据中心建设技术规范》●BMZZ1-2000 涉及国家秘密的计算机信息系统保密技术要求●GB50174-93 电子计算机机房设计规范●科学数据中心建设规范●科学数据网建设规范三术语下列术语和定义适用于本规定:3.1 国家科学数据中心Scientific data center国家科学数据共享平台的组成部分。
以国家部门、行业系统为基础,按不同科学技术领域建立的社会公益性的科学数据主中心以及需要设立的科学数据分中心,统称为国家科学数据中心;主要负责国家长期布局的公益性、基础性科学数据的汇交、管理、交换与共享服务。
3.2科学数据资源Scientific data resources特指以公益性和基础性为研究应用价值的数据资源,包括观测、监测、调查、试验、实验以及研究等科学技术研究活动过程中产生的原始性数据,以及按照不同科技活动需求进行系统加工整理的各类数据。
3.3科学数据共享服务Scientific data shared services为提供科学数据共享所提供的技术服务,包括:目录服务、导航服务、数据信息发布、数据检索、数据产品加工、数据以数据产品分发等。
3.4运行机制Runinng mode严格区分投资来源和数据的产权性质。
由国家投资产生的数据应该全民受益;由公司投资开发的数据,公司理所应当获得利益。
林业科学数据集成规范(数据整合部分)(V2.1.1)1主题内容与适用范围本技术规范定义了中国林业科学数据中心文档数据库的数据结构和图片数据库的数据结构。
规定了林业科学数据中心的数据整合和数据汇交技术规范。
适用于中国林业科学数据中心的文档数据整合、图片数据整合以及数据汇交。
2 术语和定义2.1数据整合data conformity指根据指定的技术标准与规范,加工、整理数据实体的过程。
2.2数据集成data integration指根据指定的数据体系框架,遵循统一技术标准与规范,把各类型数据实体系统化地汇集成一个整体的过程。
2.3文档数据Digital Document指以数字化形式存在的各种研究报告、技术报告等。
本规范定义的文档数据为纯文本数据和包含图片的文本数据两种。
2.4图片数据Digital Picture指数码照片、数字化图片等栅格数据。
3 数据结构3.1 文档数据库结构文档数据库的结构主要包括标题、作者、著作时间、关键词、内容摘要、所属类别、图片名称。
具体结构见下表:3.2 图片数据库结构图片数据库的结构主要包括标题、制作者、制作时间、制作目的、图片简介、所属类别。
具体结构见下表:4 数据项说明4.1 文档数据说明(1)标题标题是指文档数据的题目,包括该文档存放的目录信息。
示例:沙尘暴研究\技术报告\扬沙和沙尘暴移动路径概率预报模型.doc。
(2)作者作者是指文档数据的撰写人,可以是某个人、课题组、单位等。
示例:国家林业局保护司(3)著作时间著作时间是指文档数据的撰写完成时间或颁布时间等。
示例:2005.3.23。
(4)关键词关键词是指能涵盖文档内容的关键词汇,多个关键词用逗号隔开。
示例:沙尘暴,预报模型。
(5)内容摘要内容摘要是指对文档数据的概要描述。
(6)所属类别所属类别是指文档数据所属的专题或数据类别。
示例:沙尘暴专题(7)图片名称图片名称是指文档数据中包含的插入图片的名称,该名称应包含图片的存放目录信息。
全国林业信息化工作领导小组办公室关于印发《林业信息化标准体系》的通知正文:----------------------------------------------------------------------------------------------------------------------------------------------------全国林业信息化工作领导小组办公室关于印发《林业信息化标准体系》的通知(林信办字〔2013〕4号)各省、自治区、直辖市林业厅(局),内蒙古、吉林、龙江、大兴安岭森工(林业)集团公司,新疆生产建设兵团林业局,各计划单列市林业局,国家林业局各司局、各直属单位:为指导全国林业信息化标准建设,支撑生态林业民生林业发展,依据《全国林业信息化建设纲要(2008-2020年)》等,我办组织编制了《林业信息化标准体系》(见附件)。
现印发给你们,请结合实际参照执行。
附件:林业信息化标准体系全国林业信息化工作领导小组办公室2013年11月29日附件:附件林业信息化标准体系林业信息化标准体系是在《全国林业信息化建设纲要(2008-2020年)》的指导下,由林业信息化建设所需各类标准规范,按照其内在联系构成的科学有机整体,是林业信息化标准建设的蓝图。
一、林业信息化标准体系构成林业信息化标准体系由总体标准、信息资源标准、应用标准、基础设施标准、管理标准等五大类组成。
(一)总体标准。
总体标准是标准体系的基础,规范了其他标准中总体性、框架性和基础性的内容,是其他标准间互相关联、互相协调、互相适应的基础,也是标准体系中其他标准制定的基础。
总体标准由林业信息化建设总体性、框架性、基础性的标准规范组成,包括林业信息化标准化指南、林业信息化标准一致性测试规则、林业信息术语等。
(二)信息资源标准。
信息资源标准的作用在于对各类林业信息资源进行标准化、规范化的处理和整合改造,便于应用系统和数据库的使用者有效利用。
林业科学数据分类与编码(V1.0)
1主题内容与适用范围
本标准根据林业科学的学科构成和学科发展规划编制。
规定了林业科学数据的构成、类别和编码,适用于林业科学数据库建设、数据交流和数据共享服务。
2编制依据
下列文件中的条款通过本标准的应用而成为本标准的条款。
凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准。
但鼓励根据本标准达成协议各方研究是否可使用这些文件的最新版本。
凡是不注明日期的文件,其最新版本适用于本标准。
科学数据共享核心元数据(征求意见稿)
国家科学数据共享工程技术标准《国家科学数据中心建设技术规范》
数字林业标准与规范(一)
3术语和定义
2.1林业科学数据资源data resources on forestry science
特指以公益性和基础性为主体的、具有科学研究与应用价值的林业基础、本底数据、在资源调查、监测、试验、观测以及研究等科学技术活动过程中产生的原始性数据,以及按照不同科技活动需求进行系统加工整理的应用类数据。
2.2数据集 dataset
是可以标识的数据集合。
可以是一个数据库或一个或多个数据文件,能够用一个数据字典唯一描述。
2.3元数据 metadata
是关于数据的数据,即关于数据的内容、质量、状况和其他有关特征的描述信息。
是对科学数据资源的一种规范化描述。
元数据有两种类型:数据集内容元数据和数据集结构元数据。
2.4线分类法line-taxonomy
又叫层级分类法。
是将分类对象按所选定的若干个属性或特征,作为分类的划分基础,逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐级展开的分类体系。
4分类方法和原则
林业科学数据的分类采用―线分类法‖。
林业科学数据的分类遵循面向应用的原则,即按照科学研究人员、管理人员等用户的浏览和数据查询需求进行数据分类,分类数据主要应用于数据组织、编目和查询。
林业科学数据分类采用二级分类,二级分类以下可包含各相关数据集,各数据集的数据内容和具体数据分类、数据表、字段等编码由数据集提供者另行分类和编码,此处不再细分。
5分类体系
林业科学数据可分为林业科学基础数据、林业科学研究数据和林业成果及管理数据三类数据。
科学基础数据内容包含森林资源状况、植被、土壤、土地、社会经济背景及相关统计数据等多种用于林业科学研究的公共及背景数据;科学研究数据内容包括林业科学研究领域中各主要专业领域研究数据;成果及管理数据内容包括已完成的科技成果数据、技术推广数据及科研管理数据等。
此外,本体系中的类目和数据项可以扩充,在遵循分类原则和层次关系不变的原则下,新出现的类目和数据项可在相应级中扩充或归类。
表5.1列出了林业科学数据分类体系主要内容,其中数据门类按照数据性质划分,数据的一级类别按照数据的学科领域划分,数据的二级类别按照子学科及数据内容划分。
表5.1 林业科学数据分类体系表
6数据编码
6.1编码的基本原则
唯一性:虽然—个编码对象可能有不同的名称,也可按各种不同方式对其进行描述,但在一个分类编码标准中,每一个编码对象有且仅有一个代码,—个代码只唯—表示—个编码对象。
可扩充性:必须留有适当的后备容量,以便适应不断扩充的需要。
简单性:代码结构应尽量简单,长度尽量短,以便节省机器存贮空间和减少代码的差错率,同时提高机器处理的效率。
实用性:代码尽可能反映编码对象的特点,有助于记忆,便于使用。
规范性:代码的类型、结构以及编写格式统一。
6.2编码方法
编码就是将事物或概念(编码对象)赋予有一定规律性、易于计算机和人识
别与处理的符号或代码。
代码的功能有:
a.标识:代码是鉴别编码对象的唯一标志;
b.分类:当按编码对象的属性或特征(如数据、处理和术语等)分类,并分别赋予不同的类别代码时,代码又可以作为区分编码对象类别的标志;
c.排序:当按编码对象发现(产生)的时间、所占有的空间或其他方面的顺序关系分类,并分别赋予不同的代码时,代码就可以作为区别编码对象排序的标志。
林业科学数据的编码体系由两种编码构成,即分类码和标识码。
分类码是直接利用信息分类的结果,根据分类体系设计出各种信息的分类代码,用以标记不同类别信息的数据,根据它可以将数据按类别存贮进数据库,或从数据库中按类别查询检索数据。
本标准与规范编码体系的分类码使用多级阿拉伯数字,在标准条目名称之前加上―数据库‖中各门类数据英文首字母;—W;背景数据—B。
(如表2-1,表2-2所示)。
标识码又称为识别码,它是利用信息分类结果,即在分类的基础上,对某些类别的数据分别设计出其全部或主要实体的识别代码,简称标识码,用以对某一类数据中的实体进行标识,以便能按实体进行存贮和逐个地进查询检索。
6.3编码结构
基于分类码和标识码方法制定出的林业科学数据体系的编码结构如图12.1所示。
由门类码、版本号、―.‖和分级代码组成。
其中Y表示标识码定义的部分,XX是分类码定义的部分。
编码总长度为8位
门类码采用标识码的编码方式,以汉语拼音首字母作为标识,这样,林业基础数据、科学研究数据、成果及管理数据分别标识为:J、Y、C;一级分类和二
级分类的编码采用分类码的编码方式,由两位数字构成,编码方式为:01、02、03、04……依次类推。
根据以上编码原则,表 2.2列出二级分类的林业科学数据分类编码,如表12.2。
7分类和编码的扩充
标准体系扩充的原则是:(1)保持原有分类体系的完整性工作的整体框架内进行;(2)反映现有科学数据的发展趋势与变化;(3)有助于信息标准化的实际工作。
增加数据类目时,可在其所属的类目级别中按编码规则增加一个新码。
8 原有专题数据的处理
林业科学数据资源建设过程中,对原有的科学数据进行整合形成符合林业科学数据共享的数据格式、规范要求的专题数据,原则上需独立建设专题,不再重新进行数据组织和系统开发建设,但其所提交的用于林业科学数据共享的数据,应按照分类编码的要求,对数据集进行数据分类的编码和标识工作。
便于数据分类和编目。
附加说明
本标准由中国林业科学研究院资源信息所负责起草。
起草人为张旭、杨彦臣、邓广、陈艳、雷振宇、刘燕。