数值型数据库的意思
- 格式:doc
- 大小:11.83 KB
- 文档页数:1
第八章事实和数值型数据库第一节事实和数值型数据库概述在现代化图书馆的电子资源建设中,各种类型数据库的发展已经为图书馆的服务手段带来了飞跃性的变革。
数据库从存储的内容上可分为目录文摘数据库、全文数据库、事实型数据库、数值型数据库。
在图书馆电子资源建设的初期,二次文献数据库曾发挥了全面快速检索文献的作用,是电子资源的主要组成部分。
但随着文献信息的日益膨胀,面对INTERNET 网络信息的纷繁庞杂,用户越来越需要准确、真实、适用、具体、能够直接回答问题的针对性强的信息。
因此以一次信息(包括全文、事实、图形、数值信息)为主的源数据库已经成为数据库发展的主流,并将成为图书馆电子资源的发展重点。
以上几章中着重介绍了学术性文献库,在本章中我们将就另外两种目前具有重要的发展前途的数值型数据库及事实型数据库做一个概述性的介绍。
3.1事实数据库的发展历史如果从利用计算机作数据处理的角度来讲,则处理事实数据要比处理书目数据早得多。
但作为数据集合的数据库来讲,书目数据库的发展要比事实数据库的发展早一些。
最早的数据库是50年代的存于磁带上的书目库。
第一个事实数据库产生于1967年,是由美国Data 公司根据与俄亥俄律师协会的合同建立的俄亥俄法律法令全文库,收录有全美50个州的法律法令。
1968年,美国的Data Resource Inc公司成为第一家重要的数值数据库服务公司。
在70年代初期,事实数据库发展比较缓慢,其速度远远不及文献数据库的发展速度。
但由于事实数据库直接向用户提供原始情报,或经过加工存贮的“纯情报”,比如商业经济方面的数值数据库,直接向用户提供物价、产品规格、产值等方面的数据。
因此,越来越深受用户的欢迎。
自70年代中期以后,事实数据库迅速发展,没过多久其速度便赶上和超过了文献数据库的发展。
据统计,在1975年,欧洲只有51个事实数据库。
但到1985年,则猛增到1063个,平均每两年增加一倍。
1983年,世界数据库的总数为1845个,比1975年增加了38倍。
EPS数据平台与同类数据库比照分析EPS数据平台作为国内首家“专业数据+预测分析''平台,一直专心致力于统计数据库产品的研发。
凭借公司专业的数据、信息、软件服务资源,现己建立起来一套集丰富的数值型数据资源和强大的分析预测系统为一体的覆盖多学科,面向多领域的综合性信息服务平台。
在与全国众多高校的老师和教授交流过程中我们发现。
对于高校而言,在教师教学和课题研究过程中以及在学生论文撰写过程中,两大类数据库能为他们提供很大的帮助作用。
第一类为全文类数据库:即汇集各个领域的论文、期刊、研究成果、学术专著。
第二类为数值型数据库:即拥有领域覆盖面广、指标体系细化、历史数据完整、数据来源权威、更新及时准确的一系列专业数据库。
EPS数据平台在以满足客户和市场需求为经营宗旨的理念下,经过几年的开展,积累了大量的专业数据并建立了稳定的数据获取体系。
在业内己经得到广泛的认可,在全国拥有近300家客户,业己成为各高校第二类数据库产品的主要供应商。
就数值型数据库而言,EPS数据平台与同类数据库相比有以下区别:1、单个数据库质量优势EPS数据平台每个数据库的数据含量及其内容可以极大的满足用户需求。
以EPS数据平台的“中国宏观经济数据库”为例:这一个数据库就包含了9个子库。
而在其“年度分地区"这•个子库中就包含了20个方面的统计数据。
可以覆盖其他同类数据库所拥有的大局部年、季、月度数据,单个库的数据规模庞大,性价比高。
目前,EPS数据平台线上一共有44个数据库,其中绝大局部数据库都包含数后不等的子库。
2、覆盖区域的优势:IT前国内统计数据库产品其区域覆盖基本只细分到省一级,即31个省自治区直辖市。
而EPS数据平台有很多数据库除了拥有省级数据以外,还包含400多个地级市和2000 多个县级市数据。
甚至在一些特定的数据库中(如地区贸易数据库),地区进行了更深层次的划分。
除了收录全国各省市贸易数据外,还收录了中国各经济特区、保税区、出口加工区、保税物流园区、保税港区、综合保税区等方面的贸易数据,大大满足了师生课题研究的需要。
文献信息检索系统的分类文献信息检索系统的核心是数据库,而数据库本身又常以收录内容及功能的不同划分为如下几种类型。
1.书目型数据库(bibliographic database)主要是指二次文献数据库,包括各种机读版的题录型、文摘型的数据库。
如《中国生物医学文献数据库》(SinoMed)、MEDLINE等。
它们提供了可满足用户多种信息检索需求的有关文献的各种特征,如文献的篇名、著者、出处(包括刊名、年、卷、期、页码)、摘要、收藏单位等。
不仅可以告知用户其所需文献的线索一题录(包括篇名、著者、出处),更可以提供整篇文献内容浓缩的替代品一文摘。
因此,这是文献检索中最常用的一种数据库。
2.事实数值型数据库( fact-date database)主要为用户提供有关事物、人物、机构等方面的事实性信息和数值型数据。
例如万方数据资源系统中的事实型数据库《中国科研机构数据库》《中国科技信息机构数据库》《中国高等院校及中等专业学校数据库》,美国国立癌症研究所的关于癌症治疗信息的医生咨询数据库(PDQ),反映药物处方信息的《医师案头参考书》(Physicians'Desk Reference, PDR)等。
电子化的参考工具书,如词典、百科全书指南等也属于事实型数据库的范畴。
3.全文型数据库(full-text database)是将文献全文的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。
全文型数据库对文献的字、词、句,乃至段落等进行更深层次的编辑加工,允许用户采用自然词语以及截词、邻近算符等匹配方法,方便快速地查到所需的文献,并能直接获取文献原文。
例如CNKI的学术文献总库、万方数据资源系统中的数字化期刊、EIsevier Science电子期刊全文库。
因此,全文型数据库是集文献线索的查询和文献全文的提供于一体,实现了毕其功于一役的一站式信息服务。
4.知识型数据库(knowledge database)一种疾病,不仅有一个概念性的界定,而且涉及病因、病理、诊断、治疗等相关知识;一种药物,不仅有其化学结构上的名称或命名,而且有药理作用、药效动力、副作用、适应证、使用方法等相关知识; -项检查,不仅有其概要性描述,而且涉及原理、检测值的解释、临床意义、操作方法、正常值范围、适用范围等一系列相关知识。
3.1.2 常见数据类型——数据定长字符型变长字符型文本型char(n1) varchar(n3) text nchar(n2) nvarchar(n4) ntextn1<=8000 n2<=4000 n1<=8000n2<=4000<231-1字符串长度固定字符串长度不固定字符串长度不固定实际值少于定义长度时用空格填充实际值少于定义长度时不用空格填充存储实际字符,但空间至少为2K适用于长度固定的数据适用于长度不固定的数据适用于长文本数据学号、邮政编码、身份证号、电话号码学院名称、姓名、籍贯、课程名称、地址简历、备注、爱好类型占用存储空间表示范围tinyint 1字节0~255 smallint 2字节-32768~32767int/integer 4字节-2147483648~ 2147483647bigint 8字节-9223372036854775808~ 9223372036854775807numeric(p,s) P表示精度S表示小数位数,<=整数位数decimal(p,s) P表示精度S表示小数位数,<=整数位数numeric(10,3) 表示最多存放10位数,且小数占三位decimal(10,3) 表示最多存放10位数,且小数占三位说明:精确数值型所占用的存储空间随精度的增加而增加。
类型占用存储空间表示范围float(n)4字节-3.4E+38~3.4E+381<=n<=24float(n)8字节-1.79E+308~1.79E+308 25<=n<=53real 4字节-3.4E+38~3.4E+38说明:当数据的整数位与小数位很多时,可采用浮点型。
类型占用存储空间表示范围smallmoney 4字节-214748.3648~214748.3647money 8字节-922337203685477.5808~ 922337203685477.5807例如:¥12,347.65类型占用存储空间表示范围smalldatetime 4字节1/1/1950~6/6/2049 datetime 8字节1/1/1753~12/31/9999。
常见的数据类型数值型:整型:tinyint,smallint,mediumint,int/Integer,bigint⼩数:定点数decimal,浮点数float(单精度浮点数) double(双精度浮点数)字符型:char,varchar,binary,varbinary,blob,text,enum和set等⽇期/时间类型:year,time,date,datetime和timestamp数值类型整型:类型名称说明存储需求⽆符号范围有符号范围tinyint很⼩的整数1个字节0〜255-128〜127smallint⼩的整数2个字节0〜65535-32768〜32767mediumint中等⼤⼩的整数3个字节0〜16777215-8388608〜8388607int(Integer)普通⼤⼩的整数4个字节0〜4294967295-2147483648〜2147483647bigint⼤整数8个字节0〜18446744073709551615-9223372036854775808〜9223372036854775807特点:如果不设置⽆符号还是有符号,默认是有符号。
如果想设置⽆符号,则需要添加unsigned关键字。
如果插⼊的数值超出了整型范围,会报out of range异常,并且插⼊临界值。
如果不设置长度,会有默认的长度。
长度代表了显⽰的最⼤宽度,如果不够会⽤0在左边填充,但必须搭配zerofill使⽤。
⼩数:⼩数可以使⽤浮点数和定点数来表⽰。
浮点类型有两种,分别是单精度浮点数(float)和双精度浮点数(double);定点数类型只有⼀种,就是decimal。
浮点类型和定点类型都可以⽤(M,D)来表⽰,其中M为精度,表⽰总共的位数;D为标度,表⽰⼩数的位数。
浮点数类型的取值范围为M(1~255)和D(1~30,且不能⼤约M-2),分别表⽰显⽰宽度和⼩数位数。
M和D在float和double中是可选的,float和double类型将被保存为硬件所⽀持的最⼤精度。
数据库内容、技术参数基本情况数据库内容基本情况数据库是指存储和管理数据的软件系统,它可以方便地存储和访问数据,是计算机系统中的一个重要组成部分。
数据库可以存储各种类型的数据,如数字、文本、图像和音频等。
数据库的内容可以分为以下几个方面:1. 数据库对象数据库对象是指在数据库中存储数据的实体,如表、视图、索引、存储过程等。
其中,表是最常见的数据库对象,它可以用来存储数据,并且可以进行增、删、改、查等操作。
2. 数据类型数据类型是指在数据库中存储的数据的类型,如整型、浮点型、字符型等。
不同的数据类型有不同的存储空间和范围,要根据实际情况选择适当的数据类型。
3. 数据库结构数据库结构是指数据库对象之间的关系和数据之间的组织方式,它可以决定数据在数据库中的存储和访问方式。
常见的数据库结构有层次结构、网状结构和关系结构等。
4. 数据库安全性数据库安全性是指在数据库管理过程中确保数据不会被未经授权的人员访问、修改和删除而进行的一系列措施。
常见的数据库安全措施有用户认证、访问控制、加密等。
技术参数基本情况技术参数是指数据库在运作过程中需要用到的技术规范和参数,它可以决定数据库的性能和稳定性。
常见的技术参数包括以下几个方面:1. 存储空间存储空间是指数据库中存储数据所需的物理空间,它可以决定数据库存储数据的容量和效率。
存储空间可以通过增加硬盘容量或优化数据结构等方式进行优化。
2. 内存内存是指数据库在运行时所需的内存空间,它可以决定数据库的运行速度和并发能力。
内存可以通过增加内存容量或调整数据库参数等方式进行优化。
3. CPUCPU是指数据库运行时所需的处理器能力,它可以决定数据库的运行速度和并发处理能力。
CPU可以通过升级或优化数据库参数等方式进行优化。
4. 网络带宽网络带宽是指数据库与客户端之间数据传输的速率,它可以决定数据库与客户端之间数据传输的效率和响应时间。
网络带宽可以通过优化网络设备和调整客户端连接方式等方式进行优化。
SPSS数据库变量的分类数据分析通常会涉及到定量(quantitative)数据和定性(qualititative)数据,其在分析过程中的作用及相应的分析方法不尽相同。
因此在定义数据库结构时,必须明确数据库中使用的各种变量的类型(type)。
一、根据数据的运算类型不同划分1、数值型变量(numeric)在spss分析软件中,数值型是变量定义的缺省类型,可以进行所有的数值运算与统计分析。
为了更清楚地表达长数据,数值型变量可进一步划分为以下几类:1)逗号变量(comma),以逗号为三位分割符号,将数据分割开来,如123,123。
2)句点变量(dot),以逗号为小数点,以圆点为三位分割符号,如123.123,26。
3)科学计数变量(scientific notal),以10的指数形式表示,分两个部分,第一个部分为有效数字,第二个部分为10的指数值,用e表示,正指数用+号,负指数用-号,如1.23e+02代表的数值为123。
科学计数主要用于一些整数位较长的数据。
数值型变量在数据库中是最常用的,大多数的数据在没有特别要求的情况下,通常采用数值型变量定义,当数值过大,超过了定义的宽度,就会自动转变为科学计数。
2、日期型变量(date)根据年月日时分秒的组合方式不同,日期型变量有多种不同格式,在spss 中,当日期型变量定义之后,只有输入相应格式的日期数据才能被接受。
如dd.mm.yy分别代表日月年,hh:mm:ss分别代表时、分、秒。
日期型变量通常用来反映对应数据产生的日期或时间,当需要了解数据产生的日期或时间特点时,通常会定义这一数据,数据的录入可以自动产生,也可以手工录入。
3、自定义货币变量(custom currency)可以根据使用的货币单位定义货币变量的前缀(prefix)与后缀(suffix),显示方式为有效数字带定义货币变量的前缀或后缀,如0。
此变量为数值型变量,在使用多种货币销售或采购货物时,可使用此类变量。