当前位置:文档之家› DIA第2章10(2.6)

DIA第2章10(2.6)

数据挖掘论文

数据挖掘课程论文 ——————数据挖掘技术及其应用的实现 数据挖掘技术及其应用的实现 摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中所遇到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件概率问题。 关键字:数据挖掘、知识获取、数据库、函数依赖、条件概率 一、引言: 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个 折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象[1]。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分

计算机四级数据库真题及解析(8)

计算机四级数据库真题及解析(8) 1 下列哪一项工作属于数据库管理员的职责()。 A) 参与用户需求调研和系统分析 B) 确定数据库的存储结构和存取策略 C) 编写应用系统的程序模块 D) 应用系统的安装和调试 2 下列关于数据库数据字典的叙述中,哪一条是错误的()。 A) 数据字典中保存关于数据库的描述信息 B) 数据字典与元数据是不同的概念 C) 程序访问数据库数据时,由 DBMS 通过查询数据字典确定被访问的数据 D) 数据独立性是指存储在数据库的数据字典中的数据文件结构,与访问它的程序之间是相互分离的 3 涉及企业订单处理、市场及客户支持等功能领域的应用软件是 A) CRM B) ERP C) Web Portal D) Search Engine 4 下列关于数据模型的数据约束的叙述中,哪一条是错误的()。 A) 数据约束描述数据结构中数据间的语法和语义关联 B) 数据约束用以保证数据的正确性、有效性和相容性 C) 数据完整性约束是数据约束的一种 D) 数据约束指的是数据的静态特征,不包括数据的动态行为规则 5 下列关于物理层模型的叙述中,哪一条是错误的()。 A) 物理层模型是数据库最底层的抽象 B) 物理层模型确定数据的存储结构、存取路径 C) 逻辑模型是物理层模型的实现 D) 物理层模型的设计目标是提高数据库的性能和有效利用存储空间

6 下列关于层次模型的叙述中,哪一条是错误的()。 A) 层次模型主要反映现实世界中实体间的层次关系 B) 层次模型用有向图结构表示实体及它们之间的联系 C) 层次模型的存储结构可以通过邻接法、链接法、和邻接 -链接混合法实 现数据间的存储连接 D) 层次模型引入冗余数据和指针来实现实体的多对多关系 7 设关系 R与关系 S具有相同的度,且相对应的属性的值取自同一个域, 则 R-(R-S)与下列哪一项等价()。 A) R∪S B) R∩S C) R ×S D) R-S 8 如图所示的两个关系 R和 S 则关系 T是下列哪一项操作得到的结果()。 A) R 和 S的自然连接 B) R 和 S的左外连接 C) R 和 S的右外连接 D) R 和 S的全外连接 9 若属性(或者属性组) F是关系 R的外码,它与关系S的主码 Ks相对应,则下列关于关系模型中参照完整性约束的叙述中哪一条是错误的()。 A) 关系 R和关系 S 必须是不同关系 B) F 可以取空值 C) 如果 F 非空,则它的取值必须是 S 中某个元组的主码值 D) F 与 Ks可以同名,也可以不同名 10 有一个关系:学生(学号,姓名,系别),规定学号的值域是 8个数字 组成的字符串,这一规则属于下列哪一项约束()。 A) 实体完整性约束 B) 参照完整性约束 C) 用户自定义完整性约束 D) 关键字完整性约束 11 如图所示的两个关系R和S 则关系T是下列哪一操作得到的结果()。

数据库最小函数依赖集

一、等价和覆盖 定义:关系模式R上的两个依赖集F和G,如果F+=G+,则称F和G是等价的,记做 F≡G。若F≡G,则称G是F的一个覆盖,反之亦然。两个等价的函数依赖集在表达能力上是完全相同的。 二、最小函数依赖集 定义:如果函数依赖集F满足下列条件,则称F为最小函数依赖集或最小覆盖。 ① F中的任何一个函数依赖的右部仅含有一个属性; ② F中不存在这样一个函数依赖X→A,使得F与F-{X→A}等价; ③ F中不存在这样一个函数依赖X→A,X有真子集Z使得F-{X→A}∪{Z→A}与F等价。 算法:计算最小函数依赖集。输入一个函数依赖集输出 F 的一个等价的最小函数依赖集G 步骤: ①用分解的法则,使F中的任何一个函数依赖的右部仅含有一个属性; ②去掉多余的函数依赖:从第一个函数依赖X→Y开始将其从F中去

掉,然后在剩下的函数依赖中求X的闭包X+,看X+是否包含Y,若是,则去掉X→Y;否则不能去掉,依次做下去。直到找不到冗余的函数依赖; ③去掉各依赖左部多余的属性。一个一个地检查函数依赖左部非单个属性的依赖。例如XY→A,若要判Y为多余的,则以X→A代替XY →A是否等价?若A (X)+,则Y是多余属性,可以去掉。 举例: 已知关系模式R,U={A,B,C,D,E,G}, F={AB→C,D→EG,C→A,BE →C,BC→D,CG→BD,ACD→B,CE→AG},求F的最小函数依赖集。 解1:利用算法求解,使得其满足三个条件 ①利用分解规则,将所有的函数依赖变成右边都是单个属性的函数依赖,得F为: F={AB→C,D→E,D→G,C→A,BE→C,BC→D,CG→B,CG →D,ACD→B,CE→A,CE→G} ②去掉F中多余的函数依赖 A.设AB→C为冗余的函数依赖,则去掉AB→C,得: F1={D→E,D →G,C→A,BE→C,BC→D,CG→B,CG→D,ACD→B,CE→A,CE→G} 计算(AB)F1+:设X(0)=AB 计算X(1):扫描F1中各个函数依赖,找到左部为AB或AB子集的函数依赖,因为找不到这样的函数依赖。故有X(1)=X(0)=AB,算法终止。 (AB)F1+= AB不包含C,故AB→C不是冗余的函数依赖,不能从F1中去掉.

数据库-部分函数依赖,传递函数依赖,完全函数依赖,三种范式的区别

数据库-部分函数依赖,传递函数依赖,完全函数依赖, 三种范式的区别 要讲清楚范式,就先讲讲几个名词的含义吧: 部分函数依赖:设X,Y是关系R的两个属性集合,存在X→Y,若X’是X的真子集,存在X’→Y,则称Y部分函数依赖于X。 举个例子:学生基本信息表R中(学号,身份证号,姓名)当然学号属性取值是唯一的,在R关系中,(学号,身份证号)->(姓名),(学号)->(姓名),(身份证号)->(姓名);所以姓名部分函数依赖与(学号,身份证号); 完全函数依赖:设X,Y是关系R的两个属性集合,X’是X的真子集,存在X→Y,但对每一个X’都有X’!→Y,则称Y完全函数依赖于X。例子:学生基本信息表R(学号,班级,姓名)假设不同的班级学号有相同的,班级内学号不能相同,在R关系中,(学号,班级)->(姓名),但是(学号)->(姓名)不成立,(班级)->(姓名)不成立,所以姓名完全函数依赖与(学号,班级); 传递函数依赖:设X,Y,Z是关系R中互不相同的属性集合,存在X→Y(Y !→X),Y→Z,则称Z传递函数依赖于X。 例子:在关系R(学号 ,宿舍, 费用)中,(学号)->(宿舍),宿舍!=学号,(宿舍)->(费用),费用!=宿舍,所以符合传递函数的要求;

在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。 所谓第一范式(1NF)是指数据库表的每一列(即每个属性)都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。简而言之,第一范式就是无重复的列。 2、第二范式(2NF) 第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或行必须可以被唯一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。员工信息表中加上了员工编号(emp_id)列,因为每个员工的员工编号是唯一的,因此每个员工可以被唯一区分。这个唯一属性列被称为主关键字或主键、主码。 第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。简而言之,第二范式就是非主属性依赖于主关键字。

数据挖掘技术及其应用

数据挖掘毕业论文 ---------数据挖掘技术及其应用 摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中所遇到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件概率问题。 关键字:数据挖掘、知识获取、数据库、函数依赖、条件概率 一、引言: 数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个 折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象[1]。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多

数据库简答题 (3)

第一章 3、简述数据库系统的三级模式和两级映像的含义。 答:从数据库管理系统的角度看,数据库系统的结构通常分为三级模式的总体结构,在这种模式下,形成了二级映像,实现了数据的独立性。其中三级模式结构指的是外模式、模式和内模式,二级映像指的是外模式/模式映像、模式/内模式映像。 模式也称逻辑模式和概念模式,是数据库中全体数据逻辑结构和特征的描述,描述现实世界中的实体及其性质与联系,是所有用户的公共数据视图;外模式也称子模式或用户模式,它是用以描述用户看到或使用的数据的局部逻辑结构和特性的,用户根据外模式用数据操作语句或应用程序去操作数据库中的数据;内模式也称存储模式,是整个数据库的最底层表示,它是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。 对于外模式/模式映像,当模式改变时,相应的外模式/模式映像作相应的改变,以使外模式保持不变,而应用程序是依据数据的外模式来编写的,外模式不变,应用程序就没必要修改,这保证了数据与程序的逻辑独立性。对于模式/内模式映像,当数据库的存储结构变了,模式/内模式映像会作相应的改变,以使模式保持不变,而模式不变,与模式没有直接联系的应用程序也不会改变,这保证了数据与程序的物理独立性。 5、数据库管理系统的主要功能有哪些? 答:⑴、数据定义功能; ⑵、数据操纵功能; ⑶、数据组织、存取功能; ⑷、数据库运行管理功能; ⑸、数据库建立与维护功能 第五章 1、解释下列术语的含义: 函数依赖、平凡函数依赖、非平凡函数依赖、部分函数依赖、完全函数依赖、传递函数依赖、1NF、2NF、3NF、BCNF、多值依赖、4NF、最小函数依赖、函数依赖保持性、无损连接性。 ①、函数依赖:设R(U)是属性集U上的一个关系模式,X、Y是U的子集。若对于R(U)上的任意一个可能的关系r,如果r中不存在两个元组,它们在X上的属性值相同,而在Y上的属性值不同,则称“X函数决定Y”或“Y函数依赖X”,记作X→Y。 ②、平凡函数依赖:设R(U)是属性集U上的一个关系模式,X、Y是U的子集。若Y是X的子集,则称X→Y为平凡函数依赖。 ③、非平凡函数依赖:设R(U)是属性集U上的一个关系模式,X、Y是U的子集。如果X→Y,且Y?X,则称X→Y为非平凡函数依赖。 ④、部分函数依赖:如果X→Y,但不完全函数依赖于X,则称Y对X部分函数依赖。 ⑤、完全函数依赖:在R(U)中,如果X→Y,并且对于X的任何一个真子集X’,都有Y函数不依赖于X’,则称Y完全函数依赖于X。 ⑥、传递函数依赖:在R(U)中,如果X→Y ,Y→Z,且Y?X,X也不函数依赖于Y,则称Z传递函数依赖于X。 ⑦、1NF:如果关系模式R的所有属性均为简单属性,即每个属性都是不可再分的,则称R属于第一范式。 ⑧、2NF:如果关系模式R∈1NF,且每个非主属性都完全依赖于R的码,则称R属于第二范式。

①数据描述,关系,函数依赖

数据管理阶段:手工管理阶段、文件系统阶段、数据库管理系统阶段。 三级模式:外模式、模式、内模式。 二级映像: ①外模式—模式:通过映射建立对应关系,模式变时只需修改映射关系, 可使外模式保持不变。 ②模式—内模式:通过映射建立对应关系,模式变时只需修改映射关系, 可使模式保持不变。 数据描述 1)概念数据模型概念模型 抽象:通过抓取事物的主要特征来表达事物的过程。 ①实体:Entity,现实世界中的客观事物,是现实世界中任何可区分、可识别的事物。 ②属性:Proprety 实体的特性。 ③实体关系:实体之间的对应关系:一对一、一对多、多对多。 ④※表达(E —R)Entity—Relation 2)逻辑数据模型 层次型:条件:①只能有一个根节点(无父节点) ②其他节点只能有一个父节点 网状型:条件:①只能有一个根节点(无父节点) ②其他节点可以有一个或者多个父节点 关系型:关系:二维表 元组:表中的行 属性:表中的列 对象型: 关系概念: ⑴域:具有相同特征的数据集合(取值范围) ⑵笛卡尔积:定义在一组域上的集合 例:D1×D2×D3={(d1,d2,.....dn)|di(-Di,1<=n<=n,n>=1} D1={男,女} D2={张三,李四} D3={20,18,19} D1×D2×D3={(男,张三,20),(男,张三,18),(男,张三,19), (男,李四,20),(男,李四,18),(男,李四,19), (女,张三,20),(女,张三,18),(女,张三,19), (女,李四,20),(女,李四,18),(女,李四,19)} ⑶关系:是笛卡尔积的一个子集,若笛卡尔积有n个域,则该笛卡尔积、子集称为n元关系(集合论) ⑷关键字(码):能唯一区分确定不同元组的属性或属性集合是该关系的一个关键字。 ①超码:能唯一识别每个元组的属性或属性组 ②候选码:能唯一识别每个元组的最少属性或属性组 ③主码:从候选码中选出一个作为主码 ④备用码:除了主码之外的候选码 ⑤外码:关系R1中的属性或者属性组在另一个关系R2中是主码,则称该属性或属性组是R1的外码。

数据库原理填空

二、填空题() 1. 在关系中,能唯一标识元组的属性称为( 侯选码(主属性) )。 2. 标准的数据库三级模式是(模式、外模式、内模式)模式。 3. E-R方法的三要素是:( 实体、属性、联系)。 4. 模式/内模式映象为数据库提供了( 物理 )数据独立性。外模式/模式映象为数据库提供了(逻辑)数据独立性。 5.在SQL Server服务器上,存储过程是一组预先定义并(编译)的Transact-SQL语句。 6.在T-SQL中可以使用两类注释符:单行注释符( - - )和多行注释符(/* */)。 7.在SQL Server中有四种备份类型是(数据库)备份、(事务日志)备份、(差异)备份和文件和文件组备份。 2. 数据模型组成的要素是(数据结构,数据操作,数据的约束条件)。 3. E-R方图提供了表示( 实体型、属性、联系)的方法。 4.数据冗余所带来的问题包括不一致性,所带来的优点是___ _备份与恢复(安全)。 5.E-R模型中,实体和实体间的联系方式有1:1 、 1:n 和 m:n 。 6.关系数据库中的数据完整性规则包括实体完整性、参照完整性和用户定义完整性。 7.公司中有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,部门到职员的联系类型是1:n 。 8. Unique 的作用是可对表中的字段实施唯一性。 9.关系中,一行叫一个元祖(记录),一列叫一个属性(字段)。 10.E-R模型中,实体和实体间的联系方式有 1:1 、 1:n 和 m:n。 3.关系数据库中的数据完整性规则包括实体完整性、参照完整性和用户定义完整性。 9.设R和S是两个关系,与关系代数表达式R×S等价的SQL语句是:select*_FROM R,S。(10)在数据库的3级模式结构中,内模式有__1___个。 (11)在数据库的3级模式结构中,外模式与模式之间的映象(外模式/模式),实现了数据库的____逻辑__独立性。 (12)在早期的代表性的数据库管理系统中,IMS系统是基于___层次___数据模型的。(13)并行数据库系统通过并行地使用多个__CPU____和磁盘来提高处理速度和I/O速度。(14)关系数据库管理系统RDBMS的层次结构中,自上而下为:应用层、语言翻译处理层、数据存取层和数据____存储__层。 (15)保证事务的任何一种调度执行后数据库总处于一致状态,这是由数据库系统的并发控制部件负责的。 (16)达到__B1 级别的产品才被认为是真正意义上的安全产品。 (17)Armstrong公理系统中的增广律的含义是:设R是一个关系模式,X,Y是U中属性组,若X→Y为F所逻辑蕴含,且ZíU,则_x->z ___为F所逻辑蕴含。 (18)在____函数依赖的范畴内,BCNF达到了最高的规范化程度。 (19)分布式数据库系统的所有问题都是内部的、实现___级别上的问题,而不是外部的、用户级别的问题。 (20)数据仓库的体系结构中,中间层为____OLAP__服务器。 (9)数据是信息的符号表示或称载体;信息是数据的内涵。是数据的语义解释,例如:“我国的人口已经达到13亿”,这是【信息】。 (10)在SQL语言中,如果要对一个基本表增加列和完整性约束条件,应该使 用SQL语言的【alter table】语句。 (12)【动态】SQL语句是指在程序编译时尚未确定,其中有些部分需要在程序的执行过程中临时生成的SQL语句。

数据库函数依赖

数据库函数依赖 一、函数依赖(Functional Dependency)的概念 数据依赖的一种,它反映属性或属性组之间相依存,互相制约的关系,即反映现实世界的约束关系。 二、定义 设R(U)是属性U上的一个关系模式,X和Y均为U={A1,A2,…,An}的子集,r为R的任一关系,如果对于r中的任意两个元组u,v,只要有u[X]=v[X],就有u[Y]=v[Y],则称X函数决定Y,或称Y函数依赖于X,记为X→Y。 例: (sno-学生ID,tno-教师ID,cno-课程ID,sname-学生姓名,tname-教师姓名,cname-课程名称,grade-成绩) 1、sno→sname, cno→cname,(sno,cno)→grade √ 2、sname→sno, tno→cno, sno→tname × 三、函数依赖是语义范畴 1、语义:数据所反映的现实世界事物本质联系 2、根据语义来确定函数依赖性的存在与否 3、函数依赖反映属性之间的一般规律,必须在关系模式下的任一个关系r中都满足约束条件。 四、属性间的联系决定函数依赖关系 设X、Y均是U的子集 1、X和Y间联系是1:1,则X→Y,Y→X。(相互依赖,可记作X←→Y) 2、X和Y间联系是M:1(M),则X→Y。 3、X和Y间联系是M:N(M,N),则X、Y间不存在函数依赖。 五、完全函数依赖和部分函数依赖 1、函数依赖分为完全函数依赖和部分函数依赖 2、定义: 在R(U)中,如果X→Y,并且对于X的任何真子集X'都有X'Y',则称Y完全依赖于X,记作X→Y;否则,如果X→Y,且X中存在一个真子集X',使得X'→Y成立,则称Y部分依赖于X。 例: 学生ID,学生姓名,所修课程ID,课程名称,成绩 (学生ID,所修课程ID)→成绩 成绩既不能单独依赖于学生ID,也不能单独依赖于所修课程ID,因此成绩完全函数依赖于关键字。 (学生ID,所修课程ID)→学生姓名 学生ID→学生姓名 学生姓名可以依赖于关键字的一个主属性——学生ID,因此学生姓名部分函数依赖于(学生ID,所修课程ID)。 六、平凡函数依赖和非平凡函数依赖 设X,Y均为某关系上的属性集,且X→Y 1)若Y包含于X,则称X→Y为:平凡函数依赖;(Sno, Cno) →Sno (Sno, Cno) →Cno 2)若Y不包含于X,则称X→Y为:非平凡函数依赖。(Sno, Cno) →Grade Y包含于X内,W于X相交,与Y无直接交集。 则:X→Y为平凡函数依赖

计算机四级数据库真题及解析(1)

计算机四级数据库真题及解析(1) 1.下列关于数据库基本概念的叙述中,哪一条是错误的()。 A) " 数据库 " 可理解为是在计算机存储设备中按一定格式存放数据的仓库 B) 数据库是按一定结构组织并可以长期存储在计算机内的、在逻辑上保持一致的、可共享的大量相关联数据的集合 C) 数据库中的数据一般都具有较大的冗余度 D) 数据库中的数据是按一定的数据模型组织在一起的 2. 下列关于数据模型的叙述中,哪一条是错误的()。 A) 数据模型是用来描述、组织和处理现实世界中数据的工具 B) 数据模型主要用于定义数据库的静态特征,但是不便于描述数据间的动态行为 C) 数据模型需要能比较真实地模拟现实世界 D) 数据模型是数据库系统的核心和基础 3 如果一门课程只能由一位教师讲授,而一位教师可以讲授若干门课程,则课程与教师这两个实体型之间的联系是()。 A) 一对一 B) 多对多 C) 一对多 D) 多对一 4 下列关于概念模型的叙述中,哪一条是错误的()。 A) 概念模型是现实世界到信息世界的抽象 B) 概念模型是从用户观点对数据和信息的建模 C) 概念模型具有较强的语法表达能力,却无法描述语义信息 D) 实体-联系模型是最常用的概念模型 5 下列关于数据库中 " 型" 和"值" 的叙述中,哪一条是错误的()。 A) 数据库中的型是指对某一类数据的结构和属性的描述 B) 数据库的型是随时间发生不断变化的

C) 数据库的型亦称为数据库的内涵 D) 数据库的值是型的一个具体赋值 6 下列关于数据模型的叙述中,哪一条是错误的()。 A) 数据模型是用来描述、组织和处理现实世界中数据的工具 B) 数据模型主要用于定义数据库的静态特征,但是不便于描述数据间的动态行为 C) 数据模型需要能比较真实地模拟现实世界 D) 数据模型是数据库系统的核心和基础 7 下列关于关系数据模型的叙述中,哪一条是错误的()。 A) 关系模型中数据的物理结构是一张二维表 B) 在关系模型中,现实世界的实体以及实体间的各种联系均用关系来表示 C) 插入、删除、更新是关系模型中的常用操作 8 列关于关系数据语言的叙述中,哪一条是错误的()。 A) 关系代数是关系操作语言的一种传统表示方式,是一种抽象的查询语言 B) 元组关系演算和域关系演算属于关系演算语言 C) 关系代数比关系演算具有更强的表达能力 D) SQL 语言是一种重要的关系数据语言 现有"学生- 选课-课程"数据库中的三个关系如下: S(S#,SNAME ,SEX ,BIRTHYEAR ,DEPT ),主码是 S# C(C#,CNAME ,TEACHER ),主码是 C# SC(S#,C#,GRADE ),主码是( S#,C#) 9 下列关于保持数据库完整性的叙述中,哪一条是错误的()。 A) 向关系 SC插入元组时, S# 和 C# 都不能是空值( NULL ) B) 可以任意删除关系 SC中的元组 C) 向任何一个关系插入元组时,必须保证关系主码值的唯一性 D) 可以任意删除关系 C中的元组 10 在关系代数中,从两个关系的笛卡尔积中选取它们属性间满足一定条件的元组的操作称为()。 A) 并 B) 选择

数据库原理有答案资料

二、主观题(共5道小题) 35.什么是数据独立性? 参考答案: 数据独立性指应用程序独立于数据的表示(逻辑)与存储(物理),通过将数据 的定义与存储从程序中独立出来实现。 36.什么是数据抽象? 参考答案: 数据抽象:即是将数据抽象化、逻辑化,使用户不必了解数据库文件的物理存储 结构、存储位置和存取方法等细节,即可存取数据库。在数据库系统中,有三种级 别的数据抽象,即:视图级抽象、概念级抽象和物理级抽象。 37.什么是演绎? 参考答案: 演绎是归纳出实体型集合的共同特征,并形成由这些共同特征构成的新实体型。 38.什么是弱实体? 参考答案: 弱实体是管理主体之外的实体型。没有键属性的实体。 39.假定一个学校的图书馆要建立一个数据库,保存读者、书和读者借书记录。请用ER图进行概念模型的设计。 读者的属性有:读者号、姓名、年龄、地址和单位 书的属性有:书号、书名、作者和出版社 对每个读者借的每本书有:借出日期和应还日期 参考答案: 二、主观题(共11道小题) 25.什么是数据库? 参考答案: 数据库是永久存储的、相互关联的和可共享的数据集合。 26.设有一个关系数据库,有三个基本表,表的结构如下:

STUDENT(学号,姓名,年龄,性别,系名),其中学号,姓名,性别,系名的 数据类型均为字符类型。年龄的数据类型为整型。 SC(学号,课程号,成绩):其中学号、课程号的数据类型为字符类型,成绩的数据类型为整型。 COURSE(课程号,课程名,学时数):其中课程号、课程名的数据类型的数据类 型为字符类型;学时数的数据类型为整型。 1)请用关系代数查询信息系学生的学号、姓名、课程号和成绩。 2)指出以上各关系的键和外键。 3)请用关系代数查询年龄在20以下同学的姓名,年龄。 4)请用SQL语言检索创建STUDENT表,并定义出主键约束,学生性别缺省约束为:“男” 5 )请用SQL语言定义SC表,并定义外键约束 SC(学号,课程号,成绩):其中学号、课程号的数据类型为字符类型,成绩的数据类型为整型。 6)查询“计算机原理”课程成绩小于60分的同学的学号和姓名。 7)请创建年龄在20岁以下,计算机系男同学的视图。 8)将新同学,学号“200301009”,姓名:张苹,年龄:20,性别:女,系名:土木的信息插入到STUDENT关系中。 9)删除选修“001”课程的选修信息。 参考答案: 1)π学号,姓名,课程号,成绩(SC (σ系名=‘信息’STUDENT)) 2)STUDENT:键:学号 SC:键:学号,课程号;外键:学号;课程号。 COURSE:键:课程号 STUDENT) 3)π 姓名,年龄(σAGE《20

数据库函数依赖和范式总结

数据库函数依赖和范式总结 1 函数依赖 1.1 定义: 一个集合R(U,F),U为属性全集,F为函数依赖集合。F中存在着{Xi->Yi...};对于每个X都存在着一个Y与之唯一对应。 意思就是相当于X为主键,Y由主键决定。比如一个学生他的学号相当于X,而他的姓名与年龄这些其他信息相当于Y。但是X有时候并不是一个值,比如一个学生他的成绩需要有两个属性才能知道他的成绩,学号+课程号->成绩 1.2 平凡函数依赖与非平凡函数依赖 平时我们主要讨论的是非平凡函数依赖。 平凡函数依赖概念:Y集合属性属于X集合属性的子集 非平凡函数则相反 1.3 逻辑蕴涵(为后面求闭包做好基础) X,Y为属性集合U的子集,且X->Y不存在于F中。即我们需要通过F 中的函数依赖推出X->Y称为函数依赖。而所有函数依赖的集合则称为闭包 1.4 函数依赖的推理规则(就是求函数依赖的逻辑蕴涵) 1.4.1 几个公理 1.4.1.1 公理一(自反律):Y属于X的子集,则X->Y 数学公式描述 Y?X?U 1.4.1.2 公理二(增广律):X->Y成立,Z?U也成立,则 XZ?YZ 1.4.1.3 公理三(传递律):X->Y成立,Y->Z成立,则 X->Z 1.4.2 公理的推广 1.4. 2.1 推广一(合并律):X->Y,X->Z,则X->YZ 1.4. 2.2 推广二(伪传递律):X->Y,YW->Z,则XW->Z(证明只需要在XY两边*W) 1.4. 2.3 推广三(分解律):X->Y成立,Z?Y,则 X->Z

1.4. 2.4 推广四(复合律):X->Y,W->Z,则XW->YZ 1.5 完全函数依赖与部分函数依赖(范式中基础知识) X->Y的集合中,若X的任一真子集x都能 x->Y则为部分函数依赖,若不能则的完全函数依赖,如果X没有真子集则也称为完全函数依赖。例如学号可以决定姓名,年龄等,因为学号集合没有真子集,则此为完全函数依赖。而当姓名没有重名的情况下,学号和姓名都可以作为X集合子集,而此时姓名也可以决定年龄,所以此函数为部分函数依赖 1.6 传递函数依赖(范式中基础知识) X->Y,且Y!->X,Y->Z, 则X->Z称为传递函数依赖 简单理解就是X通过Y再Y通过Z,最后X可以决定Z,但是如果Y->X的话,那么X<->Y直接相等就相当于没意义经过传递而只是简单的替换了而已,所以并不能叫做传递函数依赖 1.7 (重要)属性集的闭包和算法 1.7.1 定义:从F集合中所有的函数依赖 F->A 1.7.2 X->Y的充分必要条件Y?X* 1.7.3 计算闭包算法 设属性集U,F是R上的依赖函数集,X是U的子集,求属性X相当于函数依赖集F的闭包X* result = x; do{ if(F中有某个函数依赖集合Y->Z满足Y?result){ result = result ∪ Z ; } }while(result 有所改变); 例题:属性集合U={X,Y,Z,W}, 函数依赖集合F={X->Y,Y->Z,W->Y},求闭包 X* = XYZ ,(XW)* = XYZW ,(YW)*=YZW 1.8 (重要)候选键的求解和算法 1.8.1 定义:X是U的一个子集,若X->U(即X->U在F中)那么称X为超键,但是如果X->U成立,但是X的真子集x->U不成立(即x->U不在F中)则称为候选键 1.8.2 快速求解候选键的充分条件 (1) L类:仅仅出现在F中的函数依赖左部的属性

《数据库原理》知识点总结

数据库系统概述 一、有关概念 1.数据 2.数据库(DB) 3.数据库管理系统(DBMS ) Access 桌面DBMS VFP SQL Server Oracle 客户机/服务器型DBMS MySQL DB2 4.数据库系统(DBS) 数据库(DB) 数据库管理系统(DBMS ) 开发工具 应用系统 二、数据管理技术的发展 1.数据管理的三个阶段 (1)人工管理阶段 (2)文件系统阶段 (3)数据库系统阶段 概念模型 一、模型的三个世界 1.现实世界 2.信息世界:即根据需求分析画概念模型(即E-R 图),E-R 图与DBMS 无关。 3.机器世界:将E-R 图转换为某一种数据模型,数据模型与DBMS 相关。 注意:信息世界又称概念模型,机器世界又称数据模型 二、实体及属性 1.实体:客观存在并可相互区别的事物。 2.属性: 3.关键词:能唯一标识每个实体又不含多余属性的属性组合。 一个表的码可以有多个,但主码只能有一个。 4.实体型:即二维表的结构 5.实体集:即整个二维表 三、实体间的联系:

1.两实体集间实体之间的联系 1:1 联系、1:n 联系、m:n 联系 2.同一实体集内实体之间的联系 1:1 联系、1:n 联系、m:n 联系 数据模型 一、层次模型:用树型结构表示实体之间的联系。 二、网状模型:用图结构表示实体之间的联系。 三、关系模型:用二维表表示实体之间的联系。 1.重要术语: 关系:一个关系就是一个二维表; 元组:二维表的一行,即实体; 关系模式:在实体型的基础上,注明主码。 关系模型:指一个数据库中全部二维表结构的集合。 数据库系统结构 数据库系统的模式结构 三级模式 1.模式:是数据库中全体数据的逻辑结构和特征的描述。 ①模式只涉及数据库的结构;模式既不涉及应用程序,又不涉及数据库结构的存储; ②外模式:是模式的一个子集,是与某一个应用程序有关的逻辑表示。 特点:一个应用程序只能使用一个外模式,但同一个外模式可为多个应用程序使用。 ③内模式:描述数据库结构的存储,但不涉及物理记录。 2.两级映象 ①外模式/模式映象:保证数据库的逻辑独立性; ②模式/内模式映象:保证数据库的物理独立性; 3.两级映象的意义 ①使数据库与应用系统完全分开,数据库改变时,应用系统不必改变。 ②数据的存取完全由DBMS 管理,用户不必考虑存取路径。 数据库管理系统 1.DBMS 的功能:负责对数据库进行统一的管理与控制。 ①数据定义:即定义数据库中各对象的结构 ②数据操纵:包括对数据库进行查询、插入、删除、修改等操作。 ③数据控制:包括安全性控制、完整性控制、并发控制、数据库恢复。 2.DBMS 的组成: DDL 语言 DML语言

计算机四级数据库真题及解析(1)

计算机四级数据库真题及解析(1) 1?下列关于数据库基本概念的叙述中,哪一条是错误的()。 A)"数据库"可理解为是在计算机存储设备中按一定格式存放数据的仓库 B)数据库是按一定结构组织并可以长期存储在计算机内的、在逻辑上保持一致的、可共享的大量相关联数据的集合 C)数据库中的数据一般都具有较大的冗余度 D)数据库中的数据是按一定的数据模型组织在一起的 2.下列关于数据模型的叙述中,哪一条是错误的()。 A)数据模型是用来描述、组织和处理现实世界中数据的工具 B)数据模型主要用于定义数据库的静态特征,但是不便于描述数据间的动态行为 C)数据模型需要能比较真实地模拟现实世界 D)数据模型是数据库系统的核心和基础 3如果一门课程只能由一位教师讲授,而一位教师可以讲授若干门课程,则课程与教师这两个实体型之间的联系是()。 A)一对一 B)多对多 C)一对多 D)多对一 4下列关于概念模型的叙述中,哪一条是错误的()。 A)概念模型是现实世界到信息世界的抽象 B)概念模型是从用户观点对数据和信息的建模 C)概念模型具有较强的语法表达能力,却无法描述语义信息 D)实体-联系模型是最常用的概念模型

5下列关于数据库中"型"和"值"的叙述中,哪一条是错误的()。 A)数据库中的型是指对某一类数据的结构和属性的描述 B)数据库的型是随时间发生不断变化的 C)数据库的型亦称为数据库的内涵 D)数据库的值是型的一个具体赋值 6下列关于数据模型的叙述中,哪一条是错误的()。 A)数据模型是用来描述、组织和处理现实世界中数据的工具 B)数据模型主要用于定义数据库的静态特征,但是不便于描述数据间的动态行为 C)数据模型需要能比较真实地模拟现实世界 D)数据模型是数据库系统的核心和基础 7下列关于关系数据模型的叙述中,哪一条是错误的()。 A)关系模型中数据的物理结构是一张二维表 B)在关系模型中,现实世界的实体以及实体间的各种联系均用关系来表示C)插入、删除、更新是关系模型中的常用操作 8列关于关系数据语言的叙述中,哪一条是错误的()。 A)关系代数是关系操作语言的一种传统表示方式,是一种抽象的查询语言B)兀组关系演算和域关系演算属于关系演算语言 C)关系代数比关系演算具有更强的表达能力 D)SQL语言是一种重要的关系数据语言 现有"学生-选课-课程"数据库中的三个关系如下: S (S#, SNAME,SEX,BIRTHYEAR ,DEPT ),主码是S# C (C#,CNAME,TEACHER ),主码是C# SC (S#, C#,GRADE ),主码是(S#,C#) 9下列关于保持数据库完整性的叙述中,哪一条是错误的()。 A)向关系SC插入元组时,S#和C#都不能是空值(NULL ) B)可以任意删除关系SC中的元组 C)向任何一个关系插入元组时,必须保证关系主码值的唯一性 D)可以任意删除关系C中的元组 10在关系代数中,从两个关系的笛卡尔积中选取它们属性间满足一定条件的

从数据中挖掘函数依赖

从数据中挖掘函数依赖 摘要:介绍FD_Mine 的规则发现算法,以解决从数据中挖掘函数依赖(FD)的问题。用Armstrong 公理作为推理规则,找出函数依赖,确定等价属性,来减少数据集和已有函数依赖的数目。首先,描述了四个修剪规则,用于消除那些隐含在已发现的函数依赖中的函数依赖;然后,列出了FD —Mine 算法,这个算法将四个修剪规则应用于挖掘过程,结果证明了FD —Mine 的正确性和有效性。 关键字:发现函数依赖 挖掘函数依赖 Implication 规则 函数依赖 数据挖掘 知识发现 FD_Mine 关系数据库 1、介绍 规则挖掘是数据挖掘中非常重要的任务。规则挖掘是输入数据,输出规则的算法过程。如输出规则关联规则(Agrawal et al. 1993),蕴含规则(Baixeries 2004; Fagin1977; Ullman 1982)和函数依赖(Maier 1983; Ullman 1982)。本文设计一个有效的规则挖掘算法,用于从数据中挖掘函数依赖(FD ) (Mannila and Raiha 1994),函数依赖表示在关系r(U)中两个属性集之间值的约束关系(Maier 1983)( U 为有限的离散变量或属性)。例如,一个学生数据库,学生的姓名完全依赖于他们的学号。如果对所有的元组,()i j t t r U ∈,都有 FD X Y →满足()r U ,,X Y U ?那么得出:如果[][]i j t X t X =,则[][]i j t Y t Y =。 从数据库中发现常见的两种规则是蕴含规则和函数依赖。蕴含规则描述的是一对属性之间的关系,而函数依赖描述的是所有属性之间的关系。蕴含规则普遍存在于命题逻辑和数据挖掘中,用于二元数据。而函数依赖通常用于数据库理论,因为函数依赖适用于属性值为多值的数据(Baixeries 2007)。设I = 12{,...,...}i n i i i i 是事务数据库T 的属性集,且第i 个属性i i 的值域为{0,1},1代表事务中元组存在,反之0表示不存在。通常蕴含规则表示:只要属性X 存在,则Y 也存在(Baixeries 2007)。具体表示为:=1=1X Y ?,其中,,X Y I ?, ()={0,1}dom X ,()={0,1}dom Y ,=X Y ??。其中1也可以省略,如:{牛奶,鸡蛋} ? {面包},表示如果买了牛奶和鸡蛋,一定会买面包。也就是如果牛奶和鸡蛋的值都为1,则面包的值 也为1。而函数依赖的具体形式是:X Y →,其中=X Y ??,也可以不是二元域,如:postcode → areacode 表示:无论有多少个邮政编码和地区码,都是邮政编码决定地区码。 简单的说,两种规则在语义上表示不同的粒度,蕴含规则X Y ?表示如果X 表示真,则Y 也表示真, FD X Y →表示如果两个元组在X 相同,则在Y 上也相同,蕴含规则和函数依赖的关系在Baixeries (2007), Carpineto et al. (1999), Fagin (1977), Ganter andWille (1999), Sagiv et al. (1981), Ullman (1982)上有详细的介绍。从语法角度讲,两种规则是等价的,因为他们都Armstrong 公理作为推理规则, (Maier 1983; Ullman 1982)。假设每个蕴含规则X Y ?对应于一个 FD X Y →。给定一个蕴含规则集P 和相应的函数依赖集Q ,

数据库系统概念题目及答案

1.为什么要研究关系规范化理论? 答关系数据库的设计直接影响着应用系统的开发、维护及其运行效率。一个不好的关系模式会导致插入异常、删除异常、数据冗余(修改异常)等问题。为此,人们提出了关系数据库规范化理论。它依据函数依赖,采用模式分解的方法,将一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合,从而消除各种异常,把不好的关系数据库模式转化为好的关系数据库模式。 2.理解并写出下列术语的含义。 函数依赖,平凡函数依赖,非平凡函数依赖, 1NF范式,BCNF范式,3NF范式,规范化,无损连接性,依赖保持性。 答: .函数依赖:设关系模式R(A1,A2,…,A n),X,Y是R的两个属性集合,X?R(A1,A2,…,A n)及Y?R(A1,A2,…,A n),R[X,Y]是关系只在属性XUY上的投影,当任何时刻R[X,Y]中任意两个元组中的X属性值相同时,则它们的Y属性值也相同.那么称X函数决定Y,或Y函数依赖于X,记作X→Y。 .平凡函数依赖与非平凡函数依赖:当属性集合Y是属性集合X的子集时,则存在函数依赖X→Y。这说明一组属性函数决定它的所有子集。这种类型的函数依赖称为平凡函数依赖。如果X→Y且Y?X,则称X→Y是非平凡的函数依赖。 .1NF范式:定义;如果关系模式的所有属性的值域中每一个值都是不可再分解的值,则称只属于第一范式(1NF)。 lNF是关系模式的最低要求。这一限制是在关系的基本性质中提出的,每个关系模式都必须遵守。 .BCNF范式:定义:若关系模式R∈lNF且每个非主属性都完全函数依赖于R 的每个键,关系模式及属于第二范式(只E2NF)。 .3NF范式:定义: .规范化:把一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合的过程叫做规范化。 .范式:规范化理论认为,一个关系数据库中所有的关系,都应满足一定的要求,它把关系应满足的规范要求分成几级,并为每一级定义了相应的约束条件集,称为范式。 .无损连接性:设有关系模R(U)中存在函数依赖集F,R被分解为R1(U1),…,R k(U k),如果这些关系模式的自然连接与原关系模式R完全相等,则称该分解具有无损连接性。 .依赖保持性:设有关系模式R(U)中存在函数依赖集F,R被分解加R1(U1),…,R k (U k),且R i (U i)(1≤i≤k)所包含的函数依赖集为F i,如果∪1k F i与F等价,则称该分解具有依赖保持性。 3.什么叫关系模式分解?为什么要有关系模式分解?关系模式分解要遵守什么规则? 答:关系模式分解指采用投影的方式将一个关系模式R(U)分解为R1(U1),…,R k(U k),其中不存在U i ?U j(1≤i,j≤k),并且U1∪U2∪…∪U k=U。关系模式分解是规范化的主要手段,通过关系模式分解可以把一个低一级范式的关系模式分解为若干个高一级范式的关系模式的集合。关系模式分解应当具有无损连接性和依赖保持性。

相关主题
文本预览
相关文档 最新文档