数据仓库与数据挖掘教程(第2版)课后习题答案 第三章
- 格式:doc
- 大小:799.00 KB
- 文档页数:6
数据挖掘孙家泽课后答案什么是数据挖掘?在你的回答中,强调以下问题:1)它是又一种噱头吗?2)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?3)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。
你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事情。
4)当把数据挖掘当做知识发现过程时,描述数据挖掘所涉及的步骤。
数据挖掘指从大量数据中挖掘出有趣模式和知识的过程或方法。
数据挖掘不是另一种噱头,数据挖掘的兴起是由于海量数据及其转化为有效信息和知识的需求。
因此,数据挖掘作为信息技术的自然革命的一个结果。
数据挖掘比从数据库、统计学等简单转换或应用更复杂。
数据挖掘是数据库、神经网络、机器学习、高性能计算、模式识别、数据可视化等的集成和综合。
机器学习与数据挖掘高度相关,机器学习模型通常非常强调准确性,而数据挖掘则强调挖掘方法在大型数据集上的有效性和可收缩性,以及处理复杂数据类型的方法,开发新的非传统方法;统计学研究数据的收集、分析、解释和表示,与数据挖掘具有天然联系;统计学方法可以用来验证数据挖掘结果等。
因此可以说数据挖掘是统计学技术进步的结果;模式识别重在认识事物,数据挖掘重在发现知识,因此可以说数据挖掘是一种方法,用于模式识别。
数据挖掘作为知识发现过程时,步骤有:1)数据清理;2)数据集成;3)数据选择;4)数据转换;5)数据挖掘;6)模式评估;7)知识表示。
数据仓库与数据库有何不同?它们有哪些相似之处?数据库是由一组内部相关的数据和一组管理和存取数据的软件程序组成;数据仓库是一个从多个数据源手机的信息存储库。
不同点是数据库由表组成,数据仓库是由数据立方体的多维数据结构建模。
相似点在于数据库和数据仓库都可以存储数据,都是数据分析和挖掘的信息源。
定义以下数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
数据库原理第三章第四章课后习题答案建库建表张敬怡12032316习题3建表和数据录入CREAT TABLE StudentSno Char(7) NOT NULL UNIQE,Sname VarChar(20) NOT NULL,Ssex Char(2) NOT NULL,Sage Smallint NULL,Clno Char(5) NOT NULL;INSERT INTO StudentV ALUES(‘2000101’, ‘李勇’, ‘男’, ‘20’, ‘00311’), (‘2000102’, ‘刘诗晨’, ‘女’, ‘19’, ‘00311’), (‘2000103’, ‘王一鸣’, ‘男’, ‘20’, ‘00312’), (‘2000104’, ‘张婷婷’, ‘女’, ‘21’, ‘00312’), (‘2001101’, ‘李勇敏’, ‘女’, ‘19’, ‘01311’), (‘2001102’, ‘贾向东’, ‘男’,‘22’, ‘01311’), (‘2001103’, ‘陈宝玉’, ‘男’, ‘20’, ‘01311’), (‘2001104’, ‘张逸凡’, ‘男’, ‘21’, ‘01311’); CREAT TABLE CourseCno Char(1) NOT NULL UNIQE,Cname VarChar(20) NOT NULL,Credit Smallint NULL;INSERT INTO CourseV ALUES(‘1’, ‘数据库’, ‘4’, ),(‘2’, ‘离散数学’, ‘3’, ),(‘3’, ‘管理信息系统’, ‘2’, ),(‘4’, ‘操作结构’, ‘4’, ),(‘6’, ‘数据处理’, ‘2’, ),(‘7’, ‘C语言’, ‘4’, );CREAT TABLE ClassClno Char(5) NOT NULL UNIQE,Speciality VarChar(20) NOT NULL,Inyear Char(4) NOT NULL,Number Integer NULL,Monitor Char(7) NULL;INSERT INTO ClassV ALUES(‘00311’, ‘计算机软件’, ‘2000’, ‘120’, ‘2000101’),(‘00312’, ‘计算机应用’, ‘2000’, ‘140’, ‘2000103’),CREAT TABLE GradeSno Char(7) NOT NULL,Cno Char(1) NOT NULL,Gmark Numberic(4,1) NULL;INSERT INTO GradeV ALUES(‘2000101’, ‘1’, ‘92’, ),(‘2000101’, ‘3’, ‘88’, ),(‘2000101’, ‘5’, ‘86’, ),(‘2000102’, ‘1’, ‘78’, ),(‘2000102’, ‘6’, ‘55’, ),(‘2000103’, ‘3’, ‘65’, ),(‘2000103’, ‘6’, ‘78’, ),(‘2000103’, ‘5’, ‘66’, ),(‘2000104’, ‘1’, ‘54’, ),(‘2000104’, ‘6’, ‘83’, ),(‘2001101’, ‘2’, ‘70’, ),(‘2001102’, ‘2’, ‘80’, ),(‘2001102’, ‘4’, ‘90’, ),(‘2000103’, ‘1’, ‘83’, ),(‘2000103’, ‘2’, ‘76’, ),(‘2000103’, ‘4’, ‘56’, ),(‘2000103’, ‘7’, ‘88’, );习题311题1.ALTER TABLE StudentADD Nation Varchar(20) NULL;2.ALTER TABLE StudentDROP COLUMN Nation;3.INSET INTO CourseV ALUES(‘2001110’, ‘3’, ‘80’);4.UPDATA Course SETCredit=70 WHERE Cno=‘2001110’;5.DELATE FROM CourseWHERE Cno=‘2001110’;6.CREATE INDEX IX_ClassON Student(Clno ASC);7.DROP INDEX Student IX_Class;1.SELECT DISTINCT CnoFROM Grade;2.SELECT*FROM StudentWHERE Ssex=女and Clno=’01311’;3.SELECT Sname,Ssex,(2014-Sage)as birthday FROM StudentWHERE Clno=’01311’OR Clno=’01312’;4.SELECT*WHERE Sname LIKE ‘李%’;5.SELECT NUMBERFROM ClassWHERE Clno=(SELECT ClnoFROM StudentWHERE Sname=李勇);6.SELECT A VG(Gmark)AS平均成绩MAX(Gmark) AS 最高分MIN(Gmark)AS 最低分FROM GradeWHERE Cno=(SELECT CnoFROM CourseWHERE Cname=操作系统);7.SELECT Count(DISTINCT Sno)FROM Grade;8.SELECT Count(DISTINCT Sno)FROM GradeWHERE Sno=(SELECT SnoFROM GradeWHERE Cno=(SELECT CnoFROM CourseWHERE Cname=操作系统));9.SELET SnameFROM StudentWHERE Sno=(SELECT SnoWHERE Sno NOT IN (SELECT DISTINCT SnoFROM Grade))AND Clno=(SELECT Clno1.SELECT*FROM StudentWHERE Sname<>李勇AND Clno=(SELECT ClnoWHERE Sname=李勇);2.SELECT*FROM StudentWHERE Sname<>李勇AND Sno IN=(SELECT DISTINCT Sno FROM GradeWHERE Cno=ANY(SELECT Cno FROM GradeWHERE Sno=(SELECT SnoFROM StudentWHERE Sname=李勇)));3.SELECT*FROM StudentWHERE Sage BETWEEN(SELECT Sage FROM StudentWHERE Sname=李勇)AND 25;4.SELECT Sno,SnameFROM StudentWHERE Sno=(SELECT SnoFROM GradeWHERE Cno=(SELECT CnoFROM CourseWHERE Cname=操作系统));5.SELECT SnameFROM StudentWHERE Sno<>(SELECT SnoFROM GradeWHERE Cno=1);6.SELECT SnameWHERE NOT EXISTS(SELECT*FROM CourseWHERE NOT EXISTS (SELECT*FROM GradeWHERE Student Sno=Grade.SnoAND/doc/b21760812.html,o=/doc/ b21760812.html,o));14题1.SELECT Sno,GmarkFROM GradeWHERE Cno=3ORDER BY Gmark DESC;降序2.SELECT*FROM StudentORDER BY Clno,Sage DESC;3.SELECT Cno,COUNT(Sno)AS 选课人数FROM GradeGROUP BY Cno;4.SELECT SnoFROM GradeGROUP BY SnoHA VING COUNT(Sno)>3; 找出选修了三门以上课程的学生学号15题1.UPDATA GradeSET Gmark=0WHERE Sno IN(SELECT SnoFROM StudentWHERE Clno=‘01311’);2. DELETE*FROM GradeWHERE Sno IN(SELECT SnoFROM StudentWHERE Clno=(SELECT ClnoFROM ClassWHERE Speciality=计算机软件AND Inyear=2001));3.DELETE*FROMGradeWHERE Sno IN(SELECT SnoFROM StudentWHERE Sname='李勇')UPDATE ClassSET Number=Number-1WHERE Clno=(SELECT ClnoFROM StudentWHERE Sname='李勇')UPDATE ClassSET Monitor=NULLWHEN Monitor=(SELECT SnoFROM StudentWHERE Sname='李勇')DELETE FROM StudentWHERE Sname='李勇' ;4.ALTER TABLE ClassADD Cavg_age Smallint NULLUPDATE ClassUPDATE Clno='00311' THEN (SELECT A VG(Sage) FROM Student WHERE Clno='00311'),UPDATEClno='00312' THEN(SELECT A VG(Sage) FROM Student WHERE Clno='00312'),WHEN Clno='01311' THEN (SELECT A VG(Sage) FROM Student WHERE Clno='01311');16题1.CREAT VIEW Stu_01311_1AS SELECT*FROM StudentWHERE Sno=(SELECT SnoFROM GradeWHERE Cno=1);2.CREAT VIEW Stu_01311_2AS SELECT FROM StudentWHERE Sno=(SELECT SnoFROM GradeWHERE Cno=1AND Gmark<60);3.CREAT VIEW Stu_yearAS SELECT Sno,Sname,(2014-Sage)AS Birth_yearFROM Student;4.SELECT SnameFROM VIEW Stu_yearWHERE Birth_year>1990;5.SELECT Sno,Sname,Birth_yearFROM VIEW Stu_yearWHERE Sno=(SELECT SnoFROM VIEW Stu_01311_2);习题4建表和完整性约束CREAT TABLE Student( Sno Char(7) NOT NULL UNIQE PRIMARY KEY,Sname VarChar(20) NOT NULL,Ssex Char(2) NOT NULL CHECK(Sex IN (‘男’,‘女’))Sage Smallint NULL CHECK(Age>=14 AND Age<=65),Clno Char(5) NOT NULL REFERENCES Class(Clno)ON UPDATE CASCADE );CREAT TABLE Course( Cno Char(1) NOT NULL UNIQE PRIMARY KEY,Cname VarChar(20) NOT NULL,Credit Smallint NULL CHECK(Redit IN(‘1’,‘2’,‘3’,‘4’,‘5’,‘6’)) );CREAT TABLE Class( Clno Char(5) NOT NULL UNIQE PRIMARY KEY,Speciality VarChar(20) NOT NULL,Inyear Char(4) NOT NULL,Number Integer NULL CHECK(Number>=1AND Number<=100),Monitor Char(7) NULL REFERENCES Student(Sno) );CREAT TABLE Grade( Sno Char(7) NOT NULL,Cno Char(1) NOT NULL,Gmark Numberic(4,1) NULL CHECK(Mark>=0 AND Mark<=100)PRIMARY KEY(Sno,Cno)FOREIGN KEY Sno REFERENCES Student(Sno)ON DELETE CASCADEON UPDATE CASCADEFOREIGN KEY Cno REFERENCES Course(Cno)ON DELETE CASCADEON UPDATE CASCADE );PS:王老师我笔记本里装不了SQL的软件所以只是把代码写出来了没运行过......。
1.1什么是数据挖掘?(a)它是一种广告宣传吗?(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。
因此,数据挖掘可以被看作是信息技术的自然演变的结果。
数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。
数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。
提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。
因此,出于这种必要性,数据挖掘开始了其发展。
当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
目录第1部分课程的教与学第2部分各章习题解答及自测题第1章数据库概论1.1 基本内容分析1.2 教材中习题1的解答1.3 自测题1.4 自测题答案第2章关系模型和关系运算理论2.1基本内容分析2.2 教材中习题2的解答2.3 自测题2.4 自测题答案第3章关系数据库语言SQL3.1基本内容分析3.2 教材中习题3的解答3.3 自测题3.4 自测题答案第4章关系数据库的规范化设计4.1基本内容分析4.2 教材中习题4的解答4.3 自测题4.4 自测题答案第5章数据库设计与ER模型5.1基本内容分析5.2 教材中习题5的解答5.3 自测题5.4 自测题答案第6章数据库的存储结构6.1基本内容分析6.2 教材中习题6的解答第7章系统实现技术7.1基本内容分析7.2 教材中习题7的解答7.3 自测题7.4 自测题答案第8章对象数据库系统8.1基本内容分析8.2 教材中习题8的解答8.3 自测题8.4 自测题答案第9章分布式数据库系统9.1基本内容分析9.2 教材中习题9的解答9.3 自测题9.4 自测题答案第10章中间件技术10.1基本内容分析10.2 教材中习题10的解答10.3 自测题及答案第11章数据库与WWW11.1基本内容分析11.2 教材中习题11的解答第12章 XML技术12.1基本内容分析12.2 教材中习题12的解答学习推荐书目1.国内出版的数据库教材(1)施伯乐,丁宝康,汪卫. 数据库系统教程(第2版). 北京:高等教育出版社,2003(2)丁宝康,董健全. 数据库实用教程(第2版). 北京:清华大学出版社,2003(3)施伯乐,丁宝康. 数据库技术. 北京:科学出版社,2002(4)王能斌. 数据库系统教程(上、下册). 北京:电子工业出版社,2002(5)闪四清. 数据库系统原理与应用教程. 北京:清华大学出版社,2001(6)萨师煊,王珊. 数据库系统概论(第3版). 北京:高等教育出版社,2000(7)庄成三,洪玫,杨秋辉. 数据库系统原理及其应用. 北京:电子工业出版社,20002.出版的国外数据库教材(中文版或影印版)(1)Silberschatz A,Korth H F,Sudarshan S. 数据库系统概念(第4版). 杨冬青,唐世渭等译. 北京:机械工业出版社,2003(2)Elmasri R A,Navathe S B. 数据库系统基础(第3版). 邵佩英,张坤龙等译. 北京:人民邮电出版社,2002(3)Lewis P M,Bernstein A,Kifer M. Databases and Transaction Processing:An Application-Oriented Approach, Addison-Wesley, 2002(影印版, 北京:高等教育出版社;中文版,施伯乐等译,即将由电子工业出版社出版)(4)Hoffer J A,Prescott M B,McFadden F R. Modern Database Management. 6th ed. Prentice Hall, 2002(中文版,施伯乐等译,即将由电子工业出版社出版)3.上机实习教材(1)廖疆星,张艳钗,肖金星. PowerBuilder 8.0 & SQL Server 2000数据库管理系统管理与实现. 北京:冶金工业出版社,2002(2)伍俊良. PowerBuilder课程设计与系统开发案例. 北京:清华大学出版社,20034.学习指导书(1)丁宝康,董健全,汪卫,曾宇昆. 数据库系统教程习题解答及上机指导. 北京:高等教育出版社,2003(2)丁宝康,张守志,严勇. 数据库技术学习指导书. 北京:科学出版社,2003(3)丁宝康,董健全,曾宇昆. 数据库实用教程习题解答. 北京:清华大学出版社,2003 (4)丁宝康. 数据库原理题典. 长春:吉林大学出版社,2002(5)丁宝康,陈坚,许建军,楼晓鸿. 数据库原理辅导与练习. 北京:经济科学出版社,2001第1部分课程的教与学1.课程性质与设置目的现在,数据库已是信息化社会中信息资源与开发利用的基础,因而数据库是计算机教育的一门重要课程,是高等院校计算机和信息类专业的一门专业基础课。
数据结构(第二版)习题答案第3章3.1 选择题第3章线性表的链式存储(1)两个有序线性表分别具有n个元素与m个元素且n≤m,现将其归并成一个有序表,其最少的比较次数是( A )。
A.n B.m C.n− 1D.m + n(2)非空的循环单链表 head 的尾结点(由 p 所指向)满足( C )。
A.p->next==NULL B.p==NULL C.p->next==head D.p==head (3)在带头结点的单链表中查找x应选择的程序体是( C )。
A.node *p=head->next; while (p && p->info!=x) p=p->next;if (p->info==x) return p else return NULL;B.node *p=head; while (p&& p->info!=x) p=p->next; return p;C.node *p=head->next; while (p&&p->info!=x) p=p->next; return p;D.node *p=head; while (p->info!=x) p=p->next ; return p;(4)线性表若采用链式存储结构时,要求内存中可用存储单元的地址( D )。
A.必须是连续的C.一定是不连续的B.部分地址必须是连续的D.连续不连续都可以(5)在一个具有n个结点的有序单链表中插入一个新结点并保持单链表仍然有序的时间复杂度是( B )。
A.O(1) B.O(n) C.O(n2) D.O(n log2n)(6)用不带头结点的单链表存储队列时,其队头指针指向队头结点,其队尾指针指向队尾结点,则在进行删除操作时( D )。
A.仅修改队头指针C.队头、队尾指针都要修改B.仅修改队尾指针D.队头,队尾指针都可能要修改(7)若从键盘输入n个元素,则建立一个有序单向链表的时间复杂度为( B )。
数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。
但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。
2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。
3预连接表格一个公用键和共同使用的数据将表格合并在一起。
共享一个公用键,可以将多个表格合并到一个物理表格中。
这样做可以很大程度的提高数据访问效率。
4预聚集数据根据“滚动概括”结构来组织数据。
当数据被输入到数据仓库中时,以每小时为基础存储数据。
在这一天结束时,以每天为基础存储累加每小时的数据。
在一周结束时,以每周为基础存储累加每天的数据。
月末时,则以每月为基础存储累加每周的数据。
5聚类数据将不同类型的数据记录放置在相同的物理位置。
这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。
6压缩数据压缩可以使可读取的数据量极大。
定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。
7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。
4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。
数据库系统原理与设计习题集第一章绪论一、选择题1. DBS是采用了数据库技术的计算机系统,DBS是一个集合体,包含数据库、计算机硬件、软件和()。
A. 系统分析员B. 程序员C. 数据库管理员D. 操作员2. 数据库(DB),数据库系统(DBS)和数据库管理系统(DBMS)之间的关系是()。
A. DBS包括DB和DBMSB. DBMS包括DB和DBSC. DB包括DBS和DBMSD. DBS就是DB,也就是DBMS3. 下面列出的数据库管理技术发展的三个阶段中,没有专门的软件对数据进行管理的是()。
I.人工管理阶段II.文件系统阶段III.数据库阶段A. I 和IIB. 只有IIC. II 和IIID. 只有I4. 下列四项中,不属于数据库系统特点的是()。
A. 数据共享B. 数据完整性C. 数据冗余度高D. 数据独立性高5. 数据库系统的数据独立性体现在()。
A.不会因为数据的变化而影响到应用程序B.不会因为系统数据存储结构与数据逻辑结构的变化而影响应用程序C.不会因为存储策略的变化而影响存储结构D.不会因为某些存储结构的变化而影响其他的存储结构6. 描述数据库全体数据的全局逻辑结构和特性的是()。
A. 模式B. 内模式C. 外模式D. 用户模式7. 要保证数据库的数据独立性,需要修改的是()。
A. 模式与外模式B. 模式与内模式C. 三层之间的两种映射D. 三层模式8. 要保证数据库的逻辑数据独立性,需要修改的是()。
A. 模式与外模式的映射B. 模式与内模式之间的映射C. 模式D. 三层模式9. 用户或应用程序看到的那部分局部逻辑结构和特征的描述是(),它是模式的逻辑子集。
A.模式B. 物理模式C. 子模式D. 内模式10.下述()不是DBA数据库管理员的职责。
A.完整性约束说明B. 定义数据库模式C.数据库安全D. 数据库管理系统设计选择题答案:(1) C (2) A (3) D (4) C (5) B(6) A (7) C (8) A (9) C (10) D二、简答题1.试述数据、数据库、数据库系统、数据库管理系统的概念。
数据仓库与数据挖掘答案
(1)数据库中存储的部是(数据),而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数军。
(2)数据仓库中的数据分为四个级别:(早起旧节级。
当前细节级、轻度综合级、高度综合级)。
(3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括(业务数据和历史数据)。
(4)元数据是“关于数据的数据”。
根据元数据用途的不同将数据仓库的元数据分为(技术元数据和业务元数据调类)。
(5)数据处理通常分为两大类:(联机事务处理和联机事务分析)。
第2章习题参考答案第6小题三简答题(1)查询T1老师所授课程的课程号和课程名。
(2)查询年龄大于18岁男同学的学号、姓名、系别。
(3)查询“李力”老师所授课程的课程号、课程名和课时。
(4)查询学号为S1的同学所选修课程的课程号、课程名和成绩。
(5)查询“钱尔”同学所选修课程的课程号、课程名和成绩。
(6)查询至少选修“刘伟”老师所授全部课程的学生姓名。
(7)查询“李思”同学未选修的课程的课程号和课程名。
(8)查询全部学生都选修了的课程的课程号和课程名。
(9)查询选修了课程号为C1和C2的学生的学号和姓名。
(10)查询选修全部课程的学生的学号和姓名。
(11)查询选修课程包含“程军”老师所授课程之一的学生学号。
(12)查询选修课程包含学号S2的学生所修课程的学生学号。
第3章习题参考答案一、选择题1. B2. A3. C4. B5. C6. C7. B8. D9. A 10. D二、填空题1. 结构化查询语言(Structured Query Language)2. 数据查询、数据定义、数据操纵、数据控制3. 外模式、模式、内模式4. 数据库、事务日志5. NULL/NOT NULL、UNIQUE约束、PRIMARY KEY约束、FOREIGN KEY约束、CHECK约束6. 聚集索引、非聚集索引7. 连接字段8. 行数9. 定义10. 系统权限、对象权限11. 基本表、视图12.(1)INSERT INTO S VALUES('990010','李国栋','男',19)(2)INSERT INTO S(No,Name) VALUES('990011', '王大友')(3)UPDATE S SET Name='陈平' WHERE No='990009'(4)DELETE FROM S WHERE No='990008'(5)DELETE FROM S WHERE Name LIKE '陈%'13.CHAR(8) NOT NULL14.o=o15.ALTER TABLE StudentADD SGrade CHAR(10)三、设计题1.(1) 查找在“高等教育出版社”出版,书名为“操作系统”的图书的作者名。
第六章作业1.数据挖掘与知识发现两个概念有什么不同?P116知识发现被认为是从数据中发现有用知识的整个过程。
数据挖掘被认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。
2.知识发现过程由哪三部分组成?每部分的工作是什么?P116KDD过程可以概括为三个子步骤:数据准备、数据挖掘和结果的解释和评价。
数据准备:数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。
数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。
数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳)等。
当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。
数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。
数据挖掘:数据挖掘是利用一系列方法或算法从数据中获取知识。
按照数据挖掘任务的不同,数据挖掘方法分类分为聚类、分类、关联规则发现等。
结果的解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要让整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。
另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if...then...”规则。
3.数据挖掘的对象有哪些?他们各自的特点是什么?P1181.关系数据库特点:(1)数据动态性(2)数据不完全性(3)数据噪声(4)数据冗余性(5)数据稀疏性(6)海量数据2.文本特点:(1)关键词或特征提取(2)相似检索(3)文本聚类(4)文本数据3.图像与视频数据特点:(1)图像与视频特征提取(2)基于内容的相似检索(3)视频镜头的编辑与组织4.web数据(1)异构数据集成和挖掘(2)半结构化数据模型抽取4.1).关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。
第三章作业
1.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。
P40
联机分析处理是共享多维信息的快速分析。
它体现在四个特征:(1)快速性(2)可分析性(3)多维性(4)信息性
2.OLAP准则中的主要准则有哪些?P41
(1)多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性(7)动态的系数矩阵处理(8)
多用户支持能力(9)非限定的跨维操作(10)直观的数据操作(11)
灵活的报表生成(12)不受限制的维和聚集层次
3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43
维是人们观察数据的特定角度。
关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。
多维数据就是从多个特定角度来观察特定的变量。
4.
MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。
RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点:
1.数据库中的元素具有相同的数值
2.多维数据库表达清晰,
3.占用存储少
RDBMS的特点:
1.数据以表格的形式出现
2.每行为各种记录名称
3.每列为记录名称所对应的数据域
4.许多的行和列组成一张表单
5.若干的表单组成database
5.
1.数据存取速度
ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。
因此,ROLAP的响应时间较长。
MOLAP在数据存储速度上性能好,响应速度快。
2.数据存储的容量
ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。
MOLAP通常采用多平面叠加成立体的方式存放数据。
当数据量超过操作系统最大文件长度时,需要进行数据分割。
多维数据库的数据量级难以达到太大的字节级。
3.多维计算的能力
MOLAP能够支持高性能的决策支持计算。
ROLAP无法完成多行的计算和维之间的计算。
4.维度变化的适应性
MOLAP增加新的维度,则多维数据库通常需要重新建立。
ROLAP对于维表的变更有很好的适应性。
5.数据变化的适应性
当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。
在ROLAP中灵活性较好,对于数据变化的适应性高。
6.软硬件平台的适应性
ROLAP对软硬件平台的适应性很好,而MOLAP相对较差。
7.元数据管理
目前在元数据的管理,MOLAP和ROLAP都没有成形的标准。
6.
在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。
7.多维数据显示的两种方法:关系数据库方式和多维数据库方式。
关系数据库可以显示更多维的数据,但用事实表显示多维数据时,重复数据很多,也很繁琐;多维数据库虽然不能同时显示三维以上数据,但显示的数据很精炼。
8.多维类型结构:每一个维度用一条线段来表示,维度上的每个成员都用线段上一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构:
9.举例说明四维数据显示?
答·
10.举例说明六位数据显示?
答:
11、多维数据显示的经验规则是什么?
答:多维数据的显示只能在平面上展现出来,用多维数据库显示时,不能同时显示三维以上数据,但可以固定一些维成员,重点显示两维维数据。
最有效表示多维数据使用多维类型结构(MTS),即每一维用一条线段表示,维度中每一个成员都用线段上的一个区间表示。
还可以使用行、列和页表三个显示组来表示。
经验规则:
1.将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员;
2.当维度嵌套在行货列中时,考虑到垂直空间比水平空间更有用,所以讲
维度嵌套在列中比嵌套在行中要好;
3.在决定数据的屏幕显示方式前,应首先弄清楚需要查找和分析比较的内
容;
12、举例说明OLAP的多维数据分析的切片操作。
答:切片就是在某两个维上取一定区间的维成员或全部维成员。
如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片)。
13
比如部门销售数据表中部门1的销售额为900元,对时间维进行下钻操作,
可以得到各个季度分别的销售额为多少。
14
(1)切片:切片就是在某两个维上取一定区间的为成员或全部维成员,而在其余的维上选定一个维成员的操作。
切片的作用就是舍弃一些观察
角度,使人们能在两个维上集中观察数据。
(2)切块:切块分两种情况:(1)在多维数据的某一个维上选定某一区间的维成员的操作。
(2)选定多维数组的一个三维子集的操作。
切块可
以看成是在切片的基础上确定某一个维成员的区间得到的片段,也即
由多个切片叠合起来的。
(3)钻取:向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取获取概括性信息。
(4)旋转:通过旋转可以得到不同视角的数据,旋转操作相当于平面数据将坐标轴旋转。
15、广义OLAP功能如何提高多维数据分析能力。
广义OLAP功能主要是通过四个模型逐层深入从而提高多维数据分析能力。
这四个模型分别是:
(1)绝对模型
它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。
该模型查询比较简单,综合路径是预先定义好的,用户交互少。
(2)解释模型
它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。
(3)思考模型
它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。
分析人员在引入确定的变量或公式关系时,必须创建大量的综合路径。
(4)公式模型
它的动态数据分析能力更高,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。
16、说明数据立方体的概念
数据立方体的概念是1996年,Jim Gray等首次提出的。
数据立方体是实现多维数据查询与分析的一种重要手段。
实质上,数据立方体就是数据仓库结构图中的综合数据层。
从此,基于数据立方体的生成方法一直是OLAP和数据仓库领域研究者所关注的热点问题。
多数据集的属性分为维属性和度量属性。
维数性是观察数据对象的角度,而度量属相则反映数据对象的特征。
对于多维数据分析而言,本质上是沿着不同的维度进行数据获取的过程。
在数据立方体中,不同维度组合构成了不同的子立方体,不同维值的组合机器对应的度量值构成相应的对于不同的查询和分析。
因此,数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问题。
17答:OLAP的逻辑结构由OLAP视图和数据存储两部分组成。
OLAP视图:对于用户来说它是数据仓库或数据集市中数据的多维逻辑表示,不管数据怎么存储和存储在何处。
数据存储:要求选择数据实际存储方式和实际存储位置,两种常用的选择是多维数据存储和关系数据存储。
18答:OLAP的物理结构包括基于数据存储的两种方式:多维数据存储和关系数据存储。
多维数据存储主要有两种选择:多维数据存储于客户端或OLAP服务器。
在第一种情况,多维数据存储于客户端,数据分析也在客户端,这样形成了“胖”客户端,这是一种两层客户/服务器的物理结构。
在第二种情况,多维数据存储放在OLAP服务器中,抽取数据仓库中的数据,然后将其转换成多维数据结构,并把OLAP服务器传给客户端,这时客户端就变成了“瘦”客户端,这是一种经典的三层客户/服务器物理结构。
19.说明浓缩立方体的压缩方法和效果。
答:浓缩立方体计算方法的基本原理是,在某些属性或组合下的一个元组相对于其他元组具有唯一性,则称为基本单一组(BST),当它的超集也是BST,且都是取同一度量值,在聚集运算时,可以把这些属性的度量值对应的元组压缩成一条元组存储。
一般来说,浓缩立方体的压缩率可以达到30%-70%。
20.多维数据分析的MDX语言与数据库的SQL语言有什么不同?
答:MDX语言结合了多维数据集,指定“维度”(ON子句)和“创建表达式计算的新成员”(MEMBER子句),这样就可以来从多维数据集中挖掘出指定的数据。
21MDX提供的函数children来完成这个操作。
Children 函数返回一个自然排序的集,该集包含指定成员的子成员。
如果指定的成员没有子成员,则此函数返回一个空集。
示例
下例将返回 Geography 维度中 Geography 层次结构的 United States 成员的子成员。
SELECT [Geography].[Geography].[Country].&[United States].Children ON 0 FROM [Adventure Works]
22用相应的表达式函数来计算。