《分布式数据库系统及应用》知识总结

  • 格式:docx
  • 大小:86.26 KB
  • 文档页数:8

下载文档原格式

  / 8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章分布式数据库系统概述

1、理解分布式数据库系统的特点:

(1)物理分布性:数据不是存放在一个站点上

(2)逻辑整体性:是与分散式数据库系统的区别

(3)站点自治性:是与多处理机系统的区别

(4)数据分布透明性

(5)集中与自治相结合

(6)存在适当的数据冗余度

(7)事务管理的分布性

2、能够按照不同标准描述分布式数据库系统的分类:

(1)按局部DBMS的数据模型分类

○1同构型DDBS

a)同构同质型(同一个公司的同一种模式)

b)同构异质型(不同公司不同模式)

○2异构型DDBS

(2)按DDBS的全局控制类型分类

○1全局控制集中型DDBS:全局控制机制和全局数据词典位于中心站点

○2全局控制分散型DDBS:全局控制机制和全局数据词典分散在网络的各个站点上。

○3全局控制可变型DDBS:也称主从型DDBS。分成两组站点,一组包含全局控制机制和全局控制词典,另外一组不包含。

3、理解分布式数据库中数据的独立性和分布透明性:

逻辑独立性

物理独立性(表示用户程序与数据的全局逻辑结构和数据的物理结构无关)

分布独立性(用户不必关心全局数据的分布情况,包括逻辑分片、物理位置分配情况以及各站点数据库的数据模型等)

分三个层次:

▪分片透明性(完全分布透明性):位于全局概念模式与分片模式之间,用户编写应用程序只对全局关系进行操作,不必考虑数据的逻辑分片

▪位置透明性(中级分布透明性):位于分片模式和分配模式之间。包括两情形-----各片段被复制情况和片段及其各副本的站点位置分配情况。

▪局部数据模型透明性(低级分布透明性):需要知道数据的分片情况和站点分配情况

第二章分布式数据库系统设计

1、理解分布式数据库的设计目标:

(1)本地性或近地性

○1尽量减少通信次数和通信量,90/10准则

○2分片和分布方案(本地和远程访问次数)择优

(2)控制数据适当冗余

○1冗余增加了可靠性、可用性,提高了效率

○2维护数据一致性开销增加

(3)工作负荷分布

○1各站点可以分担整个工作任

○2本地性降低

(4)存储能力和费用

2、理解水平分片的定义、分类和应用:

定义:水平分片是对全局关系执行“选择”操作,把具有相同性质的元祖进行分组,构成若干个不相交

的子集。

可以分为两类:初级分片、导出分片(应用看课件_分布式数据库系统设计1,15页开始)。

3、理解垂直分片的定义和应用

定义:垂直分片通过“投影”操作把一个全局关系的属性分成若干组,基本目标是将使用频繁的属性聚集在一起。(应用看课件_分布式数据库系统设计2,9页开始)

4、能够描述分片的基本原则:

原则:完整性、不相交性、可重构性

5、掌握数据片段分配的分类和常用方法:

分类:水平、垂直

分配方法:

(1)非冗余分配设计方法

○1最佳适应法

○2分片和分布方案(本地和远程访问次数)择优

(2)冗余分配的设计方法

○1所有得益站点法

○2附加复制法

6、掌握最佳适应法和所有得益站点法的基本特点:

(1)最佳适应法特点:对每一种分配都进行估算,然后选择最佳站点。

(2)所有得益站点法特点:确定非复制问题的解确定一组站点分配副本。

7、能够描述DATAID-D方法设计分布式数据库的各个阶段:

(1)分片设计

(2)非冗余分配

(3)冗余分配

(4)局部模式的重新构造

8、能够根据给出的条件对关系进行具体分片,给出正确的限定关系(见课后题67页2.9,2.10)

第三章分布式数据库系统中的查询处理和优化(连接与等值连接见课件3.1)

1、掌握分布式数据库查询的分类

局部查询:只涉及本地单个站点的数据, 优化同集中式。

远程查询:也只涉及单个站点的数据, 但要远程通讯, 选择站点。

全局查询:涉及多个站点数据, 优化复杂。

2、理解关系代数运算的交换率(书上83页)

3、掌握直接连接优化算法的分类

利用站点依赖信息的算法

分片与复制算法

站点依赖和数据复制结合算法

Hash划分算法

4、掌握半连接运算(课件3.2)

5、掌握半连接和直接连接查询优化算法的区别

1)取决于数据传输和局部处理的相对费用

2)如果传输费用是主要的,采用半连接,SDD-1

3)如果本地费用是主要的,采用直接连接,System R*

6、理解Hash划分算法的特点

1)数据传送量是R

2)索引方面,比片段复制算法更低

3)每个站点的连接数据量同站点依赖算法

7、能够描述基于半连接算法查询优化的基本原理和步骤

1)通常有两次传输

2)但是传输的数据量和传输整个关系相比,要远远少

3)一般有:T半<

4)半连接的得益:当card(R)>>card(R’),可减少站点间的数据传输量

5)半连接的损失:传输 B (S) =C0+C1* size (B)* val( B[S])

6)基本原理是在传到另一个站点做连接前,消除与连接无关的数据,减少做连接操作的数

据量,从而减小传输代价

采用半连接优化算法的步骤

1)计算每种半连接方案的代价,并从中选择一种最佳方案

2)选择传输代价最小的站点,计算采用全连接的方案的代价

3)比较两种方案,确定最优方案

8、能够描述基于关系代数等价变换的查询优化算法原理、算法实现步骤

基本原理

1)查询问题——〉关系代数表达式(——〉是转变的意思)

2)分析得到查询树

3)进行全局到片段的变换得到基于片段的查询树

4)利用关系代数等价变换规则的优化算法,尽可能先执行选择和投影操作

实现步骤和方法

1)转换一:查询问题——〉关系代数表达式(——〉是转换的意思)

2)转换二:关系代数表达式——〉查询树

3)转换三:全局查询树分拆成片段查询树

4)优化:利用关系代数等价变换规则的优化算法,优化查询树,进而优化查询

9、能够根据提供的条件完成分片和复制算法应用,通过计算判断哪个关系保持分片最优(课件3.3习题,书本88页)

第四章分布式数据库中的事务管理和恢复

1、掌握事务的四大特性

特性:原子性、一致性、持久性、隔离性。

2、能够描述两阶段提交协议的工作流程

表决阶段

▪目的是形成一个共同的决定

▪首先,协调者给所有参与者发送“准备”消息,进入等待状态

▪其次,参与者收到“准备”消息后,检查是否能够提交本地事务

•如能,给协调者发送“建议提交”消息,进入就绪状态

•如不能,给协调者发送“建议撤销”消息,可以单方面撤销

▪第三,协调者收到所有参与者的消息后,他就做出是否提交事务的决定,

•只要有一个参与者投了反对票,就决定撤销整个事务,发送“全局撤销”消息

给所有参与者,进入撤销状态

•否则,就决定提交整个事务,发送“全局提交”消息给所有参与者,进入提交

状态

执行阶段

▪实现表决阶段的决定,提交或者撤销

3、掌握事务故障的分类

站点故障

1)介质故障:

2)事务故障