第2讲分布式数据库设计基础

格式：ppt
大小：3.57 MB
文档页数：99

下载文档原格式

/ 99

大数据存储与管理中的分布式数据库设计

大数据存储与管理中的分布式数据库设计随着信息技术的飞速发展和应用，大数据正日益成为组织和企业中一个重要的资产和竞争优势。

然而，大数据的处理和存储是一个复杂的过程，特别是在海量数据的情况下。

为了解决这个问题，分布式数据库的设计成为大数据存储与管理的关键。

在大数据存储与管理中，分布式数据库是一种存储和管理大量数据的有效方法。

它将数据分散存储在多个节点上，每个节点都具有独立的计算和存储能力。

相比传统的集中式数据库，分布式数据库可以提供更高的性能、可扩展性和可靠性。

在设计分布式数据库时，以下几个关键因素需要考虑：1. 数据分布策略：数据的分布是分布式数据库设计中的一个重要方面。

根据数据的特性和访问模式，可以选择不同的分布策略。

常见的分布策略包括基于主键的分片、基于范围的分片和哈希分片。

主键分片通过将数据按照主键的取值范围进行划分，范围分片则是按照某个特定字段的取值范围进行划分，而哈希分片则是通过对某个字段进行哈希运算后取模进行划分。

选择合适的分布策略可以提高数据的访问效率和均衡性。

2. 数据复制和一致性：在分布式环境下，数据的复制和一致性是保证数据可靠性和高可用性的重要手段。

通过将数据复制到不同的节点上，可以提高系统的容错性和可用性。

同时，使用合适的一致性协议可以确保数据的一致性。

常见的一致性协议包括基于主库的主从复制、Paxos算法和Raft算法。

根据应用的需求和数据的特性，可以选择合适的复制策略和一致性协议。

3. 负载均衡：负载均衡是分布式数据库设计中的一个重要问题。

通过合理分布数据和请求，可以使各个节点的负载均衡，避免单个节点负载过重导致性能下降。

常见的负载均衡策略包括轮询、最小连接和哈希等。

选择合适的负载均衡策略可以提高系统的性能和稳定性。

4. 数据一致性和可靠性：分布式环境下的数据一致性和可靠性是分布式数据库设计中的一个关键问题。

在设计分布式数据库时，需要考虑如何确保数据的一次性提交、事务的一致性和故障的容忍性。

分布式数据库系统的设计与实现：分享分布式数据库系统的设计原则、方法和实践

分布式数据库系统的设计与实现：分享分布式数据库系统的设计原则、方法和实践引言在当今数字化的时代，数据已经成为企业最宝贵的资源之一。

企业需要处理和存储越来越多的数据，以便进行分析、决策和日常运营。

传统的集中式数据库系统已经不能满足现代企业的需求，于是分布式数据库系统应运而生。

本文将介绍分布式数据库的设计原则、方法和实践，帮助读者更好地了解和应用分布式数据库系统。

什么是分布式数据库系统分布式数据库系统是由多个相互协作的节点组成的数据库系统。

每个节点都具有独立的计算和存储能力，并且通过网络连接进行通信和协调。

分布式数据库系统可以横向扩展，以满足大规模数据处理和高并发访问的需求。

它具有高可用性、高性能和容错性的特点。

分布式数据库系统的设计原则设计分布式数据库系统需要考虑以下原则：1.可扩展性分布式数据库系统应该具备良好的可扩展性，能够根据需求动态增加或减少节点。

随着数据规模和处理需求的增长，系统应该能够无缝地进行水平扩展，而不影响系统的稳定性和性能。

2.数据一致性分布式数据库系统要确保数据的一致性。

即使系统由多个节点组成，数据在不同节点上的副本也应该保持一致。

通常采用复制机制来实现数据的冗余存储和一致性保证。

当一个节点发生故障时，其他节点可以顶替其工作，保证系统的可用性和数据的一致性。

3.容错性分布式数据库系统应具备良好的容错性，能够自动检测和处理节点故障。

当一个节点发生故障时，系统应该能够自动将其从集群中剔除，并通过复制机制将数据从其他节点恢复到新的节点上，以保证系统的可用性和数据的完整性。

4.性能优化分布式数据库系统需要优化查询性能和数据访问速度。

可以采用数据分片、负载均衡、索引优化、缓存等技术手段来提升系统的性能。

同时，还可以通过水平划分和垂直划分等方式，将数据存储在多个节点上，以便并行处理和查询。

分布式数据库系统的设计方法设计分布式数据库系统通常采用以下方法：1.数据分片数据分片是将数据划分为多个片段，分布在多个节点上的过程。

数据库管理系统中的分布式数据库设计与实现

数据库管理系统中的分布式数据库设计与实现随着数据量的增长和应用负载的不断增加，单一数据库往往难以满足企业的需求。

分布式数据库成为一种非常重要的解决方案，它将数据分布在多个节点上，既可以提高数据处理能力，又可以增加系统的可用性和可扩展性。

本文将介绍数据库管理系统中分布式数据库的设计与实现。

一、背景介绍分布式数据库是指将一个逻辑数据库分布到多个物理节点上的数据库系统。

每个物理节点上都可以存储部分或全部的数据，并且可以独立地执行事务操作。

分布式数据库的设计与实现需要考虑数据的划分与分发、一致性与可用性、并发控制等方面的问题。

二、数据的划分与分发数据的划分与分发是分布式数据库设计的第一步。

合理的数据划分能够提高查询性能和负载均衡，同时减轻网络通信的压力。

通常可以采用水平划分和垂直划分两种方式。

水平划分是将一个数据库中的表按照行划分为多个部分，每个部分分布在不同的物理节点上。

这种方式适用于表中数据量较大的情况，可以提高系统的并发性能。

垂直划分是根据业务领域或者数据特点将表中的列分布在不同的物理节点上。

这种方式适用于表中列的关联性较低的情况，可以减少数据冗余，提高查询效率。

在数据划分的过程中，还需要考虑数据的一致性和容错性。

常见的数据复制策略有主备复制、多活复制和数据分片复制等。

三、一致性与可用性在分布式数据库中，一致性和可用性是非常重要的指标。

一致性指的是在分布式环境下，多个节点之间的数据是保持一致的。

为了实现一致性，可以采用两阶段提交（2PC）或者分布式事务的方式，确保在多个节点之间的数据操作是原子性的。

可用性指的是即使在某个节点出现故障时，分布式数据库仍能够正常工作，提供服务。

为了实现可用性，可以采用数据库复制和故障转移等机制，确保当某个节点出现故障时，系统可以自动切换到其他节点上，并且数据能够快速恢复。

四、并发控制在分布式数据库中，多个节点上的事务可能同时操作同一份数据，为了保证数据的正确性，需要采用并发控制机制。

2章_分布式数据库系统的设计2012-11-25

在分布式数据库设计中，为使分片设计和片段的位置分配设计得到的模式能够高效地支持应用，还需要知道应用的确切要求。
全局模式设计 DDB设计局部数据库设计 DDBS设计相关应用需求各个应用在每个站点的激活频率各个应用的原发站点各个应用对要求访问数据对象的访问次数、类型和统计分布数据的分片设计和位置分配设计
• 水平分片正确性原则的三个条件可以这样实现：若 R = {R1, R2, …, Rn}, 则
– 完整性条件：各片段定义中的限定语集合必须是完整的，即至少是它们允许值的集合。 – 可重构条件：如果限定语集合是完整的，则通过并操作总能重构全局关系。 – 不相交条件：如果限定语之间是互斥的，它们的片段必不相交。
组合法：也称集成法，这是一种自底向上(bottom-up)的创建方法。它是利用现有的计算机网络和独立存在于各个站点上的现存数据库系统，通过建立一个分布式协调管理系统，将它们集成为一个统一的分布式数据库系统。

用户1
1. 先剖析网络功能；
用户2
分布式协调管理系统
用户n
2.
3.
剖析各个站点上原有的数据库系统
目标一：本地性或近地性；
DDBS
目标二：控制数据适当冗余；
设计目标
目标三：工作负荷分布；
目标四：存储能力和费用。
1 分布式数据库设计概述 1.3 DDBS设计目标 1. 目标一：分布式数据库的本地性或近地性
分布式数据库系统中最重要的目标是尽量减少对网络的利用，即尽可能减少站点之间的通信次数和通信量。所以分布式数据库设计中的一个主要原则是使数据和应用实现最大程度的本地性。开发一个分布式数据库的主
应用设计
1 分布式数据库设计概述 1.3 DDBS设计目标

分布式数据库系统的设计

21
2.3.3数据库片段的位置分配设计
水平分片情况
1 非冗余分配：将片段分配到访问次数最多的站点
2 所有得益站点：本站点的应用的检索访问费用总比任何一个其他站点发出的应用对该片段进行更新访问的费用要低 3 附加复制法：Dj表示片段Ri冗余度；Fi表示Ri在每个站点都复制的得益
22
2.3.3数据库片段的位置分配设计
10
2.2.2构造全局模式的解决方法
1 识别相似性 2 识别冲突：
命名冲突/域差异/定标差异/结构差异
3 处理操作期间的不一致性 4 经典解法是生成三个实体：
一个具有共同属性另两个具有非相交属性
11
2.2.3自底向上综合的一个示例
问题：
假设已存在两个飞机订票系统A和B，可供查询各自班机的可用情况。二者有不同的概念模型。现需要将这两个系统合为一个分布式数据库系统，以便从两个公司的任一办公室能查询班机的可用情况。
2
2.1.1分布式数据库系统定义
分布式数据库系统中的数据是物理分布在用计算机网络连接起来的各个站点上；每一个站点是一个集中式数据库系统，都有自治处理的能力，完成本站点的局部应用；而每个站点上的数据并不是互不相关的，它们构成一个逻辑整体，统一在分布数据库管理下，共同参与并完成全局应用，并且分布式数据库系统中的这种“分布”对用户来说是透明的，也就是说，本地与远程结合的“接缝”是被隐蔽的，用户几乎感觉不到远程与本地结合的接缝的存在，即“一个分布式系统应该看起来完全像一个非分布系统”。
垂直分片情况
假定把站点r上的关系R垂直分成两个片段Rs和Rt，并将Rs和Rt分别分配在站点S和t,然后将应用分组并估算它们的利益情况
23
2.3.3数据库片段的位置分配设计

分布式数据库与数据管理教程

分布式数据库与数据管理教程随着信息技术的不断发展，大数据已经成为了当下热门的话题。

在大数据背后，分布式数据库和数据管理技术起到了重要的作用。

本文将介绍分布式数据库和数据管理的基本概念、原理和应用，并提供一些实用的教程和案例。

一、分布式数据库的概念与原理1.1 分布式数据库的定义分布式数据库指的是将数据分散存储在多个物理节点上，通过网络连接实现数据的共享和交互。

每个节点都具有独立的计算和存储能力，且能够协同工作以完成各种数据管理任务。

1.2 分布式数据库的原理分布式数据库的实现基于分布式系统和数据库技术。

其中，分布式系统涉及到数据分发、数据复制、数据恢复等技术，用于解决节点间通信、数据一致性、容错等问题；数据库技术包括数据模型、查询语言、事务处理等，用于实现数据的结构化存储和高效访问。

1.3 分布式数据库的优势和挑战与单机数据库相比，分布式数据库具有以下优势：数据容量无限扩展、高可靠性和高性能、负载均衡和故障容错等。

然而，分布式数据库也面临一些挑战，如数据一致性、容错处理、网络通信等问题，需要有效的管理和解决方案。

二、数据管理技术与实践2.1 数据库设计与建模数据库设计是指根据应用需求，将现实世界中的数据抽象为逻辑模型，并通过概念设计和物理设计转化为数据库结构。

数据库建模是指通过实体-关系模型、层次模型、网络模型等方法描述数据的关系和约束。

2.2 数据库查询与优化数据库查询是指通过查询语言（如SQL）来检索和操作数据库中的数据。

为了提高查询效率，需要进行查询优化，通过索引、视图、分区等技术来提高查询的速度和响应时间。

2.3 数据库事务与并发控制数据库事务是指数据库中一组操作的逻辑单元，要么全部成功，要么全部失败。

并发控制是为了解决多用户并发访问数据库时可能出现的数据一致性问题，通过锁定机制、并发控制算法等技术来保证数据的正确性和一致性。

2.4 数据备份与恢复对于分布式数据库来说，数据备份与恢复是非常关键的环节。

分布式数据库系统设计

分布式数据库系统设计一、引言分布式数据库系统是一种将数据存储在多个物理位置上的数据库系统，它通过将数据分散存储在多个节点上，以提高数据库系统的性能、可扩展性和容错能力。

本文将介绍分布式数据库系统的设计原则、架构、数据一致性和容错处理等方面的内容。

二、设计原则1.数据分布：将数据进行分片存储在多个节点上，使得每个节点存储的数据量相对较小，以提高查询和更新的效率。

2.数据复制：在分布式系统中，为了提高系统的可用性和容错能力，通常会将数据进行复制存储在多个节点上。

可以采用主从复制、多主复制或跨地域复制等方式实现数据的复制。

3.数据一致性：分布式系统中的数据一致性是一个复杂的问题。

在设计分布式数据库系统时，需要考虑如何保证分布式数据的一致性，并选择合适的一致性模型，如强一致性、最终一致性等。

4.查询优化：在分布式数据库系统中，查询优化是非常重要的。

需要考虑如何将查询请求分发到合适的节点上，并且在节点之间进行数据的并行处理，以提高查询的响应时间。

5.容错处理：由于分布式系统中的节点可能会发生故障，因此需要设计合适的容错机制，如故障检测、节点故障恢复、数据备份和恢复等，以保证系统的可用性和数据的安全性。

三、系统架构1.客户端：客户端负责向分布式数据库系统发送查询请求，并接收查询结果。

客户端可以根据查询的特点选择合适的节点进行查询，并将查询请求发送到该节点上。

2.节点管理器：节点管理器负责管理数据库节点，并将客户端的查询请求分发到合适的节点上。

它需要监控节点的状态，并在节点发生故障时进行处理，如切换到其他可用节点。

3.数据库节点：数据库节点负责存储数据，并进行查询和更新操作。

每个节点可以存储一部分数据，并通过数据复制机制保持数据的一致性。

节点之间可以通过消息传递进行通信和数据同步。

四、数据一致性在分布式数据库系统中，数据一致性是一个重要的问题，需要选择合适的一致性模型来保证数据的一致性。

1.强一致性：强一致性要求系统中的所有节点都能够在任意时刻看到相同的数据副本。

分布式数据库设计

分布式数据库设计一: .Net PetShop 4.0中的分布式数据库设计.数据库作为应用数据的存储中心，在系统中具有具足轻重的地位。

当用户量急剧增长时，数据库往往成为系统的瓶颈，采用分布式数据库是首选策略。

使用分布式数据库后，每一部分数据由专门的服务器来管理，分而治之，自然减少了数据库服务器的压力。

.Net PetShop 4.0使用了四个数据库，分别为：MSPetShop4MSPetShop4OrdersMSPetShop4ProfileMSPetShop4Services其中MSPetShop4用来管理产品、分类等基本数据信息，其中共有六个表AspNet_SqlCacheTablesForChangeNotificationCategoryInventoryItemProductSupplier除AspNet_SqlCacheTablesForChangeNotification是为了配合.net的缓存处理外，其它表都是基本数据表，它们在PetShop 4.0中有对应的模型。

实用文档MSPetShop4Orders用于订单的管理，其中有三个表LineItemOrdersOrderStatus分别用来存储订单明细、订单基本信息和订单状态的数据。

MSPetShop4Profile用于配置管理，其中有三个表AccountCartProfiles分别用来保存账户基本信息、购物车信息和用户配置信息。

MSPetShop4Services是.Net 2.0自带的用户成员资格管理的数据库，其中数据表众多，在此不再一一列出。

通过将一个完整系统的数据按功能进行划分，各部分数据存储到独立的数据库服务器中，便是一种典型的分布式数据库模式。

采用这种方式，不仅可以提高数据库以及应用的复用性，而且可以分散数据库服务器的压力，从而在某种程序上解决数据库瓶颈。

二:分布式数据库介绍.(一)分布式数据库实用文档分布式数据库系统是在集中式数据库系统成熟技术的基础上发展起来的，但不是简单地把集中式数据库分散地实现，它具有自己的性质和特征。

分布式数据库知识点整理

分布式数据库知识点整理局部数据：只提供本站点的局部应⽤所需要的数据。

全局数据：虽然物理上存储在个站点上，但是参与全局应⽤。

局部⽤户：⼀个⽤户或⼀个应⽤如果只访问他注册的那个站点上的数据称为本地或局部⽤户或本地应⽤；全局⽤户：如果访问涉及两个或两个以上的站点中的数据，称为全局⽤户或全局应⽤。

全局外模式：是全局应⽤的⽤户视图，也称全局视图。

从⼀个由各局部数据库组成的逻辑集合中抽取，即全局外模式是全局概念式的⼦集。

全局概念模式：描述分布式数据库中全局数据的逻辑结构和数据特性，是分布式数据库的全局概念视图。

分⽚模式：描述全局数据的逻辑划分。

每个全局关系可以通过选择和投影的关系操作被逻辑划分为若⼲⽚段。

分⽚模式描述数据分⽚或定义⽚段，以及全局关系与⽚段之间的映像。

这种映像是⼀对多的。

分配模式：根据选定的数据分布策略，定义各⽚段的物理存放站点，即定义⽚段映像的类型，确定分布式数据库是冗余的还是⾮冗余的，以及冗余的程度。

如果⼀个⽚段分配在多个站点上，则⽚段的映像是⼀对多的，分布式数据库是冗余的，否则是不冗余的。

局部概念模式：是全局概念模式的⼦集。

全局概念模式经逻辑划分成⼀个或多个逻辑⽚段，每个逻辑⽚段被分配在⼀个或多个站点上，称为该逻辑⽚段在某个站点上的物理映像或称物理⽚段。

局部内模式：是分布式数据库中关于物理数据库的描述，描述的内容不仅包含局部本站点的数据的存储描述，还包括全局数据在本站点的存储描述。

2. 什么是分布式数据库系统？主要特点？物理上分散⽽逻辑上集中的系统，它使⽤计算机⽹络将地理位置分散⽽管理和控制⼜需要不同程度集中的多个逻辑单位连接起来，共同组成⼀个统⼀的数据库系统。

分布式数据库系统可以看成是计算机⽹络和数据库系统的有机结合。

(1)物理分布性(2)逻辑整体性(3)站点⾃治性(4)数据分布透明性(5)集中与⾃治相结合的控制机制(6)存在适当的数据冗余度(7)事务管理的分布性1987 年提出12 条规则：（1）本地⾃治性（2）不依赖于中⼼站点（3）可连续操作性（4）位置独⽴性（5）数据分⽚独⽴性（6）数据复制独⽴性（7）分布式查询处理（8）分布式事务管理（9）硬件独⽴性（10）操作系统独⽴性（11）⽹络独⽴性（12）数据库管理系统独⽴性区别分布式数据库系统与只提供远程数据访问功能的⽹络数据库系统：分布式数据库系统中的数据是物理分布在⽤计算机⽹络连接起来的各个站点上；每⼀个站点可以使⼀个集中式数据库系统，⽽且都有⾃治处理的能⼒，完成本站点的局部应⽤；⽽每⼀个站点上的数据并不是互不相关的，它们构成⼀个逻辑整体，统⼀在分布式数据库管理系统的管理下，共同参与并完成全局应⽤，⽽且，分布式数据库系统中的这种“分布”对⽤户来说是透明的，也就是说，本地与远程结合的“接缝”是被隐蔽的，⽤户应该完全感觉不到远程与本地结合的接缝的存在，即“⼀个分布式系统应该看起来完全像⼀个⾮分布式系统”。

分布式数据库 ppt课件

适应分布式管理和控制机构。
经济性能优越
经济上和组织上的理由
系统的可靠性高，可用性好。
局部应用的响应速度快。
可扩展性好，易于集成现有系统。
既有数据库互连，历史继承；数据资源共享
系统规模逐步扩展增加结点，pp不t课件影响现有系统运行
15
1.4 分布式数据库系统的优缺点
缺点：系统开销大，主要花在通信部分。复杂的存取结构在集中式系统中是有效
3、在分布式DB中，用户看到的系统如同一个集中式 DBS，这是因为分布式系统具有（）和（）特点。
4、如果各个场地都采用同类型数据模型，但DBMS不同型号，这种系统属于（）型DBMS.
ppt课件
18
数据库分布式的管理-在技术上引起新问题
是由一个节点来统一管理各分数据库呢？还是各节点在必要时，都挺身而出代行管理的职能呢？这是集中与分散的问题。
30
2.3 分布透明性
分布（网络）透明性
分片透明性（全局视图和分片视图之间）
用户或应用程序只对全局关系进行操作而不必考虑关系的分片。如果分片模式改变了，通过调整全局模式与分
片模式之间的映象关系来保持全局模式不变。
位置透明性（分片视图和分配视图之间）
用户或应用程序不必了解片段的存储位置。
ppt课件
24
分布式数据存储
（2）垂直分片
将关系r按列分为若干属性子集r1，r2，…，rn，每个子集ri称为一个垂直片段。
一个垂直片段可以看成是关系上的一个投影。
ri =∏Ri（r）其中Ri是r的一个属性子集。
如P_S = ∏SNO，SNAME（S）关系的重构可以通过连接运算来实现。
r= r1 r2 …

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

然后消除无用谓词
2014-6-5
23
(1) A<10
(2) A<10 (3) A<10 (4) A<10 (5) A<10 (6) A<10 (7) A<10 (8) A<10
2014-6-5

A>5
A>5 A>5 A>5

Loc=SA
Loc=SA ¬(Loc=SA) ¬(Loc=SA) Loc=SA Loc=SA ¬(Loc=SA) ¬(Loc=SA)
第二讲分布式数据库设计基础
长沙理工大学计算机与通信工程学院
李春芳
2014.2
教学目的

通过一些有关分布式数据库设计理论帮助学生了
解分布式数据库设计基本方法以及实施途径。
2014-6-5
2
内容提要

1 分布式数据库设计目标 2 分布式数据库设计基本方法 3 自顶向下分布式数据库设计

2014-6-5
分段内元组选择概率不等因此 R1 不好...
32
Loc=Sa sal < 1000
元组选择概率相等
Qa: Select … loc = Sa ...
Qb: Select … loc = Sb ...
Loc=Sa sal 1000
R
2
Loc=Sb sal < 1000
2014-6-5 31
Loc=Sa sal <1000
此处元组有较高的选择概率
Qa: Select … loc = Sa ...
Qb: Select … loc = Sb ...
Loc=Sa sal 1000
R
1
Loc=Sb sal < 1000
此处元组选择概率较低
Loc=Sb sal 1000
分片原则

假若有全局关系R被分片为子关系(片段)集合 R={R1,R2,„,Rn}，则必须遵守以下规则：

完整条件：如果xR,则必有xRi，i=1,2,„,n；
可重构条件：如果是水平分片，则R=∪Ri；如果是垂直分片，则R=∞Ri；

不相交条件：如果是水平分片，则Ri∩Rj=φ（其中
i≠j,i,j=1,2,„,n）；如果是垂直分片，则Ri∩Rj=

则可能有的水平分段限定为：

P={DEPT=1}
（不是完整的）
（是完整的、最小的）
P={DEPT=1,JOB=‘P’}
P={DEPT=1,JOB=‘P’,SAL>500}
（完整的，不是最小的）
2014-6-5
21
如何保证分片原则

“手工”检查!
e.g.,R1=loc=‘Sa’E;R2=loc=‘Sb’E
逻辑访问表
分布要求
分布设计
站点逻辑访问表

分布设计阶段

分片设计：产生一个对全局数据的合理划分，从而
减少应用的数据操作量，并通过分配来达到最大程
度的本地化。

分配设计：将分片后的数据片段合理的放置到各个实际的物理节点。

2014-6-5
局部模式的重新构造
12
3.1 分布式数据库数据分片设计

LocSA LocSB LocSA LocSB
2014-6-5
27
基本概念

小项选择率（minterm selectivity）：给定小项
谓词用户查询可能选择到的元组数；

访问频率（Access frequency）：用户应用访问数据的频率，其中小项访问频率可以通过用户查询频率获得。

存储能力及费用

一般数据存储的费用与CPU、I/O及传输费用相比不重要，但必须考虑各站点存储空间的限制。
2 分布式数据库设计基本方法

分布式数据库设计主要包括重构法和组合法。

重构法，又称自顶向下法。？采用统一的观点，从总体设计做起，建立分布式数据库全局模式，然后将全局模式映射成几个可能交叠的子模式。
Loc=SB
Loc=SA ¬(Loc=SB)
(11) ¬(A<10)
(12) ¬(A<10)
A>5 ¬(Loc=SA)
Loc=SB
A>5 ¬(Loc=SA) ¬(Loc=SB) Loc=SA Loc=SB
(13) ¬(A<10) ¬(A>5) (14) ¬(A<10) ¬(A>5)

每个子模式表示与一个站点有关的信息子集，完成
每个站点上数据库的设计。

一般用这种方法创建的是同构数据库。

组合法：又称自底向上法。

主要完成将现有数据库连接形成一个全局性数据库。一般组合法涉及的数据库基本上都已经存在，需要在此基础上创建一个供外部用户透明访问的全局模式。

一般这些已存在的数据库是异构的。
2014-6-5
5<A<10
A 5 A 5 A10 A10
Loc=SB
Loc=SA Loc=SB Loc=SA Loc=SB
26
注:无用段的消除依赖于应用的语义 e.g.: 如果LOC可以是SA,SB, 则最终分段集合应该加上 R4: R8: R12: 5<A<10 LocSA A 5 A10 LocSB

生成具有满足分段原则的限定谓词
2014-6-5
22

设有关系E(e#,name,Loc,sal,A,„), 查询使用的简单谓
词（AiValue）是: A<10,A>5,Loc=Sa,Loc=Sb

首先：生成 “小项” 谓词，给定简单谓词集 Pr={p1,p2,..pn},则“小项”谓词（minterm predicate ）形式:p1*p2*„pn* ，其中pk*是pk或是¬pk。
主键属性（其中i,j=1,2,„,n)。
3.1.2 水平分片

水平分片又可分为基本水平分片与导出水平分片。

基本水平分片是以关系自身的属性性质为基础，执行 “选择”操作，将该关系分片成若干不相交的片段。

导出水平分片是从另外几个水平分片推导出来的，可看成是基本水平分片的连续使用。

基本水平分片例子1：
4 自底向上分布式数据库设计
5 自顶向下分布式数据库设计实例分析

6 自底向上分布式数据库设计实例分析
2014-6-5
3
1 分布式数据库系统设计目标

除了包含集中式数据库系统设计中的目标，分布式数据库设计
还需要考虑以下几点：

分布式数据库的本地性或近地性

可以尽可能地减少站点间的通信次数和通信量。 %90的数据应该在本地站点可以找到，只有10%的数据需要从远程站点上获取。
设存在学生信息库S（S#，SNAME，AGE，SEX）
Define fragement S1 as select * from s where
sex=‘M’
Define fragement S1 as select * from s where
sex=‘F’
2014-6-5
17

基本水平分片例子2：
收集分布信息水平分片谓词每一应用在各站点激活频率
收集分布信息分布要求和全局逻辑模式作为输入形式为全局数据库模式和逻
辑访问表
输出为分片模式和分配模式
9
2014-6-5
需求分析 1
说明：要求
1.设计数据字典；
2.全局数据模式； 3.全局操作模式；
概念设计
2 3 分布要求分析
3 自顶向下分布式数据库设计
需求分析系统需求
开发者输入视图集成
概念设计
视图设计
全局概念模式
访问模式
外部模式定义
用户输入
分布设计
局部概念模式物理设计物理模式
反馈
观察与监视
反馈

分布式数据库设计阶段

需求分析
概念设计分布要求设计全局逻辑设计分布设计局部逻辑设计局部物理设计
e#
NM
Loc
Sal
E
5 7 8
Joe Sally Tom
Sa 1000 Sb 2500 Sa 500
..
F
e# NM
5 8 Joe Tom
Loc Sal
Sa 1000 Sa 500
..
..
站点 Sb
2014-6-5
..
e# NM Loc Sal 7 Sally Sb 2500
站点Sa
19

P={p1, p2, „, pn}作为限定语是一简单谓词集合，为保
应用频率表
分布要求分析
实体划分表
应用极化表

分布要求分析内容：

频率表：各站点上每一应用激活次数（假设所有应用在所
有站点上都能执行）
ቤተ መጻሕፍቲ ባይዱ

划分表：可用于模式中各实体的潜在水平分片规则
极化表：指明由一个站点发出的一给定应用访问一给定片段的频率（定量分析方法）
2014-6-5
11
全局数据模式
站点逻辑模式
4.简化全局模式；
5.逻辑访问表； 6.各站点逻辑模式；
全局逻辑设计逻辑设计 4 5
频率表划分表极化表
7.各站点访问表；
8.局部逻辑模式 8 （关系或Codasyl）；

第2讲分布式数据库设计基础

合集下载

大数据存储与管理中的分布式数据库设计

分布式数据库系统的设计与实现：分享分布式数据库系统的设计原则、方法和实践

数据库管理系统中的分布式数据库设计与实现

2章_分布式数据库系统的设计2012-11-25

分布式数据库系统的设计

分布式数据库与数据管理教程

分布式数据库系统设计

分布式数据库设计

分布式数据库知识点整理

分布式数据库 ppt课件

文档推荐

最新文档

第2讲 分布式数据库设计基础

合集下载

大数据存储与管理中的分布式数据库设计

分布式数据库系统的设计与实现：分享分布式数据库系统的设计原则、方法和实践

数据库管理系统中的分布式数据库设计与实现

2章_分布式数据库系统的设计2012-11-25

分布式数据库系统的设计

分布式数据库与数据管理教程

分布式数据库系统设计

分布式数据库设计

分布式数据库知识点整理

分布式数据库 ppt课件

文档推荐

最新文档

第2讲分布式数据库设计基础