分布式数据库的数据分配算法

格式：ppt
大小：117.51 KB
文档页数：18

下载文档原格式

/ 18

分库分表的算法

分库分表的算法分库分表是一种在数据库设计中常见的技术手段，用于解决大规模数据存储和查询的性能问题。

它通过将数据分散到多个数据库实例（分库）和多个数据表（分表）中，来分担单一数据库负载和提高系统的并发处理能力。

在进行分库分表时，选择合适的算法是非常重要的。

下面介绍几种常用的分库分表算法：1. 哈希算法：哈希算法是一种常见的分库分表算法。

它通过对数据的某个属性进行哈希运算，将得到的哈希值映射到不同的数据库或数据表中。

这样可以保证相同哈希值的数据分配到同一个数据库或数据表中，实现了数据的均匀分布。

哈希算法简单高效，但在处理数据扩容和缩容时会遇到一些问题。

2. 范围算法：范围算法将数据按照某个属性的取值范围进行划分，将不同范围的数据存储到不同的数据库或数据表中。

例如，可以按照用户的地理位置或时间范围来进行划分。

范围算法相对简单，但需要提前确定好划分的范围，如果数据不均匀分布，可能导致某个数据库或数据表的负载过高。

3. 分片键算法：分片键算法是一种基于数据的某个属性的分片策略。

它将数据根据分片键的取值分配到不同的数据库或数据表中。

与哈希算法和范围算法相比，分片键算法更具灵活性，可以根据实际需求进行调整。

但需要注意的是，选择分片键时要考虑数据的均匀性和分散程度，避免出现数据倾斜和热点问题。

4. 一致性哈希算法：一致性哈希算法是一种常用的分布式存储算法。

它通过将数据和数据库节点映射到环形空间中，根据数据的哈希值在环上选择最近的数据库节点进行存储。

一致性哈希算法具有很好的负载均衡性和容错性，适用于大规模的分布式数据库系统。

以上是一些常见的分库分表算法，根据具体的业务需求和系统架构来选择合适的算法非常重要。

在实际应用中，可能会结合多种算法来进行分库分表，以达到更好的数据管理和查询性能。

常见的分布式算法

常见的分布式算法分布式算法是一种能够处理大规模分布式系统的算法。

随着云计算和大数据的不断发展，分布式算法也逐渐成为了计算机科学领域的热门研究方向。

本文将介绍几种常见的分布式算法。

1. Paxos算法Paxos算法是一种用于解决分布式一致性问题的经典算法。

它能够确保在一个分布式环境中，多个进程能够达成一致的决策，即使发生网络故障或进程崩溃等异常情况。

Paxos算法被广泛应用于分布式数据库、分布式文件系统等领域。

2. Raft算法Raft算法是一种新兴的分布式一致性算法，它与Paxos算法类似，但更易于理解和实现。

Raft算法的设计目标是使分布式系统的可理解性更高，从而降低系统实现和维护的难度。

因此，Raft算法在近年来得到了广泛的关注和应用。

3. MapReduce算法MapReduce算法是一种用于处理大规模数据的分布式算法。

它通过将大规模数据分解成多个小数据块，并将这些数据块分散到多个计算机节点上进行并行计算，从而实现高效的数据处理。

MapReduce算法被广泛应用于搜索引擎、数据仓库等领域。

4. Gossip算法Gossip算法是一种用于分布式信息传播的算法。

它通过模拟人类社交网络中的信息传播行为，实现分布式节点之间的信息传输和共享。

Gossip算法在分布式系统中具有很高的可扩展性和容错性，因此在云计算、分布式数据库等领域得到了广泛应用。

总之，分布式算法是一种非常重要的计算机科学研究方向，它能够提高分布式系统的可扩展性、可靠性和性能。

通过学习和应用以上几种常见的分布式算法，我们可以更好地理解和应用分布式系统，从而促进分布式计算的发展。

基于遗传算法的分布式数据库数据分配研究

Ｂ）Ｓ的核心是数据分配的问题，它对整个分布式数
）是网络中的事务集，＝（。，ＦＦ， …Ｆ）是储存
的一个数据段集．以某种策略，数据库复制到把
据库系统的可用性、可靠性及运行效率都有非常大
的影响．目前，于分布式数据库分配算法的研究对中，常用的是基于冗余分配的算法＿，是，些方ｌ但Ｊ这
文章编号：６３０４２１）２００－４１７－６Ｘ（０２０－１２０
基于遗传算法的分布式数据库数据分配研究
王三虎
（吕梁学院数学系，山西离石０３０）３００
摘要：对目前分布式数据库数据分配方法存在的局限性及代价公式复杂、法运行效率低等问针算
配方法相比，改进后的数据分配方法的计算结果与最佳结果更为接近．
关键词：分布式数据库；遗传算法；据分配数
中图分类号：Ｐ１．３．Ｔ３１１３１文献标识码：Ａ
分布式数据库（ｉｒｕｄｄｔａｅｓｔＤ — ＤｓｉｔａｂｓｙｅＤｔｂｅａｓｍ，
其他的站点ｓ上去，则就形成了一种分配方案：Ａ＜
Ｆ，，＞．ＳＴ
法通常都存在代价公式复杂的缺点，算法的执行效率较低，计算的结果和最优方案有一定的差所距Ｊ。．本文基于遗传算法很高的并行性和算法的高效率特点，提出了一种基于遗传算法的数据分配方法，并对遗传算法进行了一些改进．

分布式数据库的设计与实现

分布式数据库的设计与实现分布式数据库是一种将数据存储在不同的物理节点上的数据库系统。

它通过将数据分散存储在多个服务器上，以实现高可用性、高性能和横向扩展等优势。

本文将介绍分布式数据库的设计与实现的方法和原则。

一、概述分布式数据库设计的目标是实现数据的分布式存储和访问，同时保证数据的一致性、可靠性和性能。

它通常可以分为两个部分：分布式数据库管理系统（Distributed Database Management System，简称DDMS）和数据分布策略。

二、DDMS设计与实现1. 数据切分在设计分布式数据库时，首先需要将数据按照一定的规则进行切分，将其分散存储在多个节点上。

常见的数据切分方法有垂直切分和水平切分两种。

- 垂直切分：按照业务模块将数据库表进行切分，使得每个节点只存储一部分表的数据。

这样可以减少单一节点的负载，提高系统性能和可用性。

- 水平切分：按照某个列或一组列的数值范围将表的数据划分成多个部分，分别存储在不同的节点上。

这样可以实现数据的负载均衡和横向扩展。

2. 数据复制在分布式数据库中，为了保证数据的可靠性和高可用性，一般会对数据进行复制存储。

常见的数据复制方法有主从复制和多主复制两种。

- 主从复制：一个节点作为主节点负责接收和处理所有的写入请求，其他节点作为从节点负责复制主节点的数据，并处理读取请求。

这样可以提高系统的读取性能和可用性。

- 多主复制：多个节点都可以处理读写请求，并相互之间进行数据同步。

这样可以提高系统的写入性能和可用性。

3. 数据一致性在分布式数据库中，由于数据的复制和分布式存储，会导致数据的一致性问题。

为了解决这个问题，可以采用一致性哈希算法来确定数据存储的位置和复制的节点。

同时，可以使用副本一致性协议来实现数据的一致性。

- 一致性哈希算法：将数据的键值通过哈希函数映射到一个统一的Hash环上，根据节点在环上的位置确定数据的存储节点。

这样可以实现动态添加和删除节点时的数据迁移。

使用技巧：如何进行分布式数据库的数据分片(四)

使用技巧：如何进行分布式数据库的数据分片在当今大数据时代，分布式数据库的应用越来越广泛。

而分布式数据库的核心概念之一就是数据分片，即将数据划分为多个片段存储在不同的节点上。

本文将为读者介绍如何进行分布式数据库的数据分片，并探讨一些使用技巧。

1. 数据分片的目的和原则数据分片的目的是为了提高数据库的性能、可扩展性和可靠性。

通过将数据分散存储在多个节点上，可以提高读写操作的并发性和响应速度。

同时，数据分片也使得数据库能够更好地适应数据量的增长和负载的变化。

在进行数据分片时，需要遵循以下原则：- 均匀划分：将数据均匀地划分为多个片段，避免某些节点负载过重而导致性能瓶颈。

- 水平划分：根据业务需求将数据水平划分，比如按照用户ID、地域、时间等进行划分，以实现更好的查询性能和负载均衡。

- 关联划分：将有关系或密切关联的数据划分到同一个分片中，以减少跨节点的数据传输和联接操作。

2. 数据划分策略在进行数据划分时，需要选择合适的策略。

以下是几种常见的数据划分策略：- 范围划分：根据数据的取值范围进行划分。

例如，将用户表的数据根据用户ID的范围进行划分，比如ID小于100万的放在一个分片中，ID大于100万的放在另一个分片中。

这种划分策略适用于数据量较大、范围较明确的场景。

- 哈希划分：根据数据的哈希值进行划分。

哈希划分可以将数据均匀地分布在不同的分片中，避免热点数据的集中。

但是哈希划分可能导致某些查询操作需要在所有分片上执行，增加了查询的开销。

- 随机划分：将数据随机地分配到各个分片中。

随机划分可以简化划分过程，但可能会导致某些分片负载较重，需要额外的负载均衡策略来解决。

3. 数据一致性和容错性在分布式数据库中，数据一致性和容错性是至关重要的。

当数据发生分片迁移、节点故障或网络问题时，需要确保数据的一致性和完整性。

以下是几种常见的数据一致性和容错性的技术：- 一致性哈希：一致性哈希算法可以将数据均匀地分布在不同的节点中，并在节点增加或删除时只影响少量的数据迁移，提高了数据的一致性和可用性。

分布式数据库的数据分片与数据分发策略

分布式数据库的数据分片与数据分发策略随着互联网的迅速发展，数据量的飞速增长给传统的单机数据库带来了诸多困扰，单机数据库的容量有限，且难以满足高并发的需求。

为了解决这一问题，分布式数据库应运而生。

而在分布式数据库的架构中，数据分片与数据分发策略是其中关键的组成部分。

数据分片是指将整个数据集按照一定的规则划分成多个分片，每个分片存储在不同的节点上。

而数据分发策略则是指如何将数据请求分发到正确的节点上，以实现高效的数据访问。

本文将对数据分片和数据分发策略两个方面进行详细阐述。

首先，数据分片方式的选择对分布式数据库的性能和扩展性有着重要影响。

目前常用的数据分片方式包括水平分片和垂直分片两种。

水平分片是将数据集按照某种规则划分成多个分片，每个分片包含相同结构的数据，但数据的取值范围可能不同。

水平分片适用于具有大量数据量和高并发读写的场景，每个分片可以独立处理数据请求，从而提高并发处理能力。

常见的水平分片策略包括基于主键范围的哈希分片、基于数据均匀性的区域分片等。

垂直分片是按照数据的不同属性将数据表进行划分，每个分片包含不同属性的数据。

垂直分片适用于数据量较大，但某些字段的访问频率较高的场景，通过将访问频率高的字段和访问频率低的字段分别存储在不同的分片中，可以减轻热点数据的压力，提高系统性能。

常见的垂直分片策略包括根据属性类型划分、按功能划分等。

其次，在选择数据分发策略时，需考虑到网络延迟、负载均衡以及故障恢复等因素。

数据分发策略的目标是将数据请求快速而准确地分发到正确的节点上，以提高查询效率和系统响应速度。

根据数据分片方式的不同，可以采用不同的分发策略。

对于水平分片的数据库，基于哈希函数的分发策略可以根据请求中的关键词或主键值计算分片的位置。

而对于区域分片，可以根据数据均匀性将请求路由至不同的区域节点上。

对于垂直分片的数据库，可以根据数据访问频率将热点数据和非热点数据分别存储在不同的节点上，并根据数据的属性类型选择不同的节点进行访问。

分布式数据库原理

分布式数据库原理分布式数据库是指将数据库系统的数据分布到多个独立的计算节点上进行存储和处理的技术。

它具有以下几个关键原理：1. 数据划分：将数据库中的数据划分成多个部分，每个部分存储在不同的计算节点上。

划分的依据可以是数据的范围、哈希值或者其他规则。

通过数据划分，可以将数据分散到不同节点上，减轻单个节点的存储和计算压力。

2. 数据复制：为了提高数据的可用性和容错性，分布式数据库会将数据进行复制。

当一个节点发生故障时，可以从其它副本节点中获取备份数据，保证系统的正常运行。

复制数据还可以提高数据的访问性能，使得用户可以从最近的节点访问数据，减少延迟。

3. 数据一致性：由于数据被划分和复制到不同的节点上，因此需要确保数据的一致性。

分布式数据库采用不同的一致性协议来保证数据的一致性，常见的协议有二阶段提交和Paxos算法。

这些协议确保数据在不同节点之间的复制和更新是有序的，不会出现数据不一致的情况。

4. 数据通信和协作：分布式数据库节点之间需要进行数据的通信和协作。

节点之间需要共享数据的元数据和索引信息，以便进行数据划分和查询优化。

同时，节点之间还需要进行数据的同步和复制，保证数据的一致性和可用性。

5. 查询优化和负载均衡：分布式数据库需要进行查询的优化和负载的均衡。

查询优化可以通过分布式索引、查询规划和执行动态调整等手段来提高查询的效率。

负载均衡可以通过数据划分和分布式调度算法来实现，使得不同节点上的负载均衡，并且可以根据节点的负载情况动态调整数据分布。

总之，分布式数据库通过数据划分、数据复制、数据一致性、数据通信和协作、查询优化和负载均衡等原理来实现大规模分布式的数据存储和处理。

这些原理保证了分布式数据库的高可用性、可扩展性和性能。

分布式数据库的数据分片与数据迁移方法(一)

分布式数据库的数据分片与数据迁移方法随着互联网和大数据技术的快速发展，分布式数据库在数据存储和处理方面展现出了巨大的优势。

其中，数据分片和数据迁移是分布式数据库中至关重要的两个环节，本文将探讨分布式数据库的数据分片与数据迁移方法，并分析其优势和挑战。

一、数据分片方法数据分片是将庞大的数据集合分成多个小片段，分散存储在不同的节点上，以实现存储和查询负载的均衡。

以下是几种常见的数据分片方法。

1. 哈希分片：根据数据的某个属性进行哈希映射，根据哈希值将数据分配到不同的节点上，以实现数据的均匀分布。

哈希分片的优势是简单高效，但是对于数据的增删改操作可能需要重新计算哈希值。

2. 范围分片：根据数据的某个范围属性，将数据划分为不同的区间，每个区间分配到不同的节点上。

范围分片适用于有序的数据集合，可以保证数据的连续性和局部性。

3. 列存储分片：根据数据的列属性进行分片，将同一列的数据存储在一起，以提高查询效率。

列存储分片适用于只对某些列进行查询的场景，可以减少不必要的数据访问。

以上仅是常见的几种数据分片方法，实际应用中可以根据具体的业务需求选择合适的方法或结合多种方法进行分片。

二、数据迁移方法数据迁移是指将数据从一个节点移动到另一个节点的过程，常用于调整数据分片策略、扩容或缩容节点等场景。

以下是几种常见的数据迁移方法。

1. 增量复制：将源节点上新写入的数据增量地复制到目标节点，以保证数据的一致性。

增量复制适用于数据量较大的场景，可以减少数据传输的压力和时间成本。

2. 快照复制：将源节点上的数据快照复制到目标节点，即将源节点的数据拷贝一份到目标节点上。

快照复制适用于数据量较小的场景，可以快速完成数据的迁移。

3. 平行迁移：同时进行多个数据迁移任务，以提高整体的迁移速度。

平行迁移可以充分利用分布式系统的并行处理能力，缩短数据迁移的时间。

除了上述方法，还可以结合全量复制和增量复制等多种迁移方式，根据具体的业务需求选择合适的迁移策略。

基于平均代价得益的分布式数据分配算法

基于平均代价得益的分布式数据分配算法Distributed Data Allocation Algorithm Based on Average Cost Gaining（1. 暨南大学 2. 南方报业传媒集团 3. 广州市农村信用合作社）王传胜1 李乔儒2赵璇3WANG Chuan-sheng LI Qiao-ru ZHAO Xuan 摘要：本文主要探讨了分布式数据库中数据分布问题，提出了一种平均代价得益估算模型，然后基于平均代价得益模型给出了一种新的数据分配算法并给予了证明。

关键词：分布式数据库；数据分配；平均代价得益中图分类号：TP391 文献标识码：AAbstract: This paper mainly discussed data allocation problem in distributed database. It proposed a model based on average cost gaining and then a new data allocation algorithm was proposed which based on average cost gaining, the algorithm was proved in the end.Key words：Distributed database; Data allocation; Average cost gaining0 引言当今网络使得人们都希望能以最快最好的方式获得世界任何角落的信息资源，实现数据、功能、控制等多方位的共享。

在组织结构类型异构、用户透明的分布式数据库领域，若把所有的资源都看作成数据分片，如何将这些数据分片分配在各个网络节点上，使得分布式数据库的全局事务处理所耗费的代价最小、所获得的性能最佳、单位空间的使用效率最高成为人们关注的问题，这也就是分布式数据库领域中的数据分配（Data Allocation）问题。

基于类电磁机制算法的分布式数据库数据分配研究

龙源期刊网
基于类电磁机制算法的分布式数据库数据分配研究
作者：王卫民贺文丽赵媛
来源：《现代电子技术》2012年第21期
摘要：针对目前分布式数据库数据分配方法存在的代价公式复杂，算法执行效率较低或
所求结果与最佳方案相差较大等问题，本文提出了一种基于类电磁机制算法的数据分配策略。

旨在寻找高效的分布式数据库数据分配方法。

结果表明：本文提出的分配策略与传统数据分配策略相比具有较高的效率，且与最佳方案更为接近。

可应用于陕西省防雷管理信息系统中分布式数据库的建设。

关键词：分布式数据库；类电磁机制算法；数据分配；分配策略
0 引言
由于计算机网络通信的迅速发展以及地理上分散的公司、团体和组织对数据库更为广泛的应用需求，世纪年代，在集中式数据库系统成熟技术的基础上产生和发展了分布式数据库系统（Distributed Database System）。

分布式数据库系统符合当今信息系统应用的需求，符合当今企业组织的管理思想和管理方式。

数据分配问题是影响整个分布式数据库系统性能的关键因素，数据分配的主要目标之一是数据处理的本地性，即尽可能把数据片段分配在使用它们的应用所在的站点上，从而减少远程访问，由此产生的数据冗余又会带来数据一致性问题。

只有数据片段分配的合理，整个分布式数据库系统的性能、效率、数据的可用性和可靠性才会处于良好的状态。

研究该问题的最终目的是找到一个使有远程访问代价和局部处理代价组成的总代价最小的分配方案。

因此有必要对数据分配问题进行深入研究。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在此方法中，形成初始分配的方法是采用非冗余最佳适应法。非冗余最佳适应法非本文的主要参考，不作详述，只介绍一下它的优缺点。

用非冗余最佳适应法进行数据分配，存储代价最小，但是系统的可用性、可靠性和数据的访问效率不高，并且没有体现出分布式数据库系统的优越性。另外，假设数据片段的数量为m，站点数为q，则非冗余最佳适应法在每次决定分配某个数据片段之前要计算q次全局代价，然后将q个结果进行比较。随着已分配的数据片段的增多，每次的计算量会越来越大。这种不使用启发式公式而用大量的计算的方式，严重影响了初始分配的效率，也给整个启发式添加副本法的算法复杂性带来不利的影响。
分组局部优化的数据分配方法的算法思想为：将片段等分成若干个组(最后一个组的片段数可能少于前面组的片段数)，设定一个初始分配L0。首先对一个组获得各种分配方案而不考虑其它组的分配，以此获得整体n个片段的各种分配方案，从中选择最优的，得到该组的局部最优。按照这个方法对余下的每个组进行分配得到各组的局部优化，由此获得一个总体的优化分配方案L1，比较L1和L0的代价误差，若误差未满足条件，再对上述过程进行迭代处理直至误差满足条件。
优缺点：添加副本法是一种典型的启发式方法。它不但考虑到副本之间的相互影响，还考虑到随着副本的增加而带来的费用上升问题。从总的代价因素来考虑，增加副本数与提高系统的可靠性之间不是线性关系。从以往经验来看，当副本数为2或3时，系统费用较理想。当副本数进一步增加时，系统费用不一定会降低，甚至有可能上升．
四、参考文献
[1]邵佩英．分布式数据库系统及其应用[M]．北京：科学出版社，2000：7． [2]肖凌，刘继红，姚建初．分布式数据库系统的研究与应用[J]．计算机工程，2001，27(01)：33—
35． [3]王于同．一种分布式数据分布的启发式算法[J]．计算机时代，1995，4：18-20． [4]Shuoi W，Hsing-Lung C．Near—optimal data allocation over multiple broadcast
channels[J]．Computer Communications，2006，29：1341—1349． [5]杨洲．分布式数据库中数据分配策略的研究[D]．哈尔滨：哈尔滨工程大学，2007． [6]郑宇，周广声．分布式数据库中的数据分配策略及其实例研究[J]．计算机工程与应用．1997,12：
1．7页 [7]杨艺．分布式数据库中数据分配方法的研究[D]．重庆：重庆大学，2004． [8]Ching-Ter Chang．Optimization approach for data allocation in multidisk database．European
Joumal of Operational Research．2002，43：210—217P [9]Ran C,-iladi，Ephraim Korach,Rony Ohayon．Placement of network resources in communication
谢谢！
同时在应用过程中对遗传算法进行了一定改进：根据数据片段的更新检索比来初始群体，采用适应度比例和精英保留策略相结合的选择机制，采用自适应的交叉算子和变异算子。改进后的算法具有更强的搜索全局最优解的能力，以及更快的搜索速度。
该分配策略采用以事务处理为主的代价公式，在选择统计信息时，以统计信息本身的重要性，获取统计信息的代价，统计信息对代价公式的复杂性的影响为原则，忽略了对代价公式准确性影响不大或很难获取的统计信息，降低了代价公式的复杂度，从而减小了算法的执行开销。
优缺点：该分配算法为了考虑片段间的相关性，将整个分配分为三个步骤，这显得十分繁琐，并且用IDC概念来构造片段组的计算开销非常大。其中分配过程要进行两次，一是片段的分配，二是片段组的分配，这极大地增加了算法本身的复杂性和执行算法的开销。该算法对统计信息考虑得比较合理，但是片段组分配用到的某些统计信息必须受第一步分配结果即片段分配的限制，也增加了复杂性。另外，在代价公式中将通信代价和存储代价一并处理，没有考虑代价单位的换算问题。总之，该分配方法的复杂性还是较大，实际应用中的可行性不高。
2. 4 基于代价／得益和内部数据交换的启发式数据分配方法
基于代价／得益和内部数据交换的启发式片段分配方法的算法思想为：先按照最小代价原则分配片段，然后考虑片段之间的相关性，对相关性大的片段进行合并成组，最后以片段组为分配单位按照最小代价原则进行分配。分配步骤分为三步：片段分配、片段组的构造、片段组分配到系统节点上。
2. 3 启发式试消副本法
启发式试消副本法的基本思路是：对检索应用，可以按照应用发出的原始站点将目标片段放在应用所在站点而使得检索最优。这样一来，每个数据片段可能有多个副本分布在网络的多个站点上。对更新应用，则会因为要维护多个站点上片段多副本的数据一致性而增加开销。因此，第一步仅考虑检索需求片段的完全本地化，即先保证检索应用最优，得到初始分配，显然这种初始分配对更新应用是最坏的。然后再考虑更新应用的影响，逐步消除片段副本数以减小更新的通信代价。
networks．Computer Networks．2003，43：195．209P [10]韩启龙，郝忠孝．分布环境下实时数据的分配算法[J]．计算机工程，2006，l(3)：52—54． [11]李想.分布式数据库中数据分配策略研究.大连：大连理工大学，2009. [12]师广利，余东梅，袁占亭．分布式数据库设计中的数据分配问题研究．甘肃工业大学学报，
分布式数据库的数据分配算法
主要内容
一、数据分配问题的提出二、典型数据分配算法分析与对比三、数据分配的研究趋势
一、数据分配问题的提出
在分布式数据库系统的设计中，数据分配主要是解决数据片段在分布式系统各节点上的分布。当然，解决方案应满足一定的优化标准，其实质是要得到一个最优分配方案。不过这样的问题因其复杂性太大被列为NP难题。在很多实际应用中，其实也并不一定要得到最优分配方案，一个足够接近最优分配方案的近似最优分配方案往往也可以满足要求。
其间，用目标函数作为衡量其副本是否该被消除的判断依据，当去掉一个片段副本时，计算产生的总代价是否小于原方案(未去掉该片段副本时的中间方案)，若是就消除该片段副本，否则不消除，目的是尽可能使最终的分配方案的总代价最小。
该算法是一种启发式算法，第一步，基于条件设定，可以根据检索访问矩阵和检索事务执行频率矩阵很容易地得到初始片段分配表；第二步以第一步得到的分配表为基础，逐步消除片段副本。在消除片段副本的过程中，目标函数的计算量受分配表的影响，随着副本数的减少，计算量也相应减小。
三、数据分配的研究趋势
目前，国内外学者已经研究出多种数据分配方法，但基本上都存在代价公式复杂，算法执行效率较低或所求结果与最优分配方案相差较大的不足之处。一种基于遗传算法的数据分配策略，更好地解决了数据分配问题。
这种分配策略利用了遗传算法高并行性，鲁棒性，简单易行，实现方式规范，能够在深度优先搜索和广度优先搜索之间维持很好的平衡，以及不受优化函数连续可导等性质约束的优良性能。
国内学者在对该问题的研究上虽然起步较晚，但是也逐步跟上领先者的步伐，获得不少研究成果，如 “启发式试消副本法”在降低分配算法的复杂度方面有很好的效果。
二、典型数据分配算法分析与对比
对于分布式数据库的数据分配方法，国内外学者的研究从未间断，下面列举四个典型方法。
2．1 分组局部优化法
国内外学者在数据分配的基本原则上是有两点共识的。
(1)数据应尽可能靠近要使用它的站点，并用负载平衡方法找出一个系统性能的全局优化。
(2)检索事务应尽量局部化；更新事务所涉及的数据片段的副本不宜过多，以减少保持数据一致性的代价。对于分布式数据库系统的应用需求和理论研究，国外都要领先于国内。对于数据分配问题的研究，国外学者在基础理论方面贡献颇多，如文献[8] 中提出的方法对于避免由于系统I／O瓶颈造成的效率下降提供了帮助。
1999．12：61—65 [13]陈江萍．分布式数据库系统及其应用前景．现代图书情报技术，1996，3：29—31 [14]Kang S．，Moon S．A Integrated Access Control in Heterogeneous Distributed Database
Systems.1992 IEEE Region 10 Conference on Computers，Communications and A utomation toward 2 1st Century,Vo 1．1pp 222—226． [15]IEEE Computing and Control Division．IEEE Colloquium on distributed databases．IEEE，I 993， 33．
优缺点：这种启发式试消副本法比起分组局部优化法有着明显的实用性，但是这种方法只是对检索应用较多、事务的检索／更新比普遍较大的分布式数据库系统有着良好的实用性。而对于更新应用较多或不比检索应用少、事务的检索／更新比并非普遍较大甚至是更新／检索比普遍较大的系统时，由于开始只考虑检索应用(而分布式数据库系统可能是更新应用占有相对较大比例)，数据片段的副本过多，导致消除副本这一步的复杂度随更新应用所占的比重的增加而增加。
优缺点：分组局部优化中代价公式本身是很复杂的，难于理解。它既考虑了单目查询和双目查询，又考虑了本地处理代价和通信代价，要确定哪些是单目运算，哪些是双目运算很不容易，公式的复杂性很高，算法的可操作性差，不利于实际应用。
2．2 启发式添加副本法
该方法的主要思想是：设待分配的数据片段为Fj，首先用最佳适应法确定一个非冗余的最佳分配方案，然后再分别计算在剩余的场地中的一个场地上增加片段Fj的副本后整个系统的总费用，找出其中的最小费用，如果该费用大于增加Fj副本前的最小费用，则停止计算；否则，决定在相应的场地上增加数据片段Fj的副本。这样一直计算下去，直到找出最小费用为止。