数据结构-_外部排序

格式：ppt
大小：147.00 KB
文档页数：14

下载文档原格式

数据结构第八章_排序

49 38 65 97 76
三趟排序：4 13 27 38 48 49 55 65 76 97
算法描述
#define T 3 int d[]={5,3,1};
例 13 48 97 55 76 4 13 49 27 38 65 49 27 38 65 48 97 55 76 4 j j j
j
j
i
例初始： 49 38 65 97 76 13 27 48 55 4 取d1=5 49 38 65 97 76 13 27 48 55 4 一趟分组：
一趟排序：13 27 48 55 4 取d2=3 13 27 48 55 4 二趟分组：
49 38 65 97 76 49 38 65 97 76
二趟排序：13 4 48 38 27 49 55 65 97 76 取d3=1 13 27 48 55 4 三趟分组：
初始时令i=s,j=t
首先从j所指位置向前搜索第一个关键字小于x的记录，并和rp
交换再从i所指位置起向后搜索，找到第一个关键字大于x的记录，和rp交换重复上述两步，直至i==j为止再分别对两个子序列进行快速排序，直到每个子序列只含有一个记录为止
快速排序演示
算法描述
算法评价
例
38 49 49 38 65 76 97 13 97 76 97 27 13 30 97 27 97 30 初始关键字
38 49 65 13 76 27 76 13 30 76 27 76 30 97 第一趟
38 49 13 65 27 65 13 30 65 27 65 30
38 13 49
时间复杂度
最好情况（每次总是选到中间值作枢轴）T(n)=O(nlog2n) 最坏情况（每次总是选到最小或最大元素作枢轴）

数据结构名词解释

数据结构:是一门研究非数值计算的程序设计问题中计算机的操作对象以及它们之间的关系和操作等的学科.数据: 所有能输入到计算机中并被计算机程序处理的符号的总称.数据元素: 在计算机上程序中通常作为一个整体进行考虑和处理.数据对象: 是性质相同的数据元素的集合,是数据的一个子集.数据类型: 一个值的集合和定义在这个值集上的一组操作的总称.线性表: 最常用却最简单的一种数据结构.栈:限定仅在表尾进行插入或删除操作的线性表. 栈顶:线性表尾端(表尾端)栈底:线性表头端(表头端)空栈:不含元素的空表. 队列:一种先进先出的线性表.队尾:在队列中,允许插入的一端.队头:在队列中.允许删除的一端.根的结点:在任意一棵非空树中,有且仅有一个特定的.结点的度:结点拥有的子树数.叶子: 度为0的结点.树的度: 树内各结点的度的最大值．非终端结点：度不为零的结点．孩子：结点的子树的根．双亲：该结点称为孩子的双亲．兄弟：同一个双亲的孩子之间．堂兄弟：双亲在同一层的结点．祖先：从根到该结点所经分支上的所有结点．孙子：以某结点为根的子树中的任一结点都称为该结点的孙子．树的深度：树中结点的最大层次．结点的层次：从根开始定义起，根为第一层，根的孩子为第二层．有序树：如果将树中结点的各子树看成从左到右是有次序的，就．．．．．（即不能互换）．无序树：（见有序树），否则称为无序树．森林：是m棵互不相交的树的集合．二叉树：是结点的有限集合，它可以为空，也可以是由一根结点和称为根的左右子树的两棵子树组成．满二叉树：一棵深度为k具有2k－1（应该是２的k次方再减1）结点的二叉树．完全二叉树：深度为Ｋ的，有n个结点的二叉树，当且仅当其每一个结点都与深度为Ｋ的满二叉树中编号从1至n的结点一一对应时．图：是一种较线性表和树更为复杂的数据结构．有向图／无向图：设ＶＲ是两个顶点之间的关系的集合，若＜v，w＞∈VR,则＜v，w＞表示从v到w的一条弧，此时的图称为有向图，／若＜v，w＞∈VR必有＜w，v＞∈VR，即ＶＲ是对称的，表示v和w之间的一条边，此时的图称为无向图．子图：假设有两个图Ｇ＝（Ｖ，｛Ｅ｝）和Ｇ＇＝（Ｖ＇，｛Ｅ＇｝），如果Ｖ＇包含于Ｖ且Ｅ＇包含于Ｅ，则称Ｇ＇为Ｇ的子图．完全图：有n（n－1）/2条边的无向图．邻接结点：孤立点:孤点的度:入度:对于有向图，以某顶点为弧头的弧的数目为该顶点的入度出度:以某顶点为弧尾的弧的数目为该顶点的出度路径:从树中一个结点到另一个结点之间的分支就构成这两个结点之间的路径路径长度:路径上经过的边或弧的数目叫路径长度回路:若一条路径上开始点和终止点相同则称此路径为回路。

数据结构第7章排序

7.2.1 冒泡排序
• 排序过程 – 将第一个和第二个元素的关键字进行比较，若为逆序，则将两个元素互换；接着比较第二个和第三个元素的关键字，依次类推，直至最后两个元素的完成比较，这称为第一趟冒泡排序。第一趟排序分划出一组元素个数为n-1的待排序列和一个关键字最大的元素。 – 第i趟对前n - i + 1个的元素进行类似的排序操作，得到一组元素个数为n - i的待排序列和一个（在前n-i+1个元素中）关键字最大的元素。 – 这样不断分划直至一趟分划时无元素互换为止。
34 28 81 79 63 28 34 81 79 63 28 34 79 81 63
第一趟
28 34 79 63 81
第二趟
28 34 63 79 81
初始
7.2.1 冒泡排序
• 冒泡排序算法
template<class ElemType> void BubbleSort(ElemType data[], int n) { int lastSwapIndex = n - 1; //用于记录最后一次交换的元素下标 int i, j; for (i = lastSwapIndex; i > 0;i = lastSwapIndex){ lastSwapIndex = 0; for (j = 0; j < i; j++) if (data[j] > data[j + 1]){ Swap(data[j],data[j + 1]); lastSwapIndex = j; } } }
数据结构
第7章排序
概述
• 什么是排序？ – 排序是计算机内经常进行的一种操作，其目的是将一组“无序”的元素序列调整为“有序”的元素序列。 – 假设含n个记录的序列为{ R1, R2, …， Rn }，其相应的关键字序列为 { K1, K2, …，Kn }。这些关键字相互之间可以进行比较，即在它们之间存在着这样一个关系： Kp1≤Kp2≤…≤Kpn （或≥）按此关系将上面记录序列重新排列为： { Rp1, Rp2, …，Rpn } 的操作称作排序。

关于多路归并排序外部排序

关于多路归并排序外部排序⽐如⽂件内有1亿数据排序。

编程珠玑第⼀个case是有关⼀个技巧性解决外部排序问题的。

问题很巧妙的解决了，但⼀开始提到的利⽤归并排序进⾏外部排序的算法仍值得仔细探究⼀下，毕竟本科时学的不是很深⼊。

先来看内部排序中最简单的2路归并排序算法。

算法核⼼操作是将⼀维数组中前后相邻的两个有序序列归并为⼀个有序序列，给定数组中序列界限i、m、n，⽤2个下标变量分别从i和j=m+1开始逐个往后处理，先⽐较，⼩的写到结果序列的当前遍历下标k中，相应下标⾃增继续⽐较直到某个序列的下标⾛到边界，再将另外⼀个序列的剩余元素拷贝到结果序列中。

算法可⽤递归或递推实现，从相邻的两两元素开始不断调⽤上⾯的核⼼操作组成较长有序序列直到完成整个序列。

算法进⾏⼀趟归并就得到⼀个局部有序的完整新序列，n个元素共需要log2n趟归并，每趟完成⽐较操作n次（1次得到序列的1个值），得到的新序列写到结果序列空间中，下⼀趟之前要先将结果序列复制⼀份到临时空间，下⼀趟归并在临时空间上进⾏。

因此时间复杂度nlog2n，空间上除了原始序列空间n、结果序列空间n，还需要辅助临时空间n。

接下来看外部排序。

外部排序指的是⼤⽂件的排序，即待排序的记录存储在外存储器上，待排序的⽂件⽆法⼀次装⼊内存，需要在内存和外部存储器之间进⾏多次数据交换，以达到排序整个⽂件的⽬的。

外部排序最常⽤的算法是多路归并排序，即将原⽂件分解成多个能够⼀次性装⼊内存的部分，分别把每⼀部分调⼊内存完成排序。

然后，对已经排序的⼦⽂件进⾏多路归并排序。

多路归并排序算法在常见数据结构书中都有涉及。

从2路到多路（k路），增⼤k可以减少外存信息读写时间，但k个归并段中选取最⼩的记录需要⽐较k-1次，为得到u个记录的⼀个有序段共需要(u-1)(k-1)次，若归并趟数为s次，那么对n个记录的⽂件进⾏外排时，内部归并过程中进⾏的总的⽐较次数为s(n-1)(k-1)，也即(向上取整)(logkm)(k-1)(n-1)=(向上取整)(log2m/log2k)(k-1)(n-1)，⽽(k-1)/log2k随k增⽽增因此内部归并时间随k增长⽽增长了，抵消了外存读写减少的时间，这样做不⾏，由此引出了“败者树”treeof loser的使⽤。

严蔚敏《数据结构》(第2版)章节题库-第11章外部排序【圣才出品】

第11章　外部排序一、选择题1．下列排序算法中，其中（）是稳定的。

A．堆排序，起泡排序B．快速排序，堆排序C．直接选择排序，归并排序D．归并排序，起泡排序【答案】D2．若需在O（nlog2n）的时间内完成对数组的排序，且要求排序是稳定的，则可选择的排序方法是（）。

A．快速排序B．堆排序C．归并排序D．直接插入排序【答案】C【解析】稳定排序有：插入排序、起泡排序、归并排序、基数排序。

不稳定排序有：快速排序、堆排序、shell排序。

时间复杂度平均为O（nlog2n）的有：归并排序、堆排序、shell排序、快速排序。

3．在下面的排序方法中，辅助空间为O（n）的是（）。

A．希尔排序B．堆排序C．选择排序D．归并排序【答案】D4．下列排序算法中，占用辅助空间最多的是（）。

A．归并排序B．快速排序C．希尔排序D．堆排序【解析】归并排序的辅助空间为O（n），快速排序所占用的辅助空间为O（logn），堆排序所占用的辅助空间为O（1）。

5．将两个各有N个元素的有序表归并成一个有序表，其最少的比较次数是（）。

A．N B．2N-1 C．2N D．N-1【答案】A【解析】归并排序基本思想：归并排序是多次将两个或两个以上的有序表合并成一个新的有序表。

最简单的归并是直接将两个有序的子表合并成一个有序的表。

归并排序最好情况下的复杂度为O（n）。

6．从未排序序列中依次取出一个元素与已排序序列中的元素依次进行比较，然后将其放在已排序序列的合适位置，该排序方法称为（）排序法。

A．插入B．选择C．希尔D．二路归并【答案】A【解析】解此题需要熟知各种排序方法的基本思想。

插入排序的基本思想是：假设待排序的记录存放在数组R[0．．n-1]中，排序过程的某一中间时刻，R被划分成两个子区间R[0．．i-1]和R[i．．n-1]，其中：前一个子区间是已排好序的有序区，后一个子区间则是当前未排序的部分，不妨称其为无序区。

将当前无序区的第1个记录R[i]插入到有序区R[0．．i-1]中适当的位置上。

数据结构第十、十一章：排序

14
9.2 交换排序
冒泡排序
排序过程
将第一个记录的关键字与第二个记录的关键字进行比较，将第一个记录的关键字与第二个记录的关键字进行比较，若为逆序r[1].key>r[2].key，则交换；然后比较第二个记录与为逆序，则交换；第三个记录；依次类推，直至第n-1个记录和第个记录比较个记录和第n个记录比较第三个记录；依次类推，直至第个记录和第为止——第一趟冒泡排序，结果关键字最大的记录被安置在第一趟冒泡排序，为止第一趟冒泡排序最后一个记录上对前n-1个记录进行第二趟冒泡排序，结果使关键字次大的个记录进行第二趟冒泡排序，对前个记录进行第二趟冒泡排序记录被安置在第n-1个记录位置记录被安置在第个记录位置重复上述过程，直到“ 重复上述过程，直到“在一趟排序过程中没有进行过交换记录的操作” 录的操作”为止
按待排序记录所在位置
内部排序：内部排序：待排序记录存放在内存外部排序：外部排序：排序过程中需对外存进行访问的排序
稳定排序和不稳定排序假设Ki=Kj（1≤i≤n，1≤j≤n，i≠j），且在排序前的序列中Ri领先假设（，，），且在排序前的序列中领先），且在排序前的序列中于Rj（即i<j）。若在排序后的排序中Ri仍领先于，即那些具（）。若在排序后的排序中仍领先于Rj，）。若在排序后的排序中仍领先于有相同关键字的记录，经过排序后它们的相对次序仍然保持不变，有相同关键字的记录，经过排序后它们的相对次序仍然保持不变，则称这种排序方法是稳定的；反之，若Rj领先于，则称所用的则称这种排序方法是稳定的；反之，领先于Ri，领先于方法是不稳定的。方法是不稳定的。按排序依据原则
4
例

外部排序

FI
WA
FO
23
实例：输入文件FI中记录关键字为：51、49、39、46、38、29 、14、61、15、30、1、48、52、3、63、27、4、13、89、 24、46、58、33、76，假定使用的内存可容纳 6 个记录，利用置换-选择分类法产生初始合并段。 51 38 15 52 4 46 49 39 46 29 14 61 30 1 48 3 63 27 13 89 24 58 33 76 29 38 39 46 49 51 14 61 15 30 1
90 92 97
11
调整败者树的方法
以在b[4]补充15为例
5 4 2 5 2与5比较 4 2 4与2比较
0 6 90 0
1
3 4与3比较
10
1
9 2
20 3
15 6
4
8 5
12 6
调整败者树的方法: 将新补充的结点与其双亲结点比较, 败者留在该双亲结点,胜者继续向上直至树根的双亲
12
建败者树的过程
51 49 39 46 38 29
FI
WA
FO
19
实例：输入文件FI中记录关键字为：51、49、39、46、38、29 、14、61、15、30、1、48、52、3、63、27、4、13、89、 24、46、58、33、76，假定使用的内存可容纳 6 个记录，利用置换-选择分类法产生初始合并段。 51 38 15 52 4 46 49 39 46 29 14 61 30 1 48 3 63 27 13 89 24 58 33 76 29 51 49 39 46 38 14
[数据结构] (依据：败者树为完全二叉树) 主：b[0.. k] b[0.. k-1]——k个叶结点，存放k个输入归并段中当前参加归并的记录（缓冲区） b[k]——虚拟记录，该关键字取可能的最小值minkey 辅：ls[0.. k-1] ——不含叶结点的败者树存放最后胜出的编号（ls[0]）以及所记录的败者编号 [处理步骤] 建败者树ls[0.. k-1] 重复下列操作直至k路归并完毕

数据结构第29讲：第11章外部排序-c

归并段2: {10, 12, ∞}
归并段3: {29, 32, ∞}
归并段4: {15, 56, ∞}
17
05 冠军 (最小记录),
输出段1当前记录
15
选中 10
29
17
29
29 32
归并段3
15
15 56
归并段4
17 21
归并段0
05
05 44
归并段1
10
10 12
归并段2
1.产生“败者树” 2. 输出当前最小； 3. 调整（从叶到根）；
用ls[1, 2, 3, 4, 5]指示内部结点对应的外部结点；
ls0 4 ls1 1
输出： 05，10，12，15， 17，21，29，32， 44，56
0 ls2
2 ls3
ls4 3
b0 b1
b2
b3
b4 56
56
归并段0 归并段1
归并段2
归并段3
归并段4
i 0 1 2 3 4 567 89 ls0 ls1 ls2 ls3 ls4 b0 b1 b2 b3 b4
{ 17，21，05， }
{ 10，12，44 ， }
{ 29，32，56 ， }
29 12 32 29 ─ 32 ─ ─ 32 ───
───
输出文件 FO
MinMax MinMax
05 05 17 05 17 21 05 17 21 44 05 17 21 44 56 05 17 21 44 56
10 10 12 10 12 29 10 12 29 32 10 12 29 32
1. 从比MinMax大的关键字中选择最小的； 2. MinMax越来越大； 3. 当选不出新的MinMax时，当前归并段结束；

数据结构第十章

13
void InsertSort(SqList &L)
{
// 对顺序表L作直接插入排序。
int i, j;
for (i=2; i<=L.length; ++i)
if (LT(L.r[i].key, L.r[i-1].key)) {
// "<"时，需将L.r[i]插入有序子表
L.r[0] = L.r[i];
空间效率： O（1）稳定性：稳定
讨论：若记录是链表结构，用直接插入排序行否？折半插入排序呢？
答：直接插入不仅可行，而且还无需移动元素，时间效率更高！但链表无法“折半”！
18
设待排序的关键码分别为 28，13，72，85，39，41，6，20。按二分法插入排序算法已使前七个记录有序，中间结果如下:
4
2、关键字
数据对象有多个属性域，即多个数据成员组成，其中有一个属性域可以用来区分对象，作为排序依据，称为关键字。关键字与记录之间是一对一的关系称主关键字关键字与记录之间是一对多的关系称次关键字
5
3、排序的目的是什么？
—— 便于查找
4、排序算法的好坏如何衡量？
时间效率 —— 排序速度（即排序所花费的全部比较次数）空间效率 —— 占内存辅助空间的大小稳定性 —— 若两个记录A和B的关键字相等，但排序后A，
6
13 28 39 41 72 85
20
i=1
m=4
r=7
试在此基础上，沿用上述表达方式，给出继续采用二分法插入第八个记录的比较过程。
在一些特殊情况下，二分法插入排序比直接插入排序要执行更多的比较。这句话对吗？
19
3）希尔（shell）排序（又称缩小增量排序）

6排序

初始关键字序列: 初始关键字序列第一次排序: 第一次排序第二次排序: 第二次排序第三次排序: 第三次排序第四次排序: 第四次排序第五次排序: 第五次排序 {64} {5 {5 {5 {5 {5 5 64} 7 7 6 6 7 7 64} 64 7 7 89 89 89 89} 64 24 6 6 6 6 89} 64 24 24 24 24 24 89}385源自192649
97
1
66
5
19
26
38
49
1
66
[97]
5
19
26
38
1
49
[66
97]
5
19
26
1
38
[49
66
97]
5
19
1
26
[38
49
66
97]
5
1
19
[26
38
49
66
97]
1
5
[19
26
38
49
66
97]
1
[5
19
26
38
49
66
97]
1
5
19
26
38
49
66
97
冒泡排序算法的排序过程2 冒泡排序算法的排序过程2
内排序 21/85
选择排序
• 基本思想：每次从待排序的数据元素集基本思想：合中选取关键字最小（或最大）关键字最小合中选取关键字最小（或最大）的数据元素放到数据元素集合的最前最前（元素放到数据元素集合的最前（或最数据元素集合不断缩小，后），数据元素集合不断缩小，当数据元素集合为空时选择排序结束。元素集合为空时选择排序结束。

【数据结构】排序——外部排序

【数据结构】排序——外部排序【数据结构】排序——外部排序外部排序是指⼤⽂件的排序，即排序的记录存储在外存储器上，在排序过程中需进⾏多次的内、外存之间的交换。

外部排序⽅法通常采⽤归并排序有外部排序基本上由两个相对独⽴的阶段组成。

按可⽤内存⼤⼩，将外存上含有n个记录的⽂件分成若⼲长度为l的字⽂件或段。

依次读⼊内存并利⽤有效的内部排序⽅法排序，将排序后得到的有序⼦⽂件（称为归并段或顺串），进⾏逐趟归并，直⾄得到整个有序⽂件为⽌。

在外部排序中实现两两归并，由于不可能将两个有序段及归并结果段同时存放在内存中的缘故，所以不仅要调⽤归并过程，还需要进⾏外存的读_写（对外存上信息的读_写是以“物理块”为单位的）。

耗费时间总时间=内部排序时间(产⽣初始归并段)+外存读写时间+内部归并时间内部排序时间=经过内部排序后得到的初始归并段的个数r * 得到⼀个初始归并段进⾏内部排序多需时间的均值外存读写时间=总的读写次数 * 进⾏⼀次外存读写时间的均值内部归并时间=归并的趟数s * n个记录进⾏内部归并排序的时间优化⽅法增⼤归并路数k减少初始归并段个数r以上两个⽅法都可以减少归并的趟数，进⽽减少读写磁盘的次数，提⾼外部排序速度多路平衡归并与败者树已知增加k可以减少s，从⽽减少总的读写次数。

如果只单纯的增加k⼜会导致内部归并时间增加。

为了使内部归并不受k的增⼤⽽影响，提出了败者树。

败者树的基本思想败者树是树形选择排序的⼀种变型，可视为⼀棵完全⼆叉树。

k个叶⼦节点分别存放k个归并段在归并过程中当前参加⽐较的记录，内部节点⽤来记忆左右⼦树中的“失败者”，⽽让胜者往上继续进⾏⽐较，⼀直到根结点。

若⽐较两个数，⼤的为败者、⼩的为胜利者，则根结点指向的数为最⼩数。

eg、设初始归并段为(10,15,31),(9,20),(6,15,42),(12,37),(84,95),利⽤败者树进⾏m路归并，⼿⼯执⾏选择最⼩的5个关键字的过程。

性能分析k-路归并的败者树的深度为[log2k]+1注意⚠ 在多路平衡归并中采⽤简单⽐较时，k越⼤，关键字的⽐较次数会越⼤。

数据结构11-外部排序

例： 5 - 路平衡归
并的败者树：
[0] 531 [1] 510
[2] 5304
[3] 52
[4] 543
b0 12 b1 1805 b2 30
b3 b4 253 16
12 1805 30 14 12059 38
253 16 17 128598 56
b5
2334
0 3448
28 31
初始归并段
5
8 10 …
磁盘是在一片塑料薄膜上涂有磁性材料用以记录数据的存储介质。它分成多个磁道（柱面），每个磁道又分为多个扇区，多个磁盘组成的磁盘组还涉及到盘片号（磁头号），磁盘绕轴高速旋转，读写头则沿其一条半径作直线运动以寻道。它也不是
连续运转的设备，读写信息只能在旋转稳定时进行，且找到要读写的记录也需要一定的寻道、寻扇区时间，因此，在磁盘上读写信息所需的时间由三部分组成：TI/O = tseek + tla + n tw，其中 tseek 为寻道时间（seek time）， tla 为寻扇区时间（latency time time）， tw 为传输时间（transmission time）。磁盘是一种随机存储设备。
§11.6 最佳归并树
用置换-选择排序得到的初始归并段长度各不相同，那应如何进行 k 路平衡归并呢？这实际上是建立 k 叉霍夫曼树的问题：当初始归并段总数不足（ ( m 1 ) MOD ( k - 1 ) ≠ 0 ）时，需附加 k - ( m - 1 ) MOD ( k - 1 ) -1 个长度为零的虚段，亦即第一次归并时只对 ( m - 1 ) MOD ( k - 1 ) + 1 个初始归并段归并。建立 k 叉霍夫曼树每次仍是选择记录数相对少的初始归并段先进行归并。最佳归并树不适合磁带归并排序。

解决大规模数据问题的外部排序算法

解决大规模数据问题的外部排序算法外部排序是一种处理大规模数据的排序算法，由于内存限制，无法将所有数据加载到内存中进行排序。

所以，外部排序利用磁盘空间来进行数据的划分和排序，以解决大规模数据问题。

本文将介绍一种常用的外部排序算法——多路归并排序。

一、多路归并排序概述多路归并排序是一种基于分治思想的排序方法，它将大规模数据划分为多个小块，并在磁盘上对这些小块进行排序。

然后，再将排好序的小块进行归并，最终得到完整有序的数据。

多路归并排序多用于外排序，其主要特点是能够处理大规模数据，并且排序效率较高。

二、多路归并排序的实现步骤1. 数据划分首先，将大规模数据划分为多个小块。

可以通过读取数据集并将其划分为大小相等的块，每个块的大小受到内存大小的限制。

2. 内部排序对每个小块进行内部排序，常用的内部排序算法包括快速排序、归并排序、堆排序等。

选择合适的内部排序算法，将小块排序后存放在磁盘中。

3. 多路归并将排好序的小块进行多路归并。

多路归并即将多个有序的序列合并为一个有序序列。

在多路归并中，可以借助最小堆等数据结构，每次从多个序列中选择最小的元素，加入到有序序列中。

4. 写出结果将最终得到的有序序列写出到磁盘文件中。

三、多路归并排序算法的优化1. 外部排序的前提是磁盘I/O的次数尽可能少，因此可以采用合适的数据结构来减少读写次数，如B+树等。

2. 利用多线程或多进程进行归并操作可以加快排序速度。

可以将原始数据划分为多个小块，并利用多个线程或进程分别对这些小块进行排序和归并。

3. 预读数据是提高排序效率的一个关键。

可以采用预读技术，提前将数据加载到内存缓冲区中，减少磁盘I/O的次数。

4. 考虑数据的分布情况进行数据划分。

如果数据是有序的，可以将其均匀划分到不同的小块中，以充分利用有序性。

四、总结多路归并排序是一种有效解决大规模数据问题的外部排序算法。

通过将数据划分为多个小块，并采用多路归并的方式进行排序，可以充分利用磁盘空间和减少磁盘I/O次数。

大数据数据结构和算法_排序_归并排序(外部排序)

重复上述过程，直到大文件处理完毕,这样我们就得到了很多有序的小文件.
2.利用多路归并排序对这些小文件排序，按行写入最终的有序大文件.
同
最终结果，大文件（有序）
排序
2
6
1
3
7
5
4
7
13
5
8
14
6
20
15
文件1 文件2 文件3
3个小文件,每个文件内的数据都有序
6 6 13
将最小值写入
6
6 13
将最小值写入
6
7 13
将最小值写入
7
7 13
将最小值写入
7
8 13
将最小值写入
8
13 20
将最小值写入
13
14 20
将最小值写入
14
15 20
排序
外部排序合并策略维护n个小文件的输入input[n]. 维护1个内存中的小对象或者小数组mem_array[n]，用于排序. 1.每次从小对象mem_array中取最小least的元素，写入最终文件，一次写入一个数据. 2.若选取的最小元素属于第 i 个小文件，那么从input[i]读取下一个数据放入mem_array[i]中，进行排序. 3.重复1、2步，直到所有的input[n]中数据都已处理完毕.
排序
最小值属于哪个文件，就从哪个文件取下一个值并加入mem进行排序
2
6
1
1
2
6
将最小值写入
1
3
7
5
4
7
13
5
8
14
6
20
15
文件1 文件2 文件3
2
5

数据结构-外部排序

11-11
3 多路平衡归并的实现
• 对于2路归并, 令两个归并段上有u个记录, 每得到归并后的一个记录, 仅需一次比较即可, 因此得到含u个记录的归并段需进行u-1次比较。 • 对于k路归并, 令u个记录分布在k个归并段上, 显然, 归并后的第一个记录应是k个归并段中关键字最小的记录, 这需要进行k-1次比较, 得到u个记录的归并段, 共需(u-1)(k-1)次比较。由此, 对n个记录的文件进行外排序时, 在内部归并过程中进行的总的比较次数为s(k-1)(n-1)。假设所得初始归并段为m个, 则归并过程中进行比较的总的时间为：
结果：采用胜者树后, 从 k 个元素中挑选一个最小的元素仅需 log2k 次比较, 这时总的比较次数下降为：
logkm × log2k × ( n - 1 ) × tmg ＝ log2m × ( n - 1 ) × tmg
该结果和 k 无关, 这是通过多用空间换来的。 • 改进：采用胜者树, k个元素中最小的元素输出之后, 从根结点到它的相应的叶子结点路径上的结点都需要进行修改, 为了加快程序运行的速度产生了败者树。
11-16
3 多路平衡归并的实现
• 败者树在父节点中记下刚进行完的比赛中的败者, 但同样让胜者去参加下一轮的竞赛, 便得到一棵“败者树”。
11-17
3 多路平衡归并的实现
• 下图即为一棵实现5-路归并的败者树ls[0…4], 图中方形结点表示叶子结点(也可看成是外结点), 分别为5个归并段中当前参加归并的待选择记录的关键码；败者树中根结点ls[1]的双亲结点ls[0]为 “冠军”, 在此指示各归并段中的最小关键码记录为第三段中的记录；结点ls[3]指示b1和b2两个叶子结点中的败者即是b2, 而胜者b1和b3(b3是叶子结点b3、b4和b0经过两场比赛后选出的获胜者)进行比较, 结点ls[1]则指示它们中的败者为b1。

数据结构第6章排序

判断某序列是否符合堆定义
只要将序列依次排成一棵完全二叉树，所有结点的值都不大于（或不小于）其左右子树结点的值，那么该序列就符合堆的定义。例：序列：102、87、100、79、82、62、84
10 2 87 10 0 82
故：此序列符合堆定义。
84
79
62
若n个元素的排序码k1，k2，k3，…，kn满足堆，且让结点按1、2、3、…、n顺序编号，根据完全二叉树的性质（若i为根结点，则左孩子为2i，右孩子为2i+1）可知，堆排序实际与一棵完全二叉树有关。若将排序码初始序列组成一棵完全二叉树，则堆排序可以包含建立初始堆（使排序码变成能符合堆的定义的完全二叉树）和利用堆进行排序两个阶段。
14
17
25 )
20
9
(3
14
17
20
25 )
9
第五次插入
(3
9
14
17
20
25)
图 9-1 直接插入排序示例
注意:
排正序时，要插入的元素先和有序表中最后一个元素进行比较，即从后往前；排逆序时，则刚相反，得从前往后进行比较。当n很小时，直接插入排序的效率较高，时间复杂度为o(n^2)。正序时比较次数最少为n-1；逆序时最大为(n+2)*(n-1)/2；两者的平均值约为(n^2)/4。
例如，n=6，数组R的六个排序码分别为：17，3，25，14，20， 9。下面用图9-3给出冒泡排序算法的执行过程。
0 1 2 3 4 5
初始状态
（17
3
25
14
20
9)
第一趟排序
3
(17
9
25

数据结构第十章排序

7
10.2 插入排序插入排序
直接插入排序折半插入排序 2-路插入排序表插入排序希尔排序
10.2.1 直接插入排序
基本操作：将一个记录插入到已排好序的有序表中，从而得到一个新的、记录数增1的有序表。
例:有一组待排序的记录的关键字初始序列如下:
(49,38,65,97,76,13,27,49`)
（4）归并排序（5）基数排序
按内排过程中所需的工作量分类：
（1）简单的排序方法，其时间复杂度为O(n×n)
（2）先进的排序方法，其时间复杂度为O(nlogn);
（3）基数排序，其时间复杂度为O(d(n+rd))
排序算法的两种基本操作：
（1）比较两个关键字的大小；（2）将记录从一个位置移至另一个位置；
算法实现的关键设计:
将d看成是一个循环数组,并设两个指针first和final分别指示排序过程中得到的有序序列中的第一个记录和最后一个记录在d中的位置.
例:有一组待排序的记录的关键字初始排列如下:
(49,38,65,97,76,13,27,49`) 16
[初始关键字] 49 38 65 97 76 13 27 49`
18
10.2.3 希尔排序从直接插入排序
待排序序列基本有序可提高效率回顾待排序序列的记录数n很小时可提高效率
希尔排序的基本思想:
先将整个待排记录序列分割成为若干子序列分别进行
直接插入排序,待整个序列中的记录“基本有序”时,再对全
体记例录:有进一行组一待次排直序接的插记入录排的序关. 键字初始排列如下: (49,38,65,97,76,13,27,49`)
} 12
直接插入排序的性能分析: 10. 3
(1)空间:只需一个记录的辅助空间r[0].

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1
5
2
3
5
9
4
5
6
7
5
7
29
9
输5
7
29
9
入 16
12
38
22
缓 49
25
57
47
52
84
66
48
冲
78
91
71
59
区
1234567 5 5 9 5 7 29 9
输5 出缓冲区
注意：挑出冠军需要进行 k-1 次比较，此处需要比较 3 次。 5
EXST
6 物料管理
3、多路平衡归并的实现
Algorithms and DataStructures:EXSORT
区
注意：挑出冠军
输
5
需要进行 k-1 次
出
比较，此处需要
缓
比较 3 次。
冲
区
7
EXST
8 物料管理
3、多路平衡归并的实现
Algorithms and DataStructures:EXSORT
tseck ：找道时间 tla ：等待时间 twm ：传输时间/ 字符，n 字符数。
2
EXST
3 物料管理
2、外部排序的方法
Algorithms and DataStructures:EXSORT
1、步骤： • 生成合并段（run）：读入文件的部分记录到内存－> 在内存中进行内部排序－> 将排好序的这些记录写入外存，形成合并段－> 再读入该文件的下面的记录，往复进行，直至文件中的记录全部形成合并段为止。 7、15、19 8、11、13 16、23、31 5、12
便宜、可反复使用、是一种顺序存取设备。
查找费时、速度幔。
1
EXST
2 物料管理
1、外存信息的存取
3、常用外存： • 带文件的组织的改进：
块1
块2
Algorithms and DataStructures:EXSORT
块3
IBG（Inter Block Gap）块间间隙
B.F（块因子）＝一个物理记录包含逻辑记录的个数带的利用率上升，如上例： •盘文件的位置：盘组号、柱面号、磁道号、块（扇区号） •盘文件的读写时间：T i/o = tseck + tla + n×twm
6
EXST
7 物料管理
3、多路平衡归并的实现
3、败者树及其使用
0
5
1
9
01
59
2
3
7
29
Algorithms and DataStructures:EXSORT
234567 7 29 5 7 29 9
4
5
6
7
5
7
29
9
输
5
7
29
9
入
16
12
38
22
缓
49
25
57
47
52
84
66
48
冲
78
91
71
59
2、胜者树及其使用 • 胜者进入下一轮，直至决出本次比赛的冠军。决出冠军之后，充分利用上一次比赛的结果，使得更快地挑出亚军、第三名 …… 。决出第一名需比较： k - 1 次决出第二名需比较： log2k 次决出第三名需比较： log2k 次
• 结果：采用胜者树后，从 K 个元素中挑选一个最小的元素仅需 log2k 次比较，这时总的时间耗费下降为：
2、基本术语： • 记录（Record）：数据项的集合存于内存，称之为结点。如果存之于外存，则叫做记录。原因起源于是在历史上研究管理应用和计算机科学的两部分人员的习惯。
• 域（场）：记录中的每个数据项，称之为域（Field）。 • 文件：记录的集合。 • 关键字：唯一标识记录的域，称之为关键字。 • 有序文件：文件根据关键字的大小。排成递增或递减的序列。 3、常用外存： • 磁带：由磁带介质、读、写磁头、驱动器、接收盘和原始盘组成。
EXST
4 物料管理
3、多路平衡归并的实现
Algorithms and DataStructures:EXSORT
1、带、盘的平衡多路归并的性质： logkm 趟 • e.g: K > 2 时, 趟数将会减少。m 个归并串。总共 n 个记录。

合并段 m
中间合并段
中间合并段
层数：
logkm +1
归并趟数：
logkm
有序文件
• 设从 k 个元素中挑选一个最小的元素需 ( k-1) 次比较。每次比较耗费的时间代价为:
tmg，那么在进行 k 路平衡归并时，总的比较时间耗费不会超过：
logkm
× ( k - 1 ) × ( n - 1 ) × tmg = log2m / log2k × ( k - 1 ) × ( n - 1 ) × tmg
大
k
log2m / log2k × ( k - 1 ) 大
4
EXST
5 物料管理
3、多路平衡归并的实现
Algorithms and DataStructures:EXSORT
1、带、盘的平衡多路归并的性质：
• 改进：采用胜者树或者败者树，从 K 个元素中挑选一个最小的元素仅需 log2k 次比较，这时总的时间耗费将下降： logkm × log2k × ( n - 1 ) × tmg ＝ log2m × ( n - 1 ) × tmg
1 物料管理
1、外存信息的存取
Algorithms and DataStructures:EXSORT
1、外部排序：
内部排序：信息一次可全部调入内存，信息在内存中的处理时间是主要的时间耗费。
外部排序：信息量巨大，无法一次调入内存。只能驻留在带、盘。特点为内存运行时间短，内、外存进行交换需要时间长。减少 I/O 时间成为主要矛盾。
• 归并趟数:
logkm where k 是路数；m 是初始合并段数。如：m=6，那么 log26 = 3 而 log36 = 2 此外，还有一次生成所有合并段的时间。对文件中的所有的记录全部读写一次。
每一趟归并时，对文件中的所有的记录都要全部读写一次。K 大，趟数减
少，读写记录的总数将减少。但 K 大，需要的内存将越多。 3
• 外部合并：将上一阶段生成的合并段调入内存，进行合并，直至最后形成一个有序的文
件。
• 平衡合并分类法：被合并的初始合并段均匀分布在 K 条磁带上，即分布在 T1、T2、 …… Tk 上。对这 K 条带进行合并，将生成的中间归并段分布在 TK+1、 TK+2 、…… T2K 上。然后，循环往复，直至最后形成一个单一的合并段为止。
logkm × log2k × ( n - 1 ) × tmg ＝ log2m × ( n - 1 ) × tmg 有意思的是该结果和 k 无关，这是通过多用空间换来的。
• 改进：采用胜者树，K 个元素中最小的元素输出之后，从根结点到它的相应的叶子结点路径上的结点都需要进行修改，为了加快程序运行的速度产生了败者树。

数据结构-_外部排序

合集下载

数据结构第八章_排序

数据结构名词解释

数据结构第7章排序

关于多路归并排序外部排序

严蔚敏《数据结构》(第2版)章节题库-第11章外部排序【圣才出品】

数据结构第十、十一章：排序

外部排序

数据结构第29讲：第11章外部排序-c

数据结构第十章

6排序

【数据结构】排序——外部排序

数据结构11-外部排序

解决大规模数据问题的外部排序算法

大数据数据结构和算法_排序_归并排序(外部排序)

数据结构-外部排序

数据结构第6章排序

数据结构第十章排序

文档推荐

最新文档

数据结构-_外部排序

合集下载

数据结构第八章_排序

数据结构名词解释

数据结构第7章排序

关于多路归并排序外部排序

严蔚敏《数据结构》(第2版)章节题库-第11章 外部排序【圣才出品】

数据结构第十、十一章：排序

外部排序

数据结构第29讲：第11章外部排序-c

数据结构第十章

6排序

【数据结构】排序——外部排序

数据结构11-外部排序

解决大规模数据问题的外部排序算法

大数据数据结构和算法_排序_归并排序(外部排序)

数据结构-外部排序

数据结构 第6章 排序

数据结构第十章 排序

文档推荐

最新文档

严蔚敏《数据结构》(第2版)章节题库-第11章外部排序【圣才出品】

数据结构第6章排序

数据结构第十章排序