10_外部排序

格式：ppt
大小：3.60 MB
文档页数：44

下载文档原格式

外排序

外排所需总的时间为：外排所需总的时间为：
m*tIS + d*tIO + S*u*tmg = 10*tIS + 500*tIO + 4*10000*tmg
示例：示例：
• 设有一个包含4500个对象的输入文件。现设有一个包含4500个对象的输入文件。个对象的输入文件用一台其内存至多可容纳750个对象内存至多可容纳个对象的计用一台其内存至多可容纳750个对象的计算机对该文件进行排序。输入文件放在磁算机对该文件进行排序。盘上，磁盘每个页块可容纳250个对象每个页块可容纳个对象，盘上，磁盘每个页块可容纳250个对象， 250＝这样全部对象可存储在 4500 / 250＝18 个页块中。输出文件也放在磁盘上，用以存页块中。输出文件也放在磁盘上，放归并结果。放归并结果。
一、外排序的基本过程
• 当对象以文件形式存放于磁盘上的时候，通常当对象以文件形式存放于磁盘上的时候，是按物理块存储的。是按物理块存储的。 • 物理块也叫做页块，是磁盘存取的基本单位。物理块也叫做页块，是磁盘存取的基本单位。
• 每个页块可以存放几个对象。操作系统按每个页块可以存放几个对象。页块对磁盘上的信息进行读写。页块对磁盘上的信息进行读写。 • 本节所指的磁盘是由若干片磁盘组成的磁盘组，盘组，各个盘片安装在同一主轴上高速旋转。各个盘面上半径相同的磁道构成了柱各盘面设置一个读写磁头，面。各盘面设置一个读写磁头，它们装在同一动臂上，同一动臂上，可以径向从一个柱面移到另一个柱面上。一个柱面上。
硬盘简介磁盘的主要技术指标柱面：多个盘片的同一磁道。柱面：多个盘片的同一磁道。目前常见的硬盘容量有 6.2GB、10GB、20GB、、、、 40GB、60GB、80GB等等。、等等。、等等

第11章外部排序

• 改进：采用胜者树或者败者树，从 K 个元素中挑选一个最小的元素仅需 log2k 次比较，这时总的时间耗费将下降为： log2m × ( n - 1 ) × tmg
多路平衡归并的实现
二、胜者树及其使用 4路平衡归并
1 5
2 5
1234567 5 5 9 5 7 29 9
3 9
4
5
6
7
5
7
29
91
71
59
区
输
5
出
7
缓
冲
区
多路平衡归并的实现
二、胜者树及其使用 4路平衡归并
1
9
123
9 12 9
2
3
12
9
4567 16 12 29 9
4
5
6
7
16
12
29
9
输
5
7
29
9
入
16
12
38
22
缓
49
25
57
47
52
84
66
48
冲
78
91
71
59
区
输
5
出
7
缓
9
冲
区
多路平衡归并的实现
•采用胜者树，从 K 个元素中挑选一个最小的元素仅需 log2m × ( n - 1 ) × tmg 即内部归并时间与k无关, K 增大，归并趟数logkm减少，读写外存次数减少，外排总时间减少。
b[0]
b[1] b[2]
b[3]
5
7
29
9
输
5
7
29
9
入

文件外部排序与外部搜索

25
直接存取文件 (Direct Access File)
•
•
•
又叫散列文件。利用散列技术组织文件。处理类似散列法，但它是存储在外存上的。文件记录的逻辑顺序与物理顺序不一定相同。通过记录的关键码可直接确定该记录的地址。使用散列函数把关键码集合映射到地址集合时，往往会产生地址冲突，处理冲突有两种处理方式：按桶散列可扩充散列
7
•
•
•
在磁带设备上读写一块信息所用时间 tIO = ta + tb 其中，ta 是延迟时间，即读写磁头到达待读写块开始位臵所需花费的时间，它与当前读写磁头所在位臵有关。tb是对一个块进行读写所用时间，它等于数据传输时间加上IBG时间。磁带设备只能用于处理变化少，只进行顺序存取的大量数据。
12
2. 选定盘片组后再选定某个柱面，并移动动臂把磁头移到此柱面上。这是机械动作，速度较慢。这称为“寻查（seek）”。 3. 选定柱面后，要进一步确定磁道，即确定由哪个读写磁头读写，由电子线路实现。 4. 确定磁道后，还要确定所要读写数据在磁盘上的位臵（如在哪一个扇区）。这实际上就是在等待要读写的扇区转到读写磁头下面。这是机械动作。这段时间一般称为旋转延迟（rotational delay）时间。 5. 真正进行读写时间。
经过时间物理记录
传输完成
停止位臵
IBG 0.3～0.75英寸
IBG 0.3～0.75英寸
6
•
•
如果每个逻辑记录是 80个字符，IRG为 0.75英寸，则对存储密度为 1600BPI 的磁带，一个逻辑记录仅占 80/1600 = 0.05英寸。每传输一个逻辑记录磁带走过 0.05英寸，接着磁带要走过一个IRG占0.75英寸。结果大部分时间都花费在走空带上，存储利用率只有1/16。如果将若干逻辑记录存放于一个块，将IRG变成IBG，可以提高存储利用率。例如，将50个有80个字符的逻辑记录放在一个块内，此块的长度将达到5080/1600 = 2.5英寸，存储利用率达到0.77。因此在磁带上采用按块读写。

第11章外部排序

外部排序
将两个有序段归并成一个有序段的过程，将两个有序段归并成一个有序段的过程，若在内存进行，则很简单，上一章中的merge 在内存进行，则很简单，上一章中的过程便可实现此归并。过程便可实现此归并。由于我们不可能将两个有序段及归并结果段同时存放在内存中，同时存放在内存中，在外部排序中实现两两归并时，不仅要调用merge过程，而且要进过程，归并时，不仅要调用过程行外存的读/写行外存的读写。
11.2 外部排序的方法
外部排序指的是大文件的排序，外部排序指的是大文件的排序，即待排序的记录存储在外存储器上，记录存储在外存储器上，待排序的文件无法一次装入内存，一次装入内存，需要在内存和外部存储器之间进行多次数据交换，间进行多次数据交换，以达到排序整个文件的目的。的目的。外部排序最常用的是多路归并排序，外部排序最常用的是多路归并排序，即将原文件分解成多个能够一次性装人内存的部分，文件分解成多个能够一次性装人内存的部分，分别把每一部分调入内存完成排序。然后，分别把每一部分调入内存完成排序。然后，对已经排序的子文件进行归并排序。对已经排序的子文件进行归并排序。
按字符组(记录存放按字符组记录)存放。记录存放。磁带上相邻两组字符组之间要留一空白区，磁带上相邻两组字符组之间要留一空白区，叫做间隙IRG(Inter Record Gap)。通常为叫做间隙。 1/4~3/4英寸。英寸。英寸组成块可减少IRG数目，可减少操作。数目，操作。组成块可减少数目可减少I/O操作
分析d和归并过程”的关系：分析和“归并过程”的关系：若对10个初始归并段进行路平衡归并，个初始归并段进行5-路平衡归并若对个初始归并段进行路平衡归并，即每一趟将5个或个或5个以下的有序子文件归并成每一趟将个或个以下的有序子文件归并成一个有序子文件，仅需进行二趟归并，一个有序子文件，仅需进行二趟归并，外排时总的读/写次数便减至写次数便减至2*100+100=300，时总的读写次数便减至路归并减少了200次的读写。次的读/写比2-路归并减少了路归并减少了次的读

外部排序技术之多路归并

外部排序技术之多路归并外部排序技术之多路归并重点：败者树的创建调整函数1.外部排序概述外部排序指的是⼤⽂件的排序，即待排序的记录存储在外存储器上，待排序的⽂件⽆法⼀次装⼊内存，需要在内存和外部存储器之间进⾏多次数据交换，以达到排序整个⽂件的⽬的。

外部排序最常⽤的算法是多路归并排序，即将原⽂件分解成多个能够⼀次性装⼈内存的部分，分别把每⼀部分调⼊内存完成排序。

然后，对已经排序的⼦⽂件进⾏归并排序。

2. 多路归并的实现2.1 胜者树胜者进⼊下⼀轮，直⾄决出本次⽐赛的冠军。

决出冠军之后，充分利⽤上⼀次⽐赛的结果，使得更快地挑出亚军、第三名 …… 。

⽰例：我们这⾥以四路归并为例，假设每个归并段已经在输⼊缓冲区如下图。

每路的第⼀个元素为胜利树的叶⼦节点，（5,7）⽐较出5胜出成为其根节点，（29,9）⽐较9胜出成为其根节点，⼀次向上⽣成⼀棵胜利树，然后我们可以得出5为冠军，将第⼀路归并段的元素5放⼊输出缓冲区，然后将第⼀路第⼆个元素放到胜利树中如下：由第⼀次得到的胜利树知，我们这⾥只改变了第1路的叶⼦节点，所有根节点7的右⼦树不⽤再⽐较，（16,7）⽐较7胜出，然后7和右⼦树的胜利者⽐较7胜出得到亚军，只进⾏了2次⽐较。

所以我们知道：决出第⼀名需⽐较： k - 1 次决出第⼆名需⽐较：次决出第三名需⽐较：次 .............2.2 败者树与胜利树相类似，败者树是在双亲节点中记录下刚刚进⾏完的这场⽐赛的败者，让胜者去参加更⾼⼀层的⽐赛。

⽰例：我们这⾥以四路归并为例，假设每个归并段已经在输⼊缓冲区如下图。

每路的第⼀个元素为胜利树的叶⼦节点，（5,7）⽐较出5胜出7失败成为其根节点，（29,9）⽐较9胜出29失败成为其根节点，胜者（5,9）进⾏下次的⽐赛7失败成为其根节点5胜出输出到输出缓冲区。

由第⼀路归并段输出，所有将第⼀路归并段的第⼆个元素加到叶⼦节点如下图：加⼊叶⼦节点16进⾏第⼆次的⽐较，跟胜利树⼀样，由于右⼦树叶⼦节点没有发⽣变化其右⼦树不⽤再继续⽐较。

内部排序和外部排序

排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。

我们这里说说八大排序就是内部排序。

当n较大，则应采用时间复杂度为O(nlog2n)的排序方法：快速排序、堆排序或归并排序序。

快速排序：是目前基于比较的内部排序中被认为是最好的方法，当待排序的关键字是随机分布时，快速排序的平均时间最短；基本思想:将一个记录插入到已排序好的有序表中，从而得到一个新，记录数增1的有序表。

即：先将序列的第1个记录看成是一个有序的子序列，然后从第2个记录逐个进行插入，直至整个序列有序为止。

要点：设立哨兵，作为临时存储和判断数组边界之用。

直接插入排序示例：如果碰见一个和插入元素相等的，那么插入元素把想插入的元素放在相等元素的后面。

所以，相等元素的前后顺序没有改变，从原无序序列出去的顺序就是排好序后的顺序，所以插入排序是稳定的。

算法的实现：1.void print(int a[], int n ,int i){2. cout<<i <<":";3.for(int j= 0; j<8; j++){4. cout<<a[j] <<" ";5. }6. cout<<endl;7.}8.9.10.void InsertSort(int a[], int n)11.{12.for(int i= 1; i<n; i++){13.if(a[i] < a[i-1]){ //若第i个元素大于i-1元素，直接插入。

小于的话，移动有序表后插入14.int j= i-1;15.int x = a[i]; //复制为哨兵，即存储待排序元素16. a[i] = a[i-1]; //先后移一个元素17.while(x < a[j]){ //查找在有序表的插入位置18. a[j+1] = a[j];19. j--; //元素后移20. }21. a[j+1] = x; //插入到正确位置22. }23. print(a,n,i); //打印每趟排序的结果24. }25.26.}27.28.int main(){29.int a[8] = {3,1,5,7,2,4,9,6};30. InsertSort(a,8);31. print(a,8,8);32.}效率：时间复杂度：O（n^2）.其他的插入排序有二分插入排序，2-路插入排序。

数据结构第十、十一章：排序

14
9.2 交换排序
冒泡排序
排序过程
将第一个记录的关键字与第二个记录的关键字进行比较，将第一个记录的关键字与第二个记录的关键字进行比较，若为逆序r[1].key>r[2].key，则交换；然后比较第二个记录与为逆序，则交换；第三个记录；依次类推，直至第n-1个记录和第个记录比较个记录和第n个记录比较第三个记录；依次类推，直至第个记录和第为止——第一趟冒泡排序，结果关键字最大的记录被安置在第一趟冒泡排序，为止第一趟冒泡排序最后一个记录上对前n-1个记录进行第二趟冒泡排序，结果使关键字次大的个记录进行第二趟冒泡排序，对前个记录进行第二趟冒泡排序记录被安置在第n-1个记录位置记录被安置在第个记录位置重复上述过程，直到“ 重复上述过程，直到“在一趟排序过程中没有进行过交换记录的操作” 录的操作”为止
按待排序记录所在位置
内部排序：内部排序：待排序记录存放在内存外部排序：外部排序：排序过程中需对外存进行访问的排序
稳定排序和不稳定排序假设Ki=Kj（1≤i≤n，1≤j≤n，i≠j），且在排序前的序列中Ri领先假设（，，），且在排序前的序列中领先），且在排序前的序列中于Rj（即i<j）。若在排序后的排序中Ri仍领先于，即那些具（）。若在排序后的排序中仍领先于Rj，）。若在排序后的排序中仍领先于有相同关键字的记录，经过排序后它们的相对次序仍然保持不变，有相同关键字的记录，经过排序后它们的相对次序仍然保持不变，则称这种排序方法是稳定的；反之，若Rj领先于，则称所用的则称这种排序方法是稳定的；反之，领先于Ri，领先于方法是不稳定的。方法是不稳定的。按排序依据原则
4
例

外部排序

FI
WA
FO
23
实例：输入文件FI中记录关键字为：51、49、39、46、38、29 、14、61、15、30、1、48、52、3、63、27、4、13、89、 24、46、58、33、76，假定使用的内存可容纳 6 个记录，利用置换-选择分类法产生初始合并段。 51 38 15 52 4 46 49 39 46 29 14 61 30 1 48 3 63 27 13 89 24 58 33 76 29 38 39 46 49 51 14 61 15 30 1
90 92 97
11
调整败者树的方法
以在b[4]补充15为例
5 4 2 5 2与5比较 4 2 4与2比较
0 6 90 0
1
3 4与3比较
10
1
9 2
20 3
15 6
4
8 5
12 6
调整败者树的方法: 将新补充的结点与其双亲结点比较, 败者留在该双亲结点,胜者继续向上直至树根的双亲
12
建败者树的过程
51 49 39 46 38 29
FI
WA
FO
19
实例：输入文件FI中记录关键字为：51、49、39、46、38、29 、14、61、15、30、1、48、52、3、63、27、4、13、89、 24、46、58、33、76，假定使用的内存可容纳 6 个记录，利用置换-选择分类法产生初始合并段。 51 38 15 52 4 46 49 39 46 29 14 61 30 1 48 3 63 27 13 89 24 58 33 76 29 51 49 39 46 38 14
[数据结构] (依据：败者树为完全二叉树) 主：b[0.. k] b[0.. k-1]——k个叶结点，存放k个输入归并段中当前参加归并的记录（缓冲区） b[k]——虚拟记录，该关键字取可能的最小值minkey 辅：ls[0.. k-1] ——不含叶结点的败者树存放最后胜出的编号（ls[0]）以及所记录的败者编号 [处理步骤] 建败者树ls[0.. k-1] 重复下列操作直至k路归并完毕

10排序1

1,排序所需的时间开销排序所需的时间开销主要是指执行排序时对关键字比较次数和记录的移动次数. 和记录的移动次数的比较次数和记录的移动次数. 2,排序所需的附加空间的开销排序所需的附加空间的开销附加空间
10.2 插入排序
插入排序总的基本思想: 插入排序总的基本思想:
每次将一个待排序的记录, 每次将一个待排序的记录, 按其关键字大小插入到一个已经排好序(不减次序或不增次序) 好序(不减次序或不增次序)的文件中适当的位置, 件中适当的位置,直到全部记录插入完毕为止. 入完毕为止.
K i= K j, i > j
稳定排序: 稳定排序: 不稳定排序: 不稳定排序:
排序后
R i 领先R 领先R R j 领先R 领先R
j i
排序后具有相同关键字的记录之间的相对次序相对次序保持不变录之间的相对次序保持不变
5,排序的分类
内部排序: 1. 内部排序:
排序中,文件只在内存中进行的排序. 排序中,文件只在内存中进行的排序. 2,外部排序: 外部排序: 排序中,文件不单要使用内存, 排序中,文件不单要使用内存, 而且使用外存的排序. 而且使用外存的排序.
10.2.1
直接插入排序
例如: 例如:已知一个无序文件记录的关键字序列 49,38,65,97,76,13,27, 为:49,38,65,97,76,13,27,49
以直接插入排序方法进行不减次序排序的过程为: 以直接插入排序方法进行不减次序排序的过程为: 不减次序排序的过程为 49,38,65,97,76,13,27,49 , , , , , , ,
27 27 27 27 27 97 97 76
49 49 49 49 49 49 49 97

外部排序分析

外部排序分析当对数据记录量巨⼤的数据⽂件进⾏排序时，由于受到内存容量的限制，⽆法将所有数据记录⼀次全部读⼊到内存进⾏。

排序过程中需要多次进⾏内、外存之间的数据交换。

利⽤外存对数据⽂件进⾏排序称为外部排序。

外部排序最基本的⽅法是归并。

这种⽅法是由两个相对独⽴的阶段组成：①按内存(缓冲区)的⼤⼩，将n个记录的数据⽂件分成若⼲个长度为l的段或⼦⽂件，依次读⼊内存并选择有效的内部排序⽅法进⾏排序；然后将排好序的有序⼦⽂件重新写⼊到外存。

⼦⽂件称为归并段或顺串。

②采⽤归并的办法对归并段进⾏逐趟归并，使归并段的长度逐渐增⼤，直到最后合并成只有⼀个归并段的⽂件—排好序的⽂件。

1 外部排序的简单⽅法归并排序有多种⽅法，最简单的就是2-路归并。

设有⼀个磁盘上的数据⽂件，共有100,000个记录(A1， A2，…，A100000)，页块长为200个记录，供排序使⽤的缓冲区可提供容纳1000个记录的空间，现要对该⽂件进⾏排序，排序过程可按如下步骤进⾏：第⼀步：每次将5个页块(1000个记录)由外存读到内存，进⾏内排序，整个⽂件共得到10个初始顺串R1~R10 (每⼀个顺串占5个页块)，然后把它们写回到磁盘上去。

第⼆步：然后两两归并，直到成为⼀个有序⽂件为⽌。

由图可知，每趟归并由m个归并段得到┌m/2┐个归并段。

2 外排序的时间分析外排序的时间消耗⽐内排序⼤得多，原因是：●外排序的数据量(记录)⼀般很⼤；●外排序涉及到内、外存之间的数据交换操作；●外存的操作速度远远⽐内存中的操作慢。

外排序的总时间由三部分组成：外排序的时间=产⽣初始归并段的时间(内排序)m×tis+I/O操作的时间d×tio+内部归并的时间s×utmg其中：m：初始归并段数⽬；tis：得到⼀个归并段的内排序时间；d：总的读、写次数；tio：⼀次读、写的时间；s：归并的趟数；utmg：对u个记录进⾏⼀趟内部归并排序的时间。

⼀般地，tio>>tis，tio>>tmg，tio⽽取决于所⽤外存,因此，影响外排序效率的主要原因是内、外存之间数据交换(读、写外存)。

【数据结构】排序——外部排序

【数据结构】排序——外部排序【数据结构】排序——外部排序外部排序是指⼤⽂件的排序，即排序的记录存储在外存储器上，在排序过程中需进⾏多次的内、外存之间的交换。

外部排序⽅法通常采⽤归并排序有外部排序基本上由两个相对独⽴的阶段组成。

按可⽤内存⼤⼩，将外存上含有n个记录的⽂件分成若⼲长度为l的字⽂件或段。

依次读⼊内存并利⽤有效的内部排序⽅法排序，将排序后得到的有序⼦⽂件（称为归并段或顺串），进⾏逐趟归并，直⾄得到整个有序⽂件为⽌。

在外部排序中实现两两归并，由于不可能将两个有序段及归并结果段同时存放在内存中的缘故，所以不仅要调⽤归并过程，还需要进⾏外存的读_写（对外存上信息的读_写是以“物理块”为单位的）。

耗费时间总时间=内部排序时间(产⽣初始归并段)+外存读写时间+内部归并时间内部排序时间=经过内部排序后得到的初始归并段的个数r * 得到⼀个初始归并段进⾏内部排序多需时间的均值外存读写时间=总的读写次数 * 进⾏⼀次外存读写时间的均值内部归并时间=归并的趟数s * n个记录进⾏内部归并排序的时间优化⽅法增⼤归并路数k减少初始归并段个数r以上两个⽅法都可以减少归并的趟数，进⽽减少读写磁盘的次数，提⾼外部排序速度多路平衡归并与败者树已知增加k可以减少s，从⽽减少总的读写次数。

如果只单纯的增加k⼜会导致内部归并时间增加。

为了使内部归并不受k的增⼤⽽影响，提出了败者树。

败者树的基本思想败者树是树形选择排序的⼀种变型，可视为⼀棵完全⼆叉树。

k个叶⼦节点分别存放k个归并段在归并过程中当前参加⽐较的记录，内部节点⽤来记忆左右⼦树中的“失败者”，⽽让胜者往上继续进⾏⽐较，⼀直到根结点。

若⽐较两个数，⼤的为败者、⼩的为胜利者，则根结点指向的数为最⼩数。

eg、设初始归并段为(10,15,31),(9,20),(6,15,42),(12,37),(84,95),利⽤败者树进⾏m路归并，⼿⼯执⾏选择最⼩的5个关键字的过程。

性能分析k-路归并的败者树的深度为[log2k]+1注意⚠ 在多路平衡归并中采⽤简单⽐较时，k越⼤，关键字的⽐较次数会越⼤。

数据结构11-外部排序

例： 5 - 路平衡归
并的败者树：
[0] 531 [1] 510
[2] 5304
[3] 52
[4] 543
b0 12 b1 1805 b2 30
b3 b4 253 16
12 1805 30 14 12059 38
253 16 17 128598 56
b5
2334
0 3448
28 31
初始归并段
5
8 10 …
磁盘是在一片塑料薄膜上涂有磁性材料用以记录数据的存储介质。它分成多个磁道（柱面），每个磁道又分为多个扇区，多个磁盘组成的磁盘组还涉及到盘片号（磁头号），磁盘绕轴高速旋转，读写头则沿其一条半径作直线运动以寻道。它也不是
连续运转的设备，读写信息只能在旋转稳定时进行，且找到要读写的记录也需要一定的寻道、寻扇区时间，因此，在磁盘上读写信息所需的时间由三部分组成：TI/O = tseek + tla + n tw，其中 tseek 为寻道时间（seek time）， tla 为寻扇区时间（latency time time）， tw 为传输时间（transmission time）。磁盘是一种随机存储设备。
§11.6 最佳归并树
用置换-选择排序得到的初始归并段长度各不相同，那应如何进行 k 路平衡归并呢？这实际上是建立 k 叉霍夫曼树的问题：当初始归并段总数不足（ ( m 1 ) MOD ( k - 1 ) ≠ 0 ）时，需附加 k - ( m - 1 ) MOD ( k - 1 ) -1 个长度为零的虚段，亦即第一次归并时只对 ( m - 1 ) MOD ( k - 1 ) + 1 个初始归并段归并。建立 k 叉霍夫曼树每次仍是选择记录数相对少的初始归并段先进行归并。最佳归并树不适合磁带归并排序。

数据结构课程的内容

时间效率：虽然比较次数大大减少，可惜移动次数并未减少，所以排序效率仍为O(n2) 。
空间效率： O（1）稳定性：稳定
23
折半插入排序算法
void BiInsertSort(SqList *L)
{ int i,j, low,high,m;
for(i=2;i<=L->length;i++)
{ L->r[0]=L->r[i]; low=1; high=i-1;
（KCN）和对象移动次数（RMN）分别为：
比较次数：n i = (n +2)(n -1)
i=2
2
移动次数：n（i +1）= (n +4)(n -1)
i=2
2
时间复杂度为O(n2)。
54 32 1 44 5 3 2 1 33 4 5 2 1 22 3 4 5 1 11 2 3 4 5
比较i次（依次与前面的i-1个记录进行比较，并和哨兵比较1次），移动i+1次（前面的i-1个记录依次向后移动，另外开始 19
13
*表示后一个25
例2：关键字序列T= （21，25，49，25*，16，08），
请写出直接插入排序的具体实现过程。解：假设该序列已存入一维数组V[7]中，将V[0]作为缓冲或
暂存单元（Temp）。则程序执行过程为：
初态：
完成!
22410暂存59685*
021816
21516
2425951*
2459*
定义：
设有记录序列：{ R1、R2………Rn } 其相应的关键字序列为： { K1、K2………Kn }; 若存在一种确定的关系：Kx<=Ky<=…<= Kz则将记录序列 { R1、 R2……….Rn}排成按该关键字有序的序列： { Rx、 Ry……….Rz}的操作，称之为排序。

数据结构-外部排序

11-11
3 多路平衡归并的实现
• 对于2路归并, 令两个归并段上有u个记录, 每得到归并后的一个记录, 仅需一次比较即可, 因此得到含u个记录的归并段需进行u-1次比较。 • 对于k路归并, 令u个记录分布在k个归并段上, 显然, 归并后的第一个记录应是k个归并段中关键字最小的记录, 这需要进行k-1次比较, 得到u个记录的归并段, 共需(u-1)(k-1)次比较。由此, 对n个记录的文件进行外排序时, 在内部归并过程中进行的总的比较次数为s(k-1)(n-1)。假设所得初始归并段为m个, 则归并过程中进行比较的总的时间为：
结果：采用胜者树后, 从 k 个元素中挑选一个最小的元素仅需 log2k 次比较, 这时总的比较次数下降为：
logkm × log2k × ( n - 1 ) × tmg ＝ log2m × ( n - 1 ) × tmg
该结果和 k 无关, 这是通过多用空间换来的。 • 改进：采用胜者树, k个元素中最小的元素输出之后, 从根结点到它的相应的叶子结点路径上的结点都需要进行修改, 为了加快程序运行的速度产生了败者树。
11-16
3 多路平衡归并的实现
• 败者树在父节点中记下刚进行完的比赛中的败者, 但同样让胜者去参加下一轮的竞赛, 便得到一棵“败者树”。
11-17
3 多路平衡归并的实现
• 下图即为一棵实现5-路归并的败者树ls[0…4], 图中方形结点表示叶子结点(也可看成是外结点), 分别为5个归并段中当前参加归并的待选择记录的关键码；败者树中根结点ls[1]的双亲结点ls[0]为 “冠军”, 在此指示各归并段中的最小关键码记录为第三段中的记录；结点ls[3]指示b1和b2两个叶子结点中的败者即是b2, 而胜者b1和b3(b3是叶子结点b3、b4和b0经过两场比赛后选出的获胜者)进行比较, 结点ls[1]则指示它们中的败者为b1。

2012 计算机考研大纲改动知识点(计算机复习指南复旦大学出版)

第一部分：数据结构六、排序1、增加了：（十）外部排序2、后面的修改：（十一）各种内部排序算法的比较；（十二）内部排序算法的应用【外部排序不是数据结构的重点，考生无需在这个知识点上花过多的时间，只需要做概念的理解和记忆就行，这个知识点笔者预测会单独以选择题的形式下面，或者结合其他内部排序算法以选择题形式一起考查。

】6.7.1一、问题的提出1．待排序的记录数量很大，不能一次装入内存，则无法利用前几节讨的排序方法。

2．定义：外排序就是把待排序记录先存储在外存上，再分别部分地调入内存排序，在排序过程中多次进行内、外存的数据交换的排序过程。

二、外部排序特点1．文件大，内存放不下2．需要在内外存之间进行多次交换（1）文件在外存中的组织两种基本外存设备：磁带和磁盘；・磁带：典型的顺序设备；・磁盘：典型的随机设备。

（2）文件在内存中的排序・逻辑上信息按字符组（记录）存放；・物理上读写（I/O操作）按块顺序或随机进行；・逻辑记录和物理块之间的对应关系；（3）文件在内外存之间的交换读取一个记录（字符组）检查内存缓冲区有无此记录：若有，则可读；若无，则启动I/O从外存读相应的物理块到缓冲区，再从缓冲区内读取相应的记录。

写回一个记录：在缓冲区拼装成为一个物理块；启动I/O写回到外存。

三、外部排序的基本过程由相对独立的两个步骤组成：１．按可用内存大小，利用内部排序的方法，构造若干(记录的)有序子序列，通常称外存中这些记录有序子序列为“归并段”；２．通过“归并”，逐步扩大(记录的)有序子序列的长度，直至外存中整个记录序列按关键字有序为止。

例如：假设有一个含10000个记录的磁盘文件，而当前所用的计算机一次只能对1000个记录进行内部排序，则首先利用内部排序的方法得到10个初始归并段，然后进行逐趟归并。

假设进行2路归并(即两两归并)，则第一趟由10个归并段得到5个归并段；第二趟由5个归并段得到3个归并段；第三趟由 3 个归并段得到2个归并段；最后一趟归并得到整个记录的有序序列。

数据结构第十章排序

7
10.2 插入排序插入排序
直接插入排序折半插入排序 2-路插入排序表插入排序希尔排序
10.2.1 直接插入排序
基本操作：将一个记录插入到已排好序的有序表中，从而得到一个新的、记录数增1的有序表。
例:有一组待排序的记录的关键字初始序列如下:
(49,38,65,97,76,13,27,49`)
（4）归并排序（5）基数排序
按内排过程中所需的工作量分类：
（1）简单的排序方法，其时间复杂度为O(n×n)
（2）先进的排序方法，其时间复杂度为O(nlogn);
（3）基数排序，其时间复杂度为O(d(n+rd))
排序算法的两种基本操作：
（1）比较两个关键字的大小；（2）将记录从一个位置移至另一个位置；
算法实现的关键设计:
将d看成是一个循环数组,并设两个指针first和final分别指示排序过程中得到的有序序列中的第一个记录和最后一个记录在d中的位置.
例:有一组待排序的记录的关键字初始排列如下:
(49,38,65,97,76,13,27,49`) 16
[初始关键字] 49 38 65 97 76 13 27 49`
18
10.2.3 希尔排序从直接插入排序
待排序序列基本有序可提高效率回顾待排序序列的记录数n很小时可提高效率
希尔排序的基本思想:
先将整个待排记录序列分割成为若干子序列分别进行
直接插入排序,待整个序列中的记录“基本有序”时,再对全
体记例录:有进一行组一待次排直序接的插记入录排的序关. 键字初始排列如下: (49,38,65,97,76,13,27,49`)
} 12
直接插入排序的性能分析: 10. 3
(1)空间:只需一个记录的辅助空间r[0].

数据结构(十)外部排序

13 11 8
12
6 12 7 14
7
15 13
26
8 24 11
问题：当一个三角形塔给出后，找出一条从根到底层的路径，使路径上的值最大。
分析：（1）贪心法往往得不到最优解
13
11
12 6 12 7 14 13 7
8
26 15 24 8 11
分析：（1）贪心法往往得不到最优解
13
11
12 6 12 7 14 13 7
如果问题的所有可能答案，都可以在多项式时间内进行正确与否的验算的话，就叫完全多项式非确定问题。完全多项式非确定性问题可以用穷举法得到答案，一个个检验下去，最终便能得到结果。但是这样算法的复杂程度，常常是指数关系，因此计算的时间随问题的复杂程度成指数的增长，很快便变得不
可计算了。
有大量问题具有以下特性：知道有效的非确定性算法，但是不知道是否存在有效的确定性算法，同时，不能证明这些问题中的任何一个不存在有效的确定性算法。这类问题称为NP完全问题。
本课程许多算法都是多项式时间，即对规模为n 的输入，算法在最坏情况下的计算时间是O(nk),k是常数。
一个问题称为是P的，如果它可以通过运行多项式次(即运行时间至多是输入量大小的多项式函数的一种算法获得解决）。----确定性问题
并不是所有问题都在多项式时间内可解的。在可计算性理论中，著名的“图灵停机问题”，任何计算机不论耗费多少时间也不可能解决该问题。有写问题，虽然可以用计算机求解，但是对于任意常数k，它们不能在O(nk)时间内得到解答。 ————非确定性问题
void output(St g[][NUM],int n) { int i,j; int mm=0; for(i=0;i<NUM;i++) { for(j=0;j<=i;j++) cout<<setw(3)<<g[i][j].val<<' '; cout<<endl;} cout<<g[0][0].val; j=0; for(i=0;i<n-1;i++) { j+=g[i][j].de; mm+=g[i+1][j].val; cout<<"->"<<g[i+1][j].val; } cout<<':'<<mm<<endl; }

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

12
Run0: {10, 15,…, ∞} Run1: {9, 18,…, ∞} Run2: {20, 22,…, ∞} Run3: {6, 15,…, ∞} Run4: {12, 37,…, ∞} ls[4]
ls[0] 3 ls[1] 1
冠军 (最小对象), 输出段3当前对象
0 ls[2] b0 10 b1 9
创建败者树：插入b0（10）
3 0
2 ls[3]
4 b4 12
12 37 …
b5 - b3 6
Run3
b0 10 10 b1 9
10 15 …
Run0
b2 20
20 22 …
Run2
21
6 15 …
9 18 …
Run1
败者树-创建
//创建初始失败者树的算法 void CreateLoserTree ( LoserTree &ls) {//已知b[0]到b[k-1]为完全二叉树ls的叶子节点， //其中存有k个关键字；b[k]为辅助节点。 //沿从叶子节点到根节点的k条路径将ls调整为失败者树
败者树
使用“败者树”从 k 个归并段中选最小者，当 k 较大时 (k 6)，选出关键码最小的对象只需比较 log2k
次。
(k 1) log2 m(n 1) log2 k log2 k log2 m(n 1) log2 m(n 1) log2 k
利用败者树，只要内存空间允许, 增大归并路数 k, 将有效地减少归并树深度, 从而减少读写磁盘次数 d, 提高外排序的速度。
10 15 …
Run0
2
ls[3]
选中
4
b2 20
20 22 …
Run2
b3 6
Run3
b4 12
12 37 …
6 15 …
9 18 …
Run1
Run4
LoserTree
ls[0] 3
ls[1] 1
ls[2] 0
ls[3] 2
ls[4] 4
13
败者树-调整
自某叶结点b[s]到败者树根结点ls[0]的调整过程
5 5
5 ls[3]
b5 - b3 6
Run3
5 4 b4 12
12 37 …
b0 10 b1 9
10 15 …
Run0
b2 20
20 22 …
Run2
17
6 15 …
9 18 …
Run1
败者树-创建
3)依次从b[k-1]，b[k2],…,b[0]出发调整失败者；方法：将bi与其父节点指示的上次比较的失败者相比. ls[2] ls[4] ls[0] 5 ls[1] 5
键码对象时, 最多做 log2k 次关键码比较。
15
败者树-创建
1)设b[k]为可能的最小值; 2)设初值：ls[i]=k;
ls[0] 5 ls[1] ls[2] ls[4]
初始化败者树
5
5
ls[3]
5
b5 - b3 6
Run3
5 b4 12
12 37 …
b0 10 b1 9
10 15 …
归并趟数s 4 2 1
为了减小d，应该减小s。 s = logkm
减小总读写次数 d的途径：增加归并路数k或减小初始段数m。
tES = m*tIS + d*tIO + s*u*tmg
内部排序所需总时间外存读写所需总时间内部归并所需总时间
7
10.2 多路平衡归并排序 k-way Balanced merging
创建败者树：插入b1（9）
3
2 ls[3]
4 b4 12
12 37 …
b5 - b3 6
Run3
b0 10 b1 9 9
10 15 …
Run0
b2 20
20 22 …
Run2
20
6 15 …
9 18 …
Run1
败者树-创建
3)依次从b[k-1]，b[k2],…,b[0]出发调整失败者；方法：将bi与其父节点指示的上次比较的失败者相比. ls[2] ls[4] ls[0] 5 3 ls[1] 1
外部排序需要的总时间为：
tES = m*tIS + d*tIO + s*u*tmg
内部排序所需总时间外存读写所需总时间内部归并所需总时间
则上例中tES = 10*tIS + 500*tIO + 4*u*tmg
6
因为tIO >> tmg，想要提高外排序的速度，应减少 d. d和归并过程的关系：归并路数 k 总读写磁盘次数 d 2 500 5 300 10 200
Run0
b2 20
20 22 …
Run2
16
6 15 …
9 18 …
Run1
败者树-创建
3)依次从b[k-1]，b[k2],…,b[0]出发调整失败者；
方法：将bi与其父节点指示的上次比较的失败者相比. ls[2] ls[4] ls[0] 5 ls[1] 5
创建败者树：插入b4（12）
s(k 1)(n 1) logk m(k 1)(n 1) log2 m (k 1)(n 1) log2 k (k 1) log2 m(n 1) log2 k
随k增长而增长，增大k，会使得归并的时间增大
办法：减小k 个对象中选最小的比较次数
9
减小总读写磁盘次数 d的途径1：增加归并路数k
下减少m呢？
减小总读写磁盘次数 d的途径2：减小初始段数m.
25
10.3 置换选择排序
Replacement-Selection Sorting
创建败者树：插入b2（20）
3
5 ls[3] 2
4 b4 12
12 37 …
b5 - b3 6
Run3
b0 10 b1 9
10 15 …
Run0
b2 20
20 22 …
Run2
19
6 15 …
9 18 …
Run1
败者树-创建
3)依次从b[k-1]，b[k2],…,b[0]出发调整失败者；方法：将bi与其父节点指示的上次比较的失败者相比. ls[2] ls[4] ls[0] 5 ls[1] 5 1
23
k-merge 算法
归并路数 k 的选择不是越大越好。归并路数 k增大时，相应需增加输入缓冲区个数。如果可供使用的内存空
间不变，势必要减少每个输入缓冲区的容量，使内外存交换数据的次数增大。
24
10.3 置换选择排序
归并的趟数：s = logkm m=记录总数n / 内存可容纳的记录数目；如果减小m，则需要增加内存的使用量。但是内存的限制是一定的，如何在不增加内存的情况
void k-Merge( LoserTree &ls, External &b ) {//利用败者树将编号从0到k-1的k个输入归并到输出段。 //b[0]到b[k-1]记录k个输入段中当前记录的关键字 for( i =0; i < k; ++i ) input( b[i].key ); //输入 CreateLoserTree(ls); //创建初始败者树 while ( b[ls[0]].key ! = MAXKEY{ q = ls[0]; // q指示当前最小关键字所在段号 output(q); //输出q段中当前记录 input(b[q].key, q); //输入q段中下一个记录 Adjust(ls, q); //调整败者树 } //while }// k-Merge
对于k 路平衡归并，如果有 m 个初始归并段，需要归并logkm 趟。
s = logkm
6路平衡归并树：36个初始归并段减小总读写磁盘次数 d的途径1：增加归并路数k
8
10.2 多路平衡归并排序
做内部 k 路归并时，在 k 个对象中选择最小者，需要顺序比较 k-1 次。每趟归并 u 个对象需要做(u-1)*(k-1)次比较，s趟归并总共需要的比较次数为：
b[k].key = MINKEY; //设MINKEY为可能的最小值
for ( i =0; i < k; ++i ) ls[i] = k;//所有中间节点初始化为k
for ( i =k-1; i >=0; --i ) Adjust( ls, i);
}// CreateLoserTree
22
k-merge 算法
败者树-调整
//自某叶结点b[s]到败者树根结点ls[0]的调整算法 void adjust ( LoserTree &ls, int s ) {//从叶结点b[s]开始，依次将当前的b[s]与父结点指示的失败者进行比较 //将失败者所在归并段的段号记入父节点中。 t = (s + k) / 2; // ls[t] 是b[s]的父节点 while(t > 0) { if (b[s].key > b[ls[t]].key sls[t]; t = t/2; 败者树的高度为 log2k，在每 } 次调整，找下一个具有最小关 ls[0] = s; }// adjust
1
内容
10.1 外部排序的概念和方法 10.2 多路平衡归并排序
10.3 置换-选择排序
10.4 最佳归并树
2
10.1 外部排序的概念和方法
外排序：基于外部存储设备（或文件）的排序技术就是外
排序。当待排序的对象数目特别多时，在内存中不能一次处理。必须把它们以文件的形式存放于外存，排序时再把它们一部分一部分调入内存进行处理。在排序过程中必须不断地在内存与外存之间传送数据。外部存储设备：磁带、磁盘

10_外部排序

合集下载

外排序

第11章外部排序

文件外部排序与外部搜索

第11章外部排序

外部排序技术之多路归并

内部排序和外部排序

数据结构第十、十一章：排序

外部排序

10排序1

外部排序分析

【数据结构】排序——外部排序

数据结构11-外部排序

数据结构课程的内容

数据结构-外部排序

2012 计算机考研大纲改动知识点(计算机复习指南复旦大学出版)

数据结构第十章排序

数据结构(十)外部排序

文档推荐

最新文档

10_外部排序

合集下载

外排序

第11章 外部排序

文件外部排序与外部搜索

第11章外部排序

外部排序技术之多路归并

内部排序和外部排序

数据结构第十、十一章：排序

外部排序

10排序1

外部排序分析

【数据结构】排序——外部排序

数据结构11-外部排序

数据结构课程的内容

数据结构-外部排序

2012 计算机考研大纲改动知识点(计算机复习指南复旦大学出版)

数据结构第十章 排序

数据结构(十)外部排序

文档推荐

最新文档

第11章外部排序

数据结构第十章排序