堆排序

王朝百科·作者佚名 2009-11-19

堆排序原理及分析起源

1991年计算机先驱奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德(Robert W．Floyd)和威廉姆斯(J．Williams)在1964年共同发明了著名的堆排序算法( Heap Sort )

“堆”定义

n个关键字序列Kl，K2，…，Kn称为(Heap)，当且仅当该序列满足如下性质(简称为堆性质)：

(1) ki≤K2i且ki≤K2i+1 或(2)Ki≥K2i且ki≥K2i+1(1≤i≤ n)

若将此序列所存储的向量R[1..n]看做是一棵完全二叉树的存储结构，则堆实质上是满足如下性质的完全二叉树：树中任一非叶结点的关键字均不大于(或不小于)其左右孩子(若存在)结点的关键字。（即如果按照线性存储该树，可得到一个不下降序列或不上升序列）

【例】关键字序列(10，15，56，25，30，70)和(70，56，30，25，15，10)分别满足堆性质(1)和(2)，故它们均是堆，其对应的完全二叉树分别如小根堆示例和大根堆示例所示。

大根堆和小根堆：根结点(亦称为堆顶)的关键字是堆里所有结点关键字中最小者的堆称为小根堆，又称最小堆。根结点(亦称为堆顶)的关键字是堆里所有结点关键字中最大者，称为大根堆，又称最大堆。注意：①堆中任一子树亦是堆。②以上讨论的堆实际上是二叉堆(Binary Heap)，类似地可定义k叉堆。

堆排序

堆排序利用了大根堆(或小根堆)堆顶记录的关键字最大(或最小)这一特征，使得在当前无序区中选取最大(或最小)关键字的记录变得简单。

（1）用大根堆排序的基本思想

① 先将初始文件R[1..n]建成一个大根堆,此堆为初始的无序区

② 再将关键字最大的记录R[1](即堆顶)和无序区的最后一个记录R[n]交换，由此得到新的无序区R[1..n-1]和有序区R[n]，且满足R[1..n-1].keys≤R[n].key

③由于交换后新的根R[1]可能违反堆性质，故应将当前无序区R[1..n-1]调整为堆。然后再次将R[1..n-1]中关键字最大的记录R[1]和该区间的最后一个记录R[n-1]交换，由此得到新的无序区R[1..n-2]和有序区R[n-1..n]，且仍满足关系R[1..n-2].keys≤R[n-1..n].keys，同样要将R[1..n-2]调整为堆。

……

直到无序区只有一个元素为止。

（2）大根堆排序算法的基本操作：

① 初始化操作：将R[1..n]构造为初始堆；

② 每一趟排序的基本操作：将当前无序区的堆顶记录R[1]和该区间的最后一个记录交换，然后将新的无序区调整为堆(亦称重建堆)。

注意：

①只需做n-1趟排序，选出较大的n-1个关键字即可以使得文件递增有序。

②用小根堆排序与利用大根堆类似，只不过其排序结果是递减有序的。堆排序和直接选择排序相反：在任何时刻堆排序中无序区总是在有序区之前，且有序区是在原向量的尾部由后往前逐步扩大至整个向量为止特点

堆排序(HeapSort)是一树形选择排序。堆排序的特点是：在排序过程中，将R[l..n]看成是一棵完全二叉树的顺序存储结构，利用完全二叉树中双亲结点和孩子结点之间的内在关系(参见二叉树的顺序存储结构)，在当前无序区中选择关键字最大(或最小)的记录

堆排序与直接选择排序的区别

直接选择排序中，为了从R[1..n]中选出关键字最小的记录，必须进行n-1次比较，然后在R[2..n]中选出关键字最小的记录，又需要做n-2次比较。事实上，后面的n-2次比较中，有许多比较可能在前面的n-1次比较中已经做过，但由于前一趟排序时未保留这些比较结果，所以后一趟排序时又重复执行了这些比较操作。

堆排序可通过树形结构保存部分比较结果，可减少比较次数。

算法分析

堆[排序的时间，主要由建立初始]堆和反复重建堆这两部分的时间开销构成，它们均是通过调用Heapify实现的。

堆排序的最坏时间复杂度为O(nlog2n)。堆序的平均性能较接近于最坏性能。

由于建初始堆所需的比较次数较多，所以堆排序不适宜于记录数较少的文件。

堆排序是就地排序，辅助空间为O(1)，

它是不稳定的排序方法。

算法描述堆排序算法(C++描述)

void HeapSort(SeqIAst R)

{ //对R[1..n]进行堆排序，不妨用R[0]做暂存单元

int i；

BuildHeap(R)； //将R[1-n]建成初始堆

for(i=n;i>1;i--)

{

//对当前无序区R[1..i]进行堆排序，共做n-1趟。

R[0]=R[1];

R[1]=R[i];

R[i]=R[0];//将堆顶和堆中最后一个记录交换

Heapify(R，1，i-1)；

//将R[1..i-1]重新调整为堆，仅有R[1] 可能违反堆性质

} //endfor

}

//HeapSort

因为构造初始堆必须使用到调整堆的操作，先讨论Heapify的实现，再讨论如何构造初始堆(即BuildHeap的实现)

Heapify函数思想方法

每趟排序开始前R[l..i]是以R[1]为根的堆，在R[1]与R[i]交换后，新的无序区R[1..i-1]中只有R[1]的值发生了变化，故除R[1]可能违反堆性质外，其余任何结点为根的子树均是堆。因此，当被调整区间是R[low..high]时，只须调整以R[low]为根的树即可。

"筛选法"调整堆

R[low]的左、右子树(若存在)均已是堆，这两棵子树的根R[2low]和R[2low+1]分别是各自子树中关键字最大的结点。若R[low].key不小于这两个孩子结点的关键字，则R[low]未违反堆[性质，以R[low]为根的树已是堆，无须调整；否则必须将R[low]和它的两个孩子结点中关键字较大者进行交换，即R[low]与R[large](R[large].key=max(R[2low].key，R[2low+1].key))交换。交换后又可能使结点R[large]违反堆性质，同样由于该结点的两棵子树(若存在)仍然是堆，故可重复上述的调整过程，对以R[large]为根的树进行调整。此过程直至当前被调整的结点已满足性质，或者该结点已是叶子为止。上述过程就象过筛子一样，把较小的关键字逐层筛下去，而将较大的关键字逐层选上来。因此，有人将此方法称为"筛选法"。

BuildHeap的实现

要将初始文件R[l..n]调整为一个大根堆，就必须将它所对应的完全二叉树中以每一结点为根的子树都调整为堆。

显然只有一个结点的树是堆，而在完全二叉树中，所有序号大于n/2的结点都是叶子，因此以这些结点为根的子树均已是堆。这样，我们只需依次将以序号为n/2，…，1的结点作为根的子树都调整为堆即可。

Heapify函数算法实例

#include <stdio.h>

#include<stdlib.h>

inline int LEFT(int i);

inline int RIGHT(int i);

inline int PARENT(int i);

void MAX_HEAPIFY(int A[],int heap_size,int i);

void BUILD_MAX_HEAP(int A[],int heap_size);

void HEAPSORT(int A[],int heap_size);

void output(int A[],int size);

int main()

{

FILE *fin;

int m,size,i;

fin = fopen("array.in","r");

int* a;

fscanf(fin," %d",&size);

a = (int *)malloc(size + 1);

a[0]=size;

for(i = 1;i <= size; i++ )

{

fscanf(fin," %d",&m);

a[i] = m;

}

HEAPSORT(a,a[0]);

printf("$$$$$$$$$$The Result$$$$$$$$

");

output(a,a[0]);

free(a);

return 0;

}

inline int LEFT(int i)

{

return 2 * i;

}

inline int RIGHT(int i)

{

return 2 * i + 1;

}

inline int PARENT(int i)

{

return i / 2;

}

void MAX_HEAPIFY(int A[],int heap_size,int i)

{

int temp,largest,l,r;

largest = i;

l = LEFT(i);

r = RIGHT(i);

if ((l <= heap_size) && (A[l] > A[largest])) largest = l;

if ((r<= heap_size) && (A[r] > A[largest])) largest = r;

if (largest != i)

{

temp = A[largest];

A[largest] = A[i];

A[i]= temp;

MAX_HEAPIFY(A[],heap_size,largest);

}

void BUILD_MAX_HEAP(int A[],int heap_size)

{

int i;

for (i = heap_size / 2;i >= 1;i--) MAX_HEAPIFY(A,heap_size,i);

}

void HEAPSORT(int A[],int heap_size)

{

int i;

BUILD_MAX_HEAP(A,heap_size);

for (i = heap_size;i >= 2; i--)

{

int temp;

temp = A[1];

A[1] = A[i];

A[i] = temp;

MAX_HEAPIFY(A,i-1,1);

}

void output(int A[],int size)

{

int i = 1;

FILE *out = fopen("result.in","w+");

for (; i <= size; i++)

{

printf("%d ",A[i]);

fprintf(out,"%d ",A[i]);

}

printf("

");

}

堆排序(Pascal/Delphi描述)

Const

FI = 'Heap.In' ;

FO = 'Heap.Out' ;

MaxSize = 10000 ;

Type

TIndex = Longint ;

TDat = Array [ 0 .. MaxSize ] Of TIndex ;

Var

N , M : TIndex ;

D : TDat ;

Procedure Swap ( A, B : TIndex ) ;

Var

Tmp : TIndex ;

Begin

Tmp := D [ A ] ;

D [ A ] := D [ B ] ;

D [ B ] := Tmp ;

End ;

Procedure DownSift ( Node : TIndex ) ;

Var

LSon , RSon : TIndex ;

Father : TIndex ;

Change : Boolean ;

Begin

Repeat

Change := False ;

If Node Shl 1 > N Then

Exit ;

LSon := Node Shl 1 ;

RSon := LSon + 1 ;

Father := Node ;

If ( LSon <= N ) And ( D [ Father ] < D [ LSon ] ) Then

Father := LSon ;

If ( RSon <= N ) And ( D [ Father ] < D [ RSon ] ) Then

Father := RSon ;

If ( Father <> Node ) Then

Begin

Swap ( Father , Node ) ;

Node := Father ;

Change := True ;

End ;

Until Not Change ;

End ;

Procedure HeapReset ;

Var

I : TIndex ;

Begin

For I := ( N Shr 1 ) DownTo 1 Do

DownSift ( I ) ;

End ;

Procedure Init ;

Var

I : TIndex ;

Begin

FillChar ( D , SizeOf ( D ) , 0 ) ;

Readln ( N ) ;

For I := 1 To N Do

Read ( D [ I ] ) ;

End ;

Procedure Main ;

Var

I : TIndex ;

Begin

M := N ;

HeapReset ;

For I := M DownTo 2 Do

Begin

Swap ( 1 , N ) ;

Dec ( N ) ;

DownSift ( 1 ) ;

End ;

Procedure Final ;

Var

I : TIndex ;

Begin

For I := 1 To M Do

Write ( D [ I ] , ' ' ) ;

End ;

Begin

Assign ( Input , FI ) ;

Assign ( Output , FO ) ;

Reset ( Input ) ;

Rewrite ( Output ) ;

Init ;

Main ;

Final ;

Close ( Input ) ;

Close ( Output ) ;

End .

实现Pascal中的较简单实现

var

i,j,k,n:integer;

a:array[0..100] of integer;

procedure swap(var a,b:integer);

var t:integer;

begin t:=a;a:=b;b:=t;

end;

procedure heapsort(i,m:integer);

begin

while i*2<=m do

begin

i:=i*2;

if (i<m) and (a[i]<a[i+1]) then inc(i);

if a[i]>a[i div 2] then swap(a[i],a[i div 2])

else break;

end;

begin

readln(n);

for i:=1 to n do read(a[i]);

for i:=n div 2 downto 1 do heapsort(i,n);

for i:=n downto 2 do

begin

swap(a[i],a[1]);

heapsort(1,i-1);

end;

for i:=1 to n do write(a[i],' ');

end堆排序的JAVA实现

public class Test {

public static int[] Heap = { 10, 32, 1, 9, 5, 7, 12, 0, 4, 3 }; // 预设数据数组

public static void main(String args[]) {

int i; // 循环计数变量

int Index = Heap.length; // 数据索引变量

System.out.print("排序前: ");

for (i = 1; i < Index - 1; i++)

System.out.printf("%3s", Heap);

System.out.println("");

HeapSort(Index - 2); // 堆排序

System.out.print("排序后: ");

for (i = 1; i < Index - 1; i++)

System.out.printf("%3s", Heap);

System.out.println("");

}

/**

* 建立堆

public static void CreateHeap(int Root, int Index) {

int i, j; // 循环计数变量

int Temp; // 暂存变量

int Finish; // 判断堆是否建立完成

j = 2 * Root; // 子节点的Index

Temp = Heap[Root]; // 暂存Heap的Root 值

Finish = 0; // 预设堆建立尚未完成

while (j <= Index && Finish == 0) {

if (j < Index) // 找最大的子节点

if (Heap[j] < Heap[j + 1])

j++;

if (Temp >= Heap[j])

Finish = 1; // 堆建立完成

else {

Heap[j / 2] = Heap[j]; // 父节点 = 目前节点

j = 2 * j;

}

Heap[j / 2] = Temp; // 父节点 = Root值

}

public static void HeapSort(int Index) {

int i, j, Temp;

// 将二叉树转成Heap

for (i = (Index / 2); i >= 1; i--)

CreateHeap(i, Index);

// 开始进行堆排序

for (i = Index - 1; i >= 1; i--) {

Temp = Heap; // Heap的Root值和最后一个值交换

Heap = Heap[1];

Heap[1] = Temp;

CreateHeap(1, i); // 对其余数值重建堆

System.out.print("排序中: ");

for (j = 1; j <= Index; j++)

System.out.printf("%3s",Heap[j]);

System.out.println("");

}