桶排序的工作原理是将数组分到有限数量的桶里。每个桶在个别排序,对于桶的排序可能是使用别的排序算法或是以递归的方式继续使用桶排序进行排序。最后依次把各个桶中的记录列出来得到有序序列。
桶排序是一种分治思想,假设待排序的一组数均匀独立的分布在一个范围内,并将这一范围划分为几个范围(桶),然后基于某种映射函数 f u n fun fun,将待排序列的关键字 v a l u e value value 映射到第 i i i 个桶中(即桶数组 B u c k e t Bucket Bucket 的下标 i i i),那么该关键字 v a l u e value value 作为 B u c k e t [ i ] Bucket[i] Bucket[i] 中的元素。每个桶 B u c k e t [ i ] Bucket[i] Bucket[i] 都是一组大小为 N / M N/M N/M 的序列。
将各个桶中的数据有序的合并起来,对每个桶 B u c k e t [ i ] Bucket[i] Bucket[i] 中的所有元素进行比较排序,然后依次枚举输出 B u c k e t [ 0 ] . . . B u c k e t [ M ] Bucket[0]...Bucket[M] Bucket[0]...Bucket[M] 中的全部内容即是一个有序序列。
为了使桶排序更加高效,首先在额外空间充足的情况下,尽量增大桶的数量,而且尽量使用能够将输入的 N N N 个数据均匀的分配到 K K K 个桶中的映射函数;对于桶中元素的排序,选择何种比较排序算法对于性能的影响至关重要。
算法步骤:
首先在建立合理的映射之后,算法需要遍历一次元素数目为 n n n 的数据,将每个元素存入相应的桶中,此时产生了 Ω ( n ) \Omega(n) Ω(n)、 Θ ( n ) \Theta(n) Θ(n)的时间复杂度,之后需要遍历一次所有桶,产生了 Ω ( k ) \Omega(k) Ω(k)、 Θ ( k ) \Theta(k) Θ(k)的时间复杂度,最后会进行常数 c c c 个元素的排序,故时间复杂度为: Ω ( n + k ) \Omega(n+k) Ω(n+k)、 Θ ( n + k ) \Theta(n + k) Θ(n+k)。最坏情况下,每个桶至多只有一个元素,所以 k = n k = n k=n,则有时间复杂度为: O ( n 2 ) O(n^2) O(n2)。
由于额外开辟了k = capacity
的桶存储空间,但是最坏情况是每一个桶只有至多一个数据,即此时
k
=
n
k = n
k=n。故空间时间复杂度为:
O
(
n
)
O(n)
O(n)。
def bucket_sort(array: List[float], reverse: bool=False) -> None:
'''
array: 支持数值型数据,如整型与浮点型混合;不支持含有字符串类型的数据。
reverse: 是否降序, 默认采用升序。
'''
if not array:
return None
arrmin = min(array)
arrmax = max(array)
length = len(array)
capacity = int(arrmax - arrmin + 1) // length + 1
bucket = [[] for _ in range(capacity)] # Construct buckets
for value in array:
pos = int(value - arrmin) // length
bucket[capacity - pos - 1 if reverse else pos].append(value)
array.clear()
for index in bucket:
if index:
for value in sorted(index, reverse=reverse): # TimSort
array.append(value)
def bucket_sort(array: List[float], base: int=5, reverse: bool=False) -> None:
'''
array: 支持数值型数据,如整型与浮点型混合;不支持含有字符串类型的数据。
base: 根据需要调节, base 越小, 桶数越大。
reverse: 是否降序, 默认采用升序。
'''
if not array:
return None
assert base > 0
arrmin = min(array)
arrmax = max(array)
capacity = int(arrmax - arrmin + 1) // base + 1
bucket = [[] for _ in range(capacity)]
for value in array:
pos = int(value - arrmin) // base
bucket[capacity - pos - 1 if reverse else pos].append(value)
array.clear()
for index in bucket:
if index:
for value in sorted(index, reverse=reverse): # TimSort
array.append(value)