已知原始列表中的元素为均匀分布(步长任意的等差数列),对列表中的每个元素进行取余运算后,余数需要均匀分布,才能减少冲突。那么取余运算中的除数为何要选为素数?
试证明如下:
设原始数列为{c + kb},其中c任意常数,k=0,1,2...,b为等差数列的步长,取值为任意正整数。设除数为m,余数为均匀分布,即 {c + kb} % m 的结果{c + kb} - Lm,在[0, m - 1] 间能等概率取到任何值,其中L为正整数,使Lm<={c + kb}<(L+1)m 。
一、假设m为非素数,那么至少存在一个约数g,使得1 1) 若g也是b的约数,那么b 与 m 存在公约数 g,令b=vg, m=wg,有 {c + kb} % m = {c + kb} - Lm = {c + kvg} - Lwg = c + (kv-Lw) g 由于公约数g>=2, 因此上式结果在区间[0, m-1] 上 最多能取到 (m // g) + 1个数,而 (m // g) + 1 <= m/g + 1 <= m/2 + 1 < m (最后一个小于号成立条件为m>2,一般来说 除数m都是大于2的),故 (m // g) + 1 < m,因此该数列除m后,余数中至少有1个数 取不到,故不是均匀分布。 2) 若所有的g都不是b的约数,那么b 与 m 公约数 仅有g=1, {c + kb} - Lm,由于kb - Lm线性无关,因此结果可取到[0,m-1]区间上的任意数。 二、m为素数,那么b与m的公约数g=1,极小概率恰好存在公约数m(此时,b=km),不考虑 此时情况同上 一、2),结果可以取到 [0, m-1]区间上的任意数 综上所述,需要哈希表长度为素数,使余数呈均匀分布。