HashMap 计算 Hash 值的扰动函数

以下代码叫做 “扰动函数”,理论上 hash 散列是一个 int 值，如果直接拿出来作为下标访问 hashmap 的话，考虑到二进制 32 位，取值范围在-2147483648 ~ 2147483647。大概有 40 亿个 key ，只要哈希函数映射比较均匀松散，一般很难出现碰撞。,一个客观的问题：要存下 40 亿长度的数组，服务器内存是不能放下的。通常咱们 HashMap 的默认长度为 16 。所以这个 hashCode , (key.hashCode ) 是不能直接来使用的。使用之前先做对数组长度的与运算，得到的值才能用来访问数组下标。,代码如下：,这里为什么要使用 n -1 ，来进行与运算，这里详单与是一个”低位掩码”, 以默认长度 16 为例子。和某个数进行与运算，结果的大小是 < 16 的。如下所示：,这个时候会有一个问题，如果本身的散列值分布松散，只要是取后面几位的话，碰撞也会非常严重。还有如果散列本身做得不好的话，分布上成等差数列的漏洞，可能出现最后几位出现规律性的重复。,这个时候“扰动函数”的价值就体现出来了。如下所示：, HashMap 计算 Hash 值的扰动函数 ,在 hash 函数中有这样的一段代码：(h = key.hashCode()) ^ (h >>> 16) 右位移 16 位，正好是32bit 的一半，与自己的高半区做成异或，就是为了混合原始的哈希码的高位和低位，以此来加大低位的随机性。并且混合后的低位掺杂了高位的部分特征，这样高位的信息变相保存下来。其实按照开发经验来说绝大多数情况使用的时候 HashMap 的长度不会超过 1000，所以提升低位的随机性可以提升可以减少 hash 冲突，提升程序性能。,如果感兴趣的小伙伴可以浏览下一下 Peter Lawlay 的专栏《An introduction to optimising a hashing strategy》的一个实验：他随机选取了 352 个字符串，在散列值完全没有冲突的前提下，对低位做掩码，取数组下标。, HashMap 计算 Hash 值的扰动函数 ,结果显示，当 hashmap 的数组长度为 512 的时候，也就是采用低位掩码取低 9 位的时候，在没有扰动函数的情况下，发生了 103 次碰撞，接近 30%。而在使用扰动函数之后只有 92 次碰撞。碰撞减少了将近10%。说明扰动函数确实有功效的。,但是明显 Java 8 觉得扰动做一次就够用了，做 4 次的话，可能边际效用也不大，为了效率考虑就改成了一次。,运行结果如下：, HashMap 计算 Hash 值的扰动函数 ,参考资料：https://www.zhihu.com/question/20733617,