Hash,一般翻译为散列、杂凑,音译为哈希。Hash是指将任意长度的输入经过Hash算法转化为固定长度的输出,该输出就是哈希值。它是不可逆的,不可以通过结果值计算出原值。整个Hash算法的过程就是把原始任意长度的值空间,映射成固定长度的值空间的过程。
这个映射的规则就是对应的Hash算法,而原始数据映射后的二进制串就是哈希值。开发中经常使用的MD5和SHA都是历史悠久的Hash算法。
常见的哈希算法有MD5和SHA;SHA又包括SHA-1和SHA-2(SHA-224、SHA-256、SHA-384、SHA-512)和SHA-3。
MD5是输入不定长度信息,输出固定长度128-bits的算法。经过程序流程,生成四个32位数据,最后联合起来成为一个128-bits散列。基本方式为,求余、取余、调整长度、与链接变量进行循环运算。得出结果。
SHA-1在许多安全协议中广为使用,包括TLS和SSL、PGP、SSH、S/MIME和IPsec,曾被视为是MD5(更早之前被广为使用的散列函数)的后继者。
SHA-2它的算法跟SHA-1基本上仍然相似;因此有些人开始发展其他替代的散列算法。
在日常工作中,技术开发人员经常遇到的应用场景是信息加密、数据校验、数字签名等,下面就针对这三种应用进行简单介绍。
1、信息加密
首先我们看一下信息加密的应用。密码是我们生活中离不开的,也是用户非常隐私的信息,最简单的保护措施就是对密码进行Hash加密。在客户端对用户输入的密码进行Hash运算,然后在服务端的数据库中保存用户密码的Hash值,那么即使用户被盗,也很难一下子拿到明文密码。看到这里可能部分朋友就会觉得,那么我们是不是对用户输入的密码进行一次MD5加密就可以确保安全了呢?这样就算恶意用户知道了Hash值,也没有办法拿到用户的真实密码。
我们来假设一下,假设用户的密码是“12345678”,经过一次MD5以后得到的值是:“25d55ad283aa400af464c76d713c07ad”,那么是不是使用了这个加密后的字符串来存密码就万无一失了呢,大家可以来了解一下这个网站:https://md5.cn/
关于该网站的相关介绍是这样的:
md5.cn针对md5、sha1等全球通用公开的加密算法进行反向查询,通过穷举字符组合的方式,创建了明文密文对应查询数据库,创建的记录约数十万亿条,查询成功率90%以上。
所以,针对这种密码加密问题,我们一般的解决方案是“加盐”,即salt,利用特殊字符(盐)和用户的输入合在一起组成新的字符串进行加密。通过这样的方式,增加了反向查询的复杂度。
有需要了解的朋友可以去这个站点看看:https://md5.cn/
2、数据校验
我们比较熟悉的校验算法有奇偶校验和CRC校验,这2种校验并没有抗数据篡改的能力,它们一定程度上能检測并纠正传输数据中的信道误码,但却不能防止对数据的恶意破坏。
MD5 Hash算法的”数字指纹”特性,使它成为眼下应用最广泛的一种文件完整性校验算法,不少Unix系统有提供计算md5 checksum的命令。
3、数字签名
Hash算法也是现代password体系中的一个重要组成部分。因为非对称算法的运算速度较慢,所以在数字签名协议中,单向散列函数扮演了一个重要的角色。对Hash值,又称”数字摘要”进行数字签名,在统计上能够觉得与对文件本身进行数字签名是等效的。并且这种协议还有其它的长处。
此外,Hash可以用来:散列函数字,负载均衡,数据分片,分布式存储等。