• 图像相似度识别算法aHash|dHash|PHash



    aHash\pHash\dHash 是常用的图像相似度识别算法,原理简单、实现方便。

    aHash算法

    Hash算法进行图片相似度识别的本质,就是将图片进行Hash转换,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。aHash中文叫平均哈希算法,顾名思义,在进行转化过程中将用到像素均值。

    基本原理

    1. 缩小尺寸。这样做会去除图片的细节,只保留结构、明暗等信息,目的是统一图片大小,保证后续图片都有相同长度的哈希值,方便距离计算
    2. 灰度化处理。将图片全部转换为统一的灰度值
    3. 计算像素均值。计算像素的灰度平均值
    4. 哈希值计算。将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组
    5. 图片配对,计算汉明距离。距离越近,越相似。当图片缩小为8X8时,通常认为汉明距离小于10的一组图片为相似图片。

    优缺点

    优点:速度快
    缺点:精确度较差,对均值敏感

    python实现

    from PIL import Image
    import os 
    import numpy as np
    
    # 均值哈希算法
    def aHash(image):
    	image_new = image
    	# 计算均值
    	avreage = np.mean(image_new)
    	hash = []
    	for i in range(image.shape[0]):
    		for j in range(image.shape[1]):
    			if image[i.j] > avreage:
    				hash.append(1)
    			else:
    				hash.append(0)
    	return hash
    
    # 计算汉明距离
    def Hamming_distance(hash1,hash2):
    	num = 0
    	for index in range(len(hash1)):
    		if hash1[index] != hash2[index]:
    			num += 1
    	return num
    
    if __name__  == '__main__':
    	image1 = Image.open("image1.png")
    	image2 = Image.open("image2.png")
    	# 缩小尺寸并灰度化
    	image1 = np.array(image1.resize((8,8),image.ANTIALIAS).convert('L'),'f')
    	image2 = np.array(image2.resize((8,8),image.ANTIALIAS).convert('L'),'f')
    	hash1 = aHash(image1)
    	hash2 = aHash(image2)
    	dist = Hamming_distance(hash1,hash2)
    	# 将汉明距离转化为相似度
    	similarity = 1 - dist * 1.0 /64
    	print('dist is ' + '%d' % dist)
    	print('similarity is ' + '%d' % similarity)
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40

    dHash算法

    dHash中文叫差异哈希算法,在对图片进行哈希转换时,通过左右两个像素大小的比较,得到最终哈希序列

    基本原理

    1. 缩小尺寸。将图像缩小为9X8大小,此时照片上有72个像素点
    2. 灰度化处理
    3. 计算差异值,获得最后哈希值(与aHash主要区别)。比较每行左右两个像素,如果左边的像素比右边的像素更亮(左边的像素值大于右边像素值),则记录为1,否则为0。因为每行有9个元素,左右两个一次比较可得8个值,所以8行像素共可以得出64个值,因此此时哈希值为长度是64的0-1序列。
    4. 图片配对,计算汉明距离

    优缺点

    速度快、判断效果比aHash好

    python代码实现

    from PIL import Image
    import os 
    import numpy as np
    import time
    # 差异哈希算法
    def dHash(image):
    	image_new = image
    	# 计算平均值
    	avreage = np.mean(image_new)
    	hash = []
    	# 每行前一个像素大于后一个像素为1 相反为0 生成哈希
    	for i in range(8):
    		for j in range(8):
    			if image[i,j] > image[i , j+1]:
    				hash.append(1)
    			else:
    				hash.append(0)
    	return hash
    
    # 计算汉明距离
    def Hamming_distance(hash1,hash2):
    	num = 0
    	for index in range(len(hash1)):
    		if hash1[index] != hash2[index]:
    			num += 1
    	return num
    
    if __name__ == '__main__':
    	image1 = Image.open('image1.png')
    	image2 = Image.open('image2.png')
    	start = time.time()
    	image1 = np.array(image1.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
    	image2 = np.array(image2.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
    	hash1 = dHash(image1)
    	hash2 = dHash(image2)
    	dist = Hamming_distance(hash1,hash2)
    	end = time.time()
    	# 将距离转换为相似度
    	similarity = 1 - dist * 1.0 / 64
    	print('dist is '+ '%d' % dist)
    	print('similarity is '+'%d'%similarity)
    	print('time is ' + '%f'%(end-start))
    	
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
  • 相关阅读:
    【20221105】【每日一题】删除二叉搜索树中的节点
    游戏心理学Day16
    JVM:类加载的双亲委派机制
    Python入门介绍
    操作系统——进程同步、进程互斥及其实现方式、信号量机制
    跨境电商ERP系统定制应注意以下几个方面
    软件开发人员 Kubernetes 入门指南|Part 2
    csp初赛总结 & 那些年编程走过的坑 & 初高中信竞常考语法算法点
    【大数据 - Doris 实践】数据表的基本使用(三):数据模型
    刚接触银行新业务测试的一些问题
  • 原文地址:https://blog.csdn.net/shengweiit/article/details/132979550