相似性搜索是一个问题,给定一个查询,目标是在所有数据库文档中找到与其最相似的文档。 在数据科学中,相似性搜索经常出现在 NLP 领域、搜索引擎或推荐系统中,其中需要检索最相关的文档或项目以进行查询。有多种不同的方法可以提高海量数据的搜索性能。
在该系列文中,我们研究了 LSH 的主要范例,即将输入向量转换为低维哈希值,同时保留有关其相似性的信息。为了获取哈希值(签名),使用了 minhash 函数。在本文中,我们将随机投影输入数据以获得类似的二进制向量。
京公网安备 11010502049817号