Spark LSH 近似最近邻矢量检索:LinkedInAttic ScANNS项目学习和工程使用
GitHub - LinkedInAttic/scanns: A scalable nearest neighbor search library in Apache Spark
https://github.com/LinkedInAttic/scanns/issues/8
GitHub如何配置SSH Key_前端向朔的博客-CSDN博客_github ssh
目前是想在100万白用户的基础上,在2000万未知用户中,找到与100万用户最相近的一定量级用户当做白用户。
用Spark Mllib里面连续变量的LSH(采用欧式距离),算最近邻,有2种方式,
(1)给出一个向量,据此在另一数据集上扩展n个用户
(2)两个数据集的向量之间算最近邻,保留距离小于一定阈值的向量对
对于(1),终于调通,但是采用foreach,对每行向量依次找n个最近邻,算得太慢……
对于(2),只能拓展出几百个用户而且还计算不稳定。。
https://mvnrepository.com/中没有项目直接对应的jar包,只能用build方式获取。

以上报没有权限,所以需要在个人github主页settings下设置ssh,本地也要设置。