高维空间最近邻逼近搜索算法评测

来源：Github

最近邻方法是机器学习中一个非常流行的方法，它的原理很容易理解：邻近的数据点是相似的数据点，更可能属于同一分类。然而，在高维空间中快速地应用最近邻方法，却是非常有挑战性的工作。

全球最大的流媒体音乐服务商Spotify需要向上面的海量用户推荐音乐，其中就用到了最近邻方法。也就是在高维空间、大型数据集上应用最近邻方法。

由于维度高、数据规模大，直接应用最近邻方法并不可行，因此，最佳实践是使用逼近方法搜索最近邻。这方面有不少开源库，比如Spotify开源的Annoy库。Annoy库的作者Erik Bernh ardsson在开发Annoy的过程中发现，尽管有成百上千的使用逼近方法搜索最近邻的论文，却很少能找到实践方面的比较。因此，Erik开发了ANN-benchmarks，用来评测逼近最近邻（approximate nearest neighbor，ANN）算法。

评估的实现

Annoy Spotify自家的C++库（提供Python绑定）。Annoy最突出的特性是支持使用静态索引文件，这意味着不同进程可以共享索引。
FLANN 加拿大英属哥伦比亚大学出品的C++库，提供C、MATLAB、Python、Ruby绑定。
scikit-learn 知名的Python机器学习库scikit-learn提供了LSHForest、KDTree、BallTree实现。
PANNS 纯Python实现。已“退休”，作者建议使用MRPT。
NearPy 纯Python实现。基于局部敏感哈希（Locality-sensitive hashing，简称LSH，一种降维方法）。
KGraph C++库，提供Python绑定。基于图（graph）算法。
NMSLIB (Non-Metric Space Library) C++库，提供Python绑定，并且支持通过Java或其他任何支持Apache Thrift协议的语言查询。提供了SWGraph、HNSW、BallTree、MPLSH实现。
hnswlib（NMSLIB项目的一部分）相比当前NMSLIB版本，hnswlib内存占用更少。
RPForest 纯Python实现。主要特性是不需要在模型中储存所有索引的向量。
FAISS Facebook出品的C++库，提供可选的GPU支持（基于CUDA）和Python绑定。包含支持搜寻任意大小向量的算法（甚至包括可能无法在RAM中容纳的向量）。
DolphinnPy 纯Python实现。基于超平面局部敏感哈希算法。
Datasketch 纯Python实现。基于MinHash局部敏感哈希算法。
PyNNDescent 纯Python实现。基于k-近邻图构造（k-neighbor-graph construction）。
MRPT C++库，提供Python绑定。基于稀疏随机投影（sparse random projection）和投票（voting）。
NGT: C++库，提供了Python、Go绑定。提供了PANNG实现。