什么是向量数据库 / 向量检索资源目录

什么是向量数据库 / 向量检索资源目录

最后更新:2023.11.16,更新 Redis & 向量数据库 完整实践。

写在前面

本篇文档将会随着专栏中的内容的更新而不断补充和更新,希望能够成为你在学习/偷懒路上的良师益友。

在此刻,2022 年下半年的伊始,当我试着搜索 “向量数据库”、“向量搜索引擎”、“向量检索” 这类关键词,想要进行各种产品的横行对比的时候,我发现除了能够搜索到一些过时的文档、各种宣传文稿中的话术堆砌的内容之外,鲜有清晰可靠、能够让我顺利完整复现功能的参考内容。

相信如果你有和我一样的诉求,在此时此刻,搜索到的结果应该也是一样的:缺少内容价值、荒诞而无趣。

既然持续观察 “向量数据库” 行业中的产品,并进行实践和分享是我的工作的一部分,我要调研的各种开源软件相关的数据和产品内容也并没有什么需要藏着掖着的。那么,我为什么不把这些内容持续的开源出来呢?

或许能够帮助不同场景下,需要做技术选型的人,做出合适的、正确的选择,少走弯路,远离深坑。

希望在不久的未来,在持续的更新之后,这个专栏也能够像我的另外一个专栏: 《为了不折腾而去折腾的那些事》一样,能够积累几百篇技术干货( What、How、Why),帮助到知乎平台上的“你”。

如果你觉得我做的事情有价值,不妨一键三连,并不时回来看看,这篇“目录”和专栏里的内容,大概率能够帮助你节约时间,甚至可能让你了解 “向量”、“非结构化数据”,这个相对神秘的技术领域。


覆盖产品

图片来自《一张图看中美互联网科技公司对比》

希望能够在持续更新之下,覆盖大厂名企的方案、主流开源方案、业界新出现的开源、闭源商业方案,并保持收录上的相对客观。

覆盖场景

图片来自《赋能阿里多业务场景,达摩院自研向量检索引擎 Proxima 公开》

希望通过努力,能够将上述场景中的实践都折腾一遍,或者将看到的好的内容,收录到专栏里来。

内容分类

目前文档刚刚开始建设,暂以 “能够私有部署的开源项目”、“缺乏维护的开源项目”、“基础库” 、“云服务”、“大厂名企的闭源产品” 为线索进行更新。

数据来源

专栏中的数据来源,主要从 GitHub 上已经大家都能够看到的项目代码、项目运营数据、官网中项目文档,以及维护团队公开的技术分享为主,以国内外技术资讯、新闻平台为辅。

内容底线

尽力摒弃和避免出现任何八卦、容易引起你观感不适、也不符合我的技术价值观的任何软广。


能够私有部署的开源项目

2022 年

TBD 等我一篇一篇写,一个一个加的,别急。


正在崛起的开源新势力

  • Java
  • Rust
  • Golang

不容忽视的 “斜杠青年“ 开源项目

  • ClickHouse
    • 实战内容 TBD
  • ClickHouse 竞品
    • 实战内容 TBD
  • Elasticsearch Plugins
    • Plugin A
    • Plugin B

缺乏维护的开源项目

TBD 先不着急点名 :)


向量检索 / 近似最近邻搜索 / 向量计算 基础库

TBD


云服务

TBD


大厂名企的闭源产品(包含内部)

TBD


参考资料

编辑于 2023-11-16 12:02・IP 属地北京