我要投稿

向量检索快比LLM还贵？不支持S3的向量数据库，迟早要淘汰！

发布日期：2025-09-03 18:34:34 浏览次数： 2383

作者：Zilliz

微信搜一搜，关注“Zilliz”

不久前，AWS发布了S3Vector。这是S3从单独的存储向多模态升级中的重要一步。

你可以理解成：AWS 用自己的云存储，搭了个简易版向量数据库。

然后，很多朋友问我："这是要革向量数据库的命吗？"

说实话，作为Milvus的核心开发者，我结论是，S3Vector 确实有竞争力，但它的未来，是融入专业向量数据库，或者与专业向量数据库做能力搭配。

更重要的是，它的出现，让未来不支持类似功能、做不到极致性价比的向量数据库，集体淘汰出局。

接下来，我从 技术内幕 → 产品能力 → 市场影响，一次说清。

01 向量存储成本比大模型API还贵

VDB该变革了

向量检索很好，但是向量检索最大的问题在于，向量检索的算力需求太高，相比 NoSQL至少高出了一到两个数量级。

甚至，对于一些AI笔记类产品来说，他们在向量检索上的开销是OpenAI API费用的2倍。（某不具名头部AI笔记CTO）

无独有偶，2022年ChatGPT爆火后，向量数据成为公有云增速最快的数据类型。

而与Milvus早期服务的搜索、广告场景不同，大模型对应的RAG（检索增强生成）方案，对Milvus为代表的向量数据库带来了全新挑战，主要有三：

数据量暴增：规模从过去的千万级，直接跃升至数十亿级，需要向量数据库具备海量数据处理
用户延迟容忍度提升：毕竟大模型本身推理就需要时间，即便向量检索稍慢，用户也能接受；因此，过去向量数据库最在意的召回速率，反而不再重要
成本敏感度飙升：企业数据量翻倍后，若仍沿用过去的存储和计算方案，成本压力根本扛不住。

02 从内存到对象存储

是VDB的演进必然

基于前文所讲的三大挑战，不难发现，向量数据库的底层存储系统，从内存进化到对象存储，其实是行业必然。

作为亲历者，我把向量数据库的演进分为三个阶段：

第 1 代（2018-2022）：全靠内存撑早期 Milvus 用的索引技术，比如 HNSW、IVF，会把数据放内存里。优点是速度快、查得准，但成本高到离谱，
第 2 代（2022-2024）：磁盘救场Milvus 2.0正式推出，在此阶段，我们不仅做了分布式，还搞出了 “DiskANN + 自研 Cardinal 索引”。通过AIO、io_uring 等技术，可以把部分索引从内存卸载到了磁盘当中，成本一下降了 3~5 倍。这也导致我们的 Zilliz Cloud 容量型实例，当时直接卖爆了。
第 3 代（2024 年起）：分层存储时代这一时期，像 TurboPuffer 这些新玩家，直接把索引放到了 S3 里，存储成本降到 $0.33/GB/ 月，又比之前省了 10 倍！但缺点也明显：查冷数据（不常用的数据）要等 500 毫秒～1 秒，召回率也没那么高。

至于 Milvus ，其实 2022 年我们就已经着手开始研发分层存储，经过深度打磨，这个功能将在下个月发布的新一代存储拓展型实例中上线，冷数据查询能稳定在 500 毫秒以内，大家可以期待下。

在这一降本增效的趋势背景下，S3vector的出现其实也是分层存储向量数据库开始流行之后的必然选择，尤其是当S3Table出现之后，S3团队想要进军存储格式更是板上钉钉的事情。

现如今，S3自身的定位，从简单的对象存储升级成为了一个多模冷存储，不仅仅是向量，图，KV，时序等多种模态，未来常见的业务几乎都可以通过S3Table的模式加速。

而S3团队做向量检索也有三大杀手锏：

成本优势：几乎是业界最低的存储价格
规模效应：庞大机器池完美分散查询压力
微服务架构：天然适合向量索引的写入-构建-查询流程

也正是这些优势，帮助S3打造了一个极低成本超级扩展能力的向量冷存储方案。

03 S3Vector实测

真便宜，但有上限

我们团队第一时间对S3Vector进行了全面评测，结论很明确：省钱是真的，但能力有限，不是万能的。

先说好的：便宜到离谱

存储成本：$0.06/GB，比现在的 Serverless 方案还便宜 5 倍；
实际案例：存 4 亿个向量，每个月查 1000 万次，总共才花 $1217—— 比传统向量数据库省 10 倍以上；
适用场景：如果对查询速度要求不高、用得也不频繁（比如每天查几次），那它几乎没对手。

再讲缺点，S3Vector 的天花板”很明显，主要在 3 个方面：

速度慢，有上限

collection size ：s3 单个表最多 50m vectors，最多支持 10000 个表放一个 bullet point.

查冷数据：100 万条要等 500 毫秒，1000 万条要等 700 毫秒；

查热数据：每秒最多查 200 次（200 QPS），超过就会限流；

写数据慢：每秒写不到 2MB（Milvus 能到每秒1 GB），不适用大量数据频繁变更的场景。

召回率不够，还没法调

正常情况下Recall只有 85%~90%，没有可调的参数；

加过滤条件（比如 “只查 2024 年的数据”）后，召回率直接掉到 50% 以下；

如果删了一半数据，想查前 20 个结果（Top20），可能只能返回 15 个。

功能太基础

一次最多查 30 个结果（topk 不超 30）；

每条数据的附加信息（比如备注、标签）有大小限制；

没有混合查询、多租户这些企业常用的功能。

04 技术架构推测

结合实测和对 AWS 的了解，我们推测它用了 5 个关键技术，也解释了为啥有这些优缺点：

动态局部更新索引（SPFresh）：写数据后只更一部分索引，不用全重建。好处是写代价比较低，不需要重建索引，坏处是更新后recall会下降几个百分点；
深度量化（4-bit PQ）：把高维向量压小，减少 S3 读写量 —— 好处是便宜、查得快，坏处依然是召回率低，Recall 稳定在 85% 左右，而且用户几乎无调参余地。
后过滤（Post-Filter）机制：先粗略查一批，再按条件筛 —— 好处是好实现，能利用统一的底层索引结构，缺点是在过滤条件较多时，TopK 结果可能严重不足（我们测到删除 50% 数据后，TopK 20 只能返回 15 个结果）。说明S3团队用的基本就是开源索引，没有在索引侧做太多改造。
分层缓存（Multi-tier Cache）：可能用 SSD 或者NVMe 做缓存，存最近查过的索引。新查询不命中SSD缓存时延迟明显较高
大规模分布式调度：S3 本身有海量机器池，S3Vector 可能利用微服务将“读取-解压-检索”拆成流水线，让查询延迟分布非常稳。

05 S3Vector场景分析

能做什么，不能做什么

结合前面的测试数据还有技术架构解读，S3 Vector适合的场景其实很明确。

适合的场景

冷数据归档：比如存几年前的历史数据，偶尔查一次，能接受等 500 毫秒以上；
低QPS的RAG查询：比如内部小工具，每天查几十次，小于100 QPS，对速度要求不高；
低成本测试：做 POC 项目（验证想法），想少花钱试水。

不适合的场景

搜索 / 推荐：比如电商推荐、内容搜索，需要 50 毫秒以内的速度，它根本跟不上；
高频写数据：比如实时更新的用户行为数据，写得慢还会掉精度；
复杂查询：比如又要查向量、又要按时间 / 标签筛，还得做统计；
多租户应用：现在最多支持 10000 个存储桶，企业多团队用根本不够。

06 S3Vector意味着什么

分层成为大势所趋

我判断，以后向量数据库市场会分成三层，各自对应不同需求：

顺应这一趋势，Milvus/Zilliz cloud 近些年来，也对产品做了诸多的性能与成本优化，主要分为三方面

优化一：在线 + 离线一体化

在我们看来，在 AI 应用里，数据不应该被粗暴割裂成在线和离线，很多情况下，他们是随时动态转化的。因此，即将推出的Milvus 3.0 提出了向量数据湖方案，就是要让一份数据，既能在线检索，又能离线处理。既能支撑 RAG、搜索这些实时场景，又能直接用 Spark 做离线分析（比如洗训练数据）。

此外，向量数据湖方案采用了全新的StorageV2 存储格式，可以在冷数据上实现100 倍存储成本优化，同时在热数据场景下，性能比直接用 Spark 爆搜快 100 倍。这样一来，既不用维护多份数据，而且又省又方便。