从一个简单评测看AI搜索走到头了吗

发布日期：2025-03-01 23:03:11 浏览次数： 2977

作者：胡言Ray语

微信搜一搜，关注“胡言Ray语”

随着DeepSeek R1+联网搜索功能引爆全网，笔者也切身感受到有了思维链加持之后AI搜索的体验比之以往大有提升，但随之而来是一个问题：AI搜索的工程/模型优化真的走到头了吗？又或者，随着向OpenAI DeepReaserch范式的方向演进，在“搜索/研究某个命题”这个领域，真的已经能做到取代部分人的工作了吗？　

带着以上疑问我做了一个很小的评测，看结果前，先给大家解释一下背景：　

评测问题：2025年2月都有哪些大模型公司的新模型发布？

为什么选择这个问题？看起非常简单对吧，其实背后的门道还是挺深的。比如：什么样的公司算大模型公司？（需要考虑全球范围吗？什么领域？某个垂直领域的算吗？）；新模型指的是LLM还是也包含Transformer范式下的多模态大模型、或者文生图/视频之类采用DiT架构的模型？2025年2月看似很明确，但一个月跨度下的新闻量非常大。笔者在相对熟悉行业信息的前提下，通过相对优质的信息源整理了半小时以上，才在下表中列出了11家公司19个模型的List。这里要特别说明一下，这个列表也只能代表笔者基于自己的行业认知做出的判断，难免有挂一漏万的可能。此外，整理完之后也不得不感慨一句：真TM卷...除了几家头部大厂的明星模型，过去一个月其实还有很多可能在新闻里一闪而过的名字，不信你可以看看下表的第一列。　

解释一下评测对象们

大致可以归为以下几类：　

benchmark（老AI搜索）：选择了智谱的AI搜索功能，智谱虽然也发了推理模型（有印象吗？），但AI搜索用的还是不带推理的版本。这是R1出来之前AI搜索的老范式：
搜索词query改写/扩写➡️从搜索引擎中拿到部分搜索结果➡️进行相关性重排序（Rerank）➡️排序靠前的结果作为input一并给到LLM➡️LLM结合搜索结果、预训练知识和用户原始query总结回答问题。　
带长推理能力的AI搜索：选择了DeepSeek、腾讯元宝、Monica三家的网页版作为典型代表，工程上跟老的AI搜索范式没有本质区别，只是在最后一步，模型会结合网页信息先进行思考，再输出回答。如下：

由于模型都是满血版DeepSeek R1（姑且信之），那么上面三家的差别主要就来自搜索网页的部分。做得简单一些的话可以少量query改写（甚至不改）+对接一个Bing/Brave/Tavily之类的搜索API，大多数人不会重新做一套全网爬虫+索引，当然类似腾讯/百度这类有自己搜索引擎产品的除外。召回网页之后需要抓取网页内容（也有一些搜索插件服务只提供摘要）并且基于用户的问题做一下相关性排序（有成熟的相关性算法）。其实从这个过程中可以看出，采用哪家的爬虫/搜索API（也代表了能爬到哪些内容）、query改写的策略、搜索召回的数量、重排策略、最终吐给模型的内容量等等都会影响一次AI搜索结果的好坏。而由于DeepSeek R1的加入，反而在获得内容之后模型有了更多时间思考、比对、校验甚至反思吐给它的内容，从而优化了输出质量。　

模型智能只能用在总结阶段吗？当然不是，比如秘塔的研究模式下有一个先想后搜模式，会先用模型对用户query进行一定的分析，列出搜索提纲再去搜索内容，最后召回的结果再用R1总结一遍：

关于这种“先想后搜”的模式，最近结合字节Coze上线了带function call（工具调用能力）的R1之后（原生的R1 function call能力比较弱）有了一个简单的复现方法如下：　

运行时你会神奇的发现在思维链中模型出现了一个“停顿点”，然后还是调用搜索插件分析搜索结果：　

此外，秘塔还有一点不同是除了通用搜索外应该还做了不少垂域数据的索引，比如你能从中搜到大量的研究报告和论文，这是其他AI搜索目前做不到的。　

还有一个“终极”形态。最后说说OpenAI的DeepResearch，除了用到了最新的O3模型，DeepResearch和上述这些AI搜索最大的差别在于它是是一个“端到端”训练了搜索网页获取信息这个技能的Agent.这点在昨天DeepResearch主创的访谈中有所印证：

也就是说不同于无论上述“先搜后想”还是“先想后搜再想”的AI搜索的工程范式，DeepResearch采用的是“边想边搜”的模式，模型端到端地去学习人怎么结合一个命题去搜索网页-思考之后调整搜索词-再搜索-如此往复的行为。（这种思路也是模型去规则化的一种趋势，比如智驾领域从感知-依赖规则的规划决策-行动，转变为端到端的视觉进-动作出）具体到我们评测的问题上，DeepResearch的思考过程如下（OpenAI应该还是做了一定的简化的）：　

说句题外话，这例子也很好地解释了Agent这个概念除了规划、记忆和使用工具外，能对环境变化进行实时交互也是至关重要的。　

评测结果

啰嗦了这么久，各种AI搜索/研究的模式都分析过了，看看结果到底如何？　

备注：测试时间为2-28中午，测试query相同均为“2025年2月都有哪些大模型公司的新模型发布？”，所有产品都开了联网搜索能力，其他差异如下表所示：　

先说结论：全线拉跨，没有任何一位“先进模式”的选手在成绩上超过作为benchmark的智谱“普通”AI搜索
信源上：腾讯元宝凭借独有的微信公众号以及时效性（比如今天发布的GPT4.5）取得一定优势（但不明显），其他家主要就是通过搜索获得的门户媒体信息，值得一提的反而是作为参照物的智谱采用了不少知乎、雪球等信源。此外秘塔特有的pdf研究报告信源，由于内容比较老旧，在这类高时效性问题上反而是吃亏的。
深度思考固然好，但前提是找对信息：对比DeepSeek和智谱的成绩得出的结论。
DeepResearch的优势是基于用户问题扩展，比如能主动总结这些新发模型具体的技术细节、应用场景，或者性能对比等信息，但在这道更偏事实性的问题上，这种优势发挥不出来。
世界上还是存在大量“长尾”信息的，比如这里除了头部OpenAI、Anthropic、Google以及DeepSeek、通义以外，其他的模型公司似乎被AI搜索抛到了聚光灯以外（马斯克、字节：Are you OK？）