斯坦福团队研究：AI生成的科研想法比人类专家更有创意，但无法替代人类

发布日期：2024-09-26 16:08:37 浏览次数： 2501

作者：络绎科学

微信搜一搜，关注“络绎科学”

对于大语言模型（Large Language Model，LLM）而言，提出新的想法并不难，真正难的是，提出那些新颖且有价值的想法。

如同 Wolfram 所说：“实际上，做出原创性的工作是非常简单的，你只需选择一堆随机数。那些随机数序列非常出人意料、有创意、也很有独创性，但这对我们来说，并没有太大意义，我们真正感兴趣的是那些有原创性而‘有趣’的东西。”

毕竟，让用户吃胶水和石头的想法不也是很新颖的吗？

图丨此前谷歌发布的 AI 搜索曾产生一系列的谎言和错误信息，包括建议在披萨食谱中使用胶水以及摄入石头来补充营养等，引起轩然大波（来源：New York Times）

因此，要评估 AI 想法的新颖性，必须要附带一个额外条件：它们至少要与人类专家提出的想法水平相当。

但目前，还没有相关研究证明 LLM 系统能够生成达到专家水平的新颖想法。

于是，为了弥补这方面研究的缺失，探明 AI 在科学研究中的创新潜力，来自斯坦福大学的研究团队展开了一项研究，对当前 LLM 是否能够生成人类专家级的创新性研究想法进行了探究。

图丨相关论文（来源：arXiv）

为了进行对比，团队招募了 104 位 NLP 研究者，让其中 49 位写下创新研究想法，然后再让 79 位专家对 LLM 和人类给出的思路进行盲测（其中有 24 位也参与了想法的撰写，但他们不会审查自己的想法）。

而与他们对垒的主干模型则是 claude-3-5-sonnet-20240620，同时结合了 RAG 论文检索、创意生成和创意排名等功能，以更好地产出科研思路。

实验设置的研究问题与七个主题相关：偏见、编程、安全性、多语言、事实性、数学和不确定性，而最后的评估则主要围绕新颖度、令人兴奋的程度、可行性和有效性四个维度展开。

先说主要结论，与人类专家的想法相比，LLM 生成的想法更为新颖（p < 0.05），但在可行性方面则相对逊色。

那么实验具体是如何来展开的呢？

在设置好问题后，人类专家与 LLM 会生成与之相关的研究思路，而这些思路需要被书写出来并用于交流时，其价值才能被评估，然而，这一过程本身却带来了额外的挑战。比如，人类研究人员在表达自己的研究设想时，往往会通过更丰富的例子和详细的实施方案来增强说服力，这无形中增加了评估的复杂性。

为了解决这个问题，研究者设计了一套模板，让所有人按照同样的格式提交创意提案，包括标题、问题陈述、方法建议等内容。同时，他们还使用了一种风格标准化工具，将所有提案转换成统一的写作风格，避免了个人风格对评分的影响。

图丨风格标准化工具（来源：arXiv）

另一方面，对研究思路的审查也同样不可避免地具有主观性。因此，研究团队参考一些 AI 顶会的评审，设计了一份详细的审查表，明确了所有评估标准，力求使评估过程更加标准化。

除了给出总体评分外，还设定了四个具体的评估指标：新颖性、吸引力、可行性和预期效果。评审员需要根据指标给出 1-10 的分数，并附上理由说明。

除了人类专家提出的与 AI 自动筛选出（AI Ideas）的想法，研究者还从 AI 生成的想法中手动筛选出了一些最为优秀的（AI Ideas + Human Rerank），以评估 AI 创意的最大潜力。

图丨实验流程图（来源：arXiv）

最终的结果如上所述，无论是 AI Ideas 还是 AI Ideas + Human Rerank，都在新颖性方面显著优于人类专家的想法（p < 0.01）。在可行性方面，则稍有逊色。而在激动人心（excitement）评分上，AI 生成的思路的优势更为明显（p < 0.05）。

图丨最终的评审结果（来源：arXiv）

即使是由人类重新排序的 AI 思路，其整体得分也超过了人类专家提出的想法（p < 0.05）。至于有效性方面，AI 生成的思路得分略高于人类思路，但差异不大。

不过，需要注意的是，尽管 LLM 有能力生成大量的创意，但这些创意的多样性有限。团队分析了每个主题下生成的 4000 个想法，发现新想法中非重复的比例逐渐下降，最终趋于稳定。4000 个想法中只有200个是非重复的。

图丨新生成想法中非重复想法的百分比；随着AI不断生成新想法，累积的非重复想法（来源：arXiv）

而且，在评估创意的能力上，LLM 也远不如人类专家。例如，表现最好的 LLM 评估者——Claude-3.5 成对排序器，其准确率只有 53.3%，而人类评审员之间的评分一致性为 56.1%。

这么看来，AI 的确有能力提出很多有价值的新颖想法，或许在很多时候能给我们带来意想不到的惊喜，但至少目前为止，AI 科学家，尚未成为现实。

只有人类与 AI 协作起来，才能达到 1+1＞2 的效果，而进一步探索如何优化这种协作方式，也是研究团队未来的目标之一。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw