阿里通义等提出Chronos：慢思考RAG技术助力新闻时间线总结

发布日期：2025-01-22 07:27:13 浏览次数： 2731

作者：NLP工程化

微信搜一搜，关注“NLP工程化”

在数字化时代，新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战，阿里巴巴通义实验室与上海交通大学的研究者们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS，命名自希腊神话中的时间之神柯罗诺斯，该框架通过迭代多轮的自我提问方式，引导模型在检索相关新闻的过程中进行慢思考，最终生成时间顺序的新闻摘要，为新闻时间线摘要生成提供了一种全新的解决方案。

慢思考是一种深度分析和推理的思考方式，强调通过逐步分解问题，深入挖掘信息之间的关联，从而获得更全面、准确的理解和答案。在新闻时间线总结任务中，慢思考能够帮助模型更深入地理解检索新闻之间的复杂联系和深层次信息，并通过初始宽泛提问、逐步细化提问调研目标新闻，追踪生成更高质量的时间线摘要，有效应对开放域和封闭域两种设定下的时间线总结任务。

例如，对于新闻“国足1-0巴林”，CHRONOS能够总结海量新闻，呈现事件的来龙去脉。对比两个阶段的提问，后一阶段的提问在第一阶段的问题的基础上，进一步聚焦于事件的细节和深层次因素：从关注关键球员的当前比赛表现延伸到过往状态，拓展更多相关球队的表现……这种提问方式，帮助模型更全面、深入地理解新闻事件的各个方面。对于覆盖时间更长的新闻“中国探月工程”，CHRONOS也能聚焦重点事件，呈现时间线发展，使得用户能够一目了然。

以下是论文内容的详细介绍：

任务介绍

时间线总结（Timeline Summarization, TLS）任务是一种自然语言处理领域的经典技术挑战，它旨在从大量文本数据中提取关键事件，并按时间顺序排列，以提供对某一主题或领域历史发展的结构化视图。例如，在新闻领域，时间线总结可以帮助用户快速了解一个新闻事件的来龙去脉。该任务不仅要求识别出重要的事件，还需要理解事件之间的时间关系和因果联系，以便生成一个连贯、简洁且信息丰富的时间线摘要。

根据可检索事件的来源，可以将TLS任务细分为封闭域（closed-domain）和开放域（open-domain）两个设定：在封闭域TLS任务中，时间线是从一组预定义的、与特定主题或领域相关的新闻文章中创建的，而开放域TLS指的是从互联网上直接搜索和检索新闻文章来生成时间线的过程。过去的工作主要集中于解决封闭域上时间线生成问题，而开放域TLS则需要强大的信息检索和筛选能力，以及在没有全局视图的情况下识别和建立事件之间联系的能力，为这项任务提出了新的要求和挑战。

CHRONOS方法

为了应对上述挑战，我们提出CHRONOS框架，通过迭代提问进行相关事件检索，生成准确、全面的时间线摘要，能够有效地解决开放域和封闭域两种设定下的TLS任务。

1. 动机

时间线生成的核心在于建立事件之间的时间和因果关系。每个新闻事件都可以被表示为一个不同的节点，任务的目标是建立这些节点之间的边，以展示它们的相关性，并最终形成一个异构图，从主题新闻的节点开始。因此，通过一个检索机制来检索相关的新闻文章，可以有效建立这些边，形成事件之间的联系。

2. 概述

CHRONOS利用大模型的能力，通过模拟人类信息检索的过程，即通过提出问题、基于检索结果进一步提出新的问题，最终收集关于相关事件的全面信息并总结为时间线。

CHRONOS包括以下几个模块：

自我提问（Self-Questioning）：首先搜索粗粒度的新闻背景信息，然后迭代地提出问题，以检索更多相关新闻。
问题改写（Question Rewriting）：将复杂或表现不佳的问题分解为更具体、更易检索的查询。
时间线生成（Timeline Generation）：通过合并每一轮检索生成的时间线来总结一个突出重要事件的时间线。

3. 自我提问

3.1 粗粒度背景调研

慢思考的起点在于对新闻事件的粗粒度背景调研。在自我提问的初始阶段，CHRONOS首先使用目标新闻的标题作为关键词进行搜索，收集与目标新闻最直接相关的信息。这些信息构成了新闻背景（News Context），为后续的深度分析和迭代提问奠定基础。这一步骤类似于人类在开始思考一个新问题时，先获取一些基本的背景信息，以便更好地理解问题的背景和框架。

3.2 提问示例选择

在粗粒度背景调研之后，CHRONOS利用大模型的上下文学习能力，通过少量样本提示来指导模型生成关于目标新闻的高质量问题。

为了评估问题样本质量，引入了时序信息量（Chrono-Informativeness, CI）的概念，用来衡量模型提出的问题检索与参考时间线对齐事件的能力，即高CI值的问题更有可能引导检索到与目标新闻事件相关的文章，用检索生成的时间线和参考时间线中包含日期的F1分数进行衡量。

基于最大化问题集时序信息量的目标，构建一个“新闻-问题”的示例池，用于指导新目标新闻的问题生成。对于每个新的目标新闻，通过余弦相似性动态检索与目标新闻最相似的样本，确保了样本的上下文相关性和时间信息的准确性。

3.3 迭代提问

CHRONOS实现慢思考的核心在于连续的迭代提问。CHRONOS通过连续迭代提问，每一轮都基于前一轮的检索结果，深入挖掘新的问题和信息，逐步构建起事件之间的复杂联系，直到满足时间线中事件数量或达到最大迭代次数。这一过程类似于人类在思考过程中，通过不断提出新的问题和思考新的可能性，逐步完善和细化自己的理解和解决方案。

3.4 问题改写

查询改写（Query Rewriting）是检索增强生成中常用的优化方法。在CHRONOS框架中，我们通过对初始提问阶段产生的宽泛或复杂问题改写为2-3个更易于检索的子问题，能够生成更具体、更有针对性的查询，从而提高搜索引擎的检索效果。我们同样在提示中加入少量样本，指导大模型进行有效改写，将复杂问题转化为更具体的查询，同时保持问题的原始意图。

3.5 时间线生成

CHRONOS通过两阶段生成完整的时间线总结：生成（Generation）和合并（Merging）。

生成：通过分析每一轮检索到的新闻文章来识别关键事件和详细信息。利用大模型的理解和生成能力，提取每个事件的发生日期和相关细节，并为每个事件撰写简洁的描述。这些事件和描述被组织成初步的时间线，按照时间顺序排列，为后续的合并阶段提供基础。
合并：将多轮检索生成的初步时间线整合成一个连贯的最终摘要。这一过程涉及对齐不同时间线中的事件、解决任何日期或描述上的冲突，并选择最具代表性和重要性的事件。

OPEN-TLS

为了评估TLS系统，我们收集了由专业记者撰写的关于近期新闻事件的时间线，构建了一个名为Open-TLS的新数据集。与以往封闭域的数据集相比，Open-TLS不仅在数据集规模和内容上更加多样化，覆盖政治、经济、社会、体育和科学技术等多个领域，而且在时效性上更具优势，为开放域TLS任务提供了一个更全面和更具挑战性的基准。

实验结果

1. 实验设定

实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分别构建CHRONOS系统，评测开放域和封闭域两个设定下TLS的性能表现。使用的评估指标主要有：

ROUGE-N: 衡量生成时间线和参考时间线之间的N-gram重叠。具体包括：（1）Concat F1：通过将所有日期摘要连接起来计算ROUGE，以评估整体的一致性；（2）Agree F1：仅使用匹配日期的摘要计算ROUGE，以评估特定日期的准确性；（3）Align F1：在计算ROUGE之前，先根据相似性和日期接近性对预测摘要和参考摘要进行对齐，评估对齐后的一致性。
Date F1：衡量生成时间线中日期与参考时间线中真实日期匹配程度。

2. 开放域TLS

在开放域TLS的实验中，CHRONOS与几个基线方法进行了比较，包括直接搜索目标新闻（DIRECT）和重写目标新闻以创建查询用于检索（REWRITE）。对比之下，CHRONOS通过迭代自我提问和检索相关新闻文章的方法，显著提高了事件总结的质量和日期对齐的准确性，在所有指标上都领先于基线方法。

3. 封闭域TLS

在封闭域TLS的实验中，CHRONOS与之前的代表性工作进行了比较，包括：（1）基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim, 2020);（2）基于事件图模型EGC（Li et al., 2021）和（3）利用大模型进行事件聚类的LLM-TLS（Hu et al., 2024）。在Crisis和T17这两个经典数据集上的比较结果显示，CHRONOS达到了与这些工作类似的表现，在两个数据集的AR-2指标上取得了SOTA效果，证明了其在不同类型事件和时间跨度上的强大性能和适应性。

4. 运行时间分析

CHRONOS的另一个优势体现在效率方面。与同样基于大模型、但需要处理新闻库中所有文章的LLM-TLS方法相比，它通过检索增强机制专注于最相关的新闻文章，显著减少了处理时间。这种效率的提升使其在实际应用中更为实用，尤其是在需要快速响应的场景中。

Case Study

我们深入分析了模型在处理具体新闻事件时的表现，通过选择具有代表性的新闻事件，如苹果公司的重大产品发布，能够观察到CHRONOS如何通过由浅入深的自我提问和信息检索来生成时间线。在案例研究中，CHRONOS展示了其能够准确提取关键事件和日期的能力，同时也揭示了在某些情况下可能需要改进的地方，例如对某些事件的遗漏或日期幻觉。

结语

CHRONOS框架通过结合大型语言模型的迭代自我提问和检索增强生成技术，为时间线总结任务提供了一种新颖且有效的解决方案。这种方法的核心在于模拟人类的信息检索过程，通过不断地提出和回答新问题来逐步深入理解事件，最终生成一个全面且连贯的时间线摘要。

实验结果已经充分证明了CHRONOS在复杂事件检索和构建时间线方面的能力，展示了该框架在实际新闻时间线生成应用中的应用潜力和准确性。同时，这种迭代提问的检索生成方法是否具有泛化到通用任务上的能力也值得未来进一步研究

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业