Agentic LLM工作流程可生成患者友好型医疗报告

发布日期：2024-10-17 13:47:17 浏览次数： 3074

作者：南极星医学AI笔记

微信搜一搜，关注“南极星医学AI笔记”

研究背景

研究问题：这篇文章要解决的问题是如何利用大型语言模型（LLMs）生成易于患者理解的医学报告，同时确保报告的准确性和可读性。
研究难点：该问题的研究难点包括：LLMs容易产生幻觉，对输入非常敏感，导致输出结果不准确；复杂的医学报告更容易导致LLMs产生幻觉；如何在生成患者友好报告的同时保持医学准确性。
相关工作：该问题的研究相关工作包括其他研究者在医疗保健领域使用LLMs生成患者友好信件的尝试，但这些工作通常依赖于零样本提示，生成的报告需要人工审核和修改。

研究方法

这篇论文提出了一种基于代理的工作流程，结合Reflexion框架，通过迭代自我反思来纠正LLMs的输出。具体来说，

代理工作流程：代理工作流程是迭代的，包含多个中间步骤，不同于非代理或零样本/少样本提示的单输入单输出方式。多个代理可以被利用，每个代理在组织中扮演特定角色。

强化学习通过反思：代理工作流程允许通过反思进行强化学习，通过在下一个提示末尾附加反思反馈来实现链式思维提示。Reflexion代理将基本反馈转化为更详细的口头形式的文本摘要，以自然语言解释反馈，并将其添加到下一个提示的上下文中，作为语义梯度信号。

实现提示：提示LLMs生成一定数量的患者友好信件，基于正式的医疗报告。每个生成信件的准确性和可读性被计算并适当加权，然后使用Reflexion模型运行一定数量的自我反思试验，输出最终认为最优的信件。

评估标准：使用Flesch-Kincaid阅读水平量化可读性，使用ICD-10代码匹配验证准确性。整体得分通过以下公式计算：

overall_score=(readability×0.3)+(accuracy×0.7)overall_score=(readability×0.3)+(accuracy×0.7)

目标是使整体得分最大化。

实验设计

数据收集：实验使用了16份随机选择的放射科报告，这些报告涵盖了不同的医疗发现和身体部位，长度从84到264个单词不等。
实验设置：原始医疗报告可以作为参数提供，或者在SIIM 2024 Hackathon上从EHR服务器中提取。实验中手动包含了15份其他测试放射科报告。
参数配置：使用OpenAI的GPT-4o模型进行测试，提示生成5份患者友好报告，并验证ICD-10代码的准确性。

结果与分析

准确性：反射代理在验证ICD-10代码方面提高了报告的医学准确性，确保最终的患者信件中保留了零样本输出有时遗漏的ICD-10代码。反射代理生成的信件在准确性方面比零样本输出高出26.71%。
可读性：反射代理生成的信件在可读性方面比零样本输出高出3.29%，平均Flesch-Kincaid阅读水平为3.846，而零样本输出为3.648。
整体得分
：反射代理生成的信件在整体得分方面比零样本输出高出17.51%，整体得分的最大值为1.0。

总体结论

这篇论文提出了一种基于多代理的工作流程，结合Reflexion框架，通过迭代自我反思来纠正LLMs的输出，生成易于患者理解的医学报告。实验结果表明，该方法显著提高了报告的准确性和可读性，减少了人工审核的需求。尽管不能完全消除验证的需求，但该方法显著减少了需要编辑的LLM生成报告的比例，提高了报告生成的效率，有助于使医疗信息对患者更加易懂和可访问。

论文评价

优点与创新

显著提高了报告的医学准确性：通过反射代理的使用，确保了最终的患者信件中保留了ICD-10代码，这些代码在零样本输出中有时会被遗漏。
提高了报告的可读性：使用Flesch-Kincaid阅读水平量化可读性，并通过反射代理的迭代改进，使得最终输出的信件更加简洁、结构化和正式。
减少了人工编辑需求：通过多代理工作流程，显著减少了需要编辑的LLM生成报告的比例，从68.75%降至18.75%。
端到端集成：展示了与EHR服务器的端到端集成，生成的患者信件可以直接推送到患者的EHR中。
多模态测试：在不同的医学影像报告（CT、MR、US）上进行了测试，证明了方法的有效性和适用性。
详细的反馈和改进机制：利用Reflexion框架的迭代自我反思能力，提供了详细的口头反馈，指导代理如何改进输出。

不足与反思

非100%成功率：尽管方法显著提高了患者信件的质量，但仍无法完全消除对验证的需求。
ICD-10代码验证的局限性：目前使用的get_description(icd10_code)函数依赖于字符串匹配，可能会错过同义词定义或仅有细微差异的短语。建议使用模糊匹配算法如Levenshtein距离或K近邻算法来改进。
假设LLM模型的准确性：假设LLM模型（GPT-4o）生成的ICD-10代码是准确的，但在未来的研究中需要通过人类验证测试来进一步验证。
可读性的标准化：目前将可读性标准化为6年级水平，但未来希望能适应不同阅读水平的患者。
语言和医疗领域的多样性：目前仅支持英语，未来希望增加对其他语言的支持，并扩展到其他医疗领域。
情感和敏感度的考量：目前的加权系统基于可读性和准确性，但未来希望通过PERMA模型等因素考虑信件的情感和敏感度。
其他指标的应用：希望引入CDE代码等额外指标，以准确传达患者的治疗过程和后续行动。

关键问题及回答

问题1：Reflexion框架在代理工作流程中具体是如何工作的？

Reflexion框架通过迭代自我反思来改进LLMs的输出。具体步骤如下：

初始生成：首先，使用LLMs生成一个或多个初步的患者友好报告。
验证ICD-10代码：提取初步报告中ICD-10代码，并使用另一个LLM生成这些代码的描述。将这些描述与原始报告中的ICD-10代码进行验证。
反馈和修正：Reflexion框架接收验证反馈（如成功或失败的二进制信号或数值评分），并将其转化为详细的口头形式的文本摘要。这些摘要解释了反馈的具体内容，并作为语义梯度信号添加到下一个提示的上下文中。
迭代改进：将改进后的反馈再次用于生成新的患者友好报告，重复上述过程，直到生成的报告在准确性和可读性上达到预期标准。

问题2：在实验中，反射代理和零样本提示生成报告在准确性和可读性方面的表现如何？

准确性：反射代理生成的报告在ICD-10代码验证方面的准确率为94.94%，而零样本提示的报告仅为68.23%。这表明反射代理能够更好地保留原始报告中的关键信息。
可读性：反射代理生成的报告中有81.25%不需要修改即可达到准确性和可读性要求，而零样本提示的报告中只有25%满足这一要求。这意味着反射代理生成的报告在语言表达上更加清晰易懂。
整体得分：反射代理生成的报告的整体得分为0.495，比零样本提示的报告高出17.51%。整体得分综合考虑了可读性和准确性，反映了反射代理在生成高质量患者友好报告方面的显著优势。

问题3：论文中提到的多代理方法如何处理复杂的医学报告？

分解任务：多代理方法将复杂的医学报告分解为多个子任务，每个代理负责一个特定的任务。例如，一个代理可能负责提取ICD-10代码，另一个代理负责生成患者友好报告的内容。
协作与反馈：代理之间通过协作和反馈机制进行交互。一个代理生成的初步报告会被传递给另一个代理进行进一步的修改和完善。这种“添加-通过-减法”协作方法确保每个代理的贡献都能被有效整合。
强化学习：通过Reflexion框架的强化学习机制，代理能够从每次迭代中学习并改进其输出。反思反馈被转化为语义梯度信号，指导代理在下一次迭代中生成更高质量的报告。

这种方法不仅减少了人工审核的需求，还提高了报告的准确性和可读性，从而显著提升了患者友好报告的生成效率和质量。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业