2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

LAMBDA:基于大模型的数据agent

发布日期:2024-08-07 08:36:34 浏览次数: 3506
作者:AI帝国

微信搜一搜,关注“AI帝国”

一、结论写在前面       

 

论文标题:LAMBDA: A Large Model Based Data Agent
论文链接:https://arxiv.org/pdf/2407.17535
案例研究展示:https://www.polyu.edu.hk/ama/cmfai/lambda.html    
论文介绍“LAMBDA”,一种新颖的开源、无代码的多agent数据分析系统,该系统利用大型模型的力量。LAMBDA旨在通过使用创新设计的数据agent来解决复杂数据驱动应用中的数据分析挑战,这些agent使用自然语言进行迭代和生成操作。LAMBDA的核心是两个关键agent角色:程序员和检查员,它们被设计为无缝协作。
具体而言,程序员根据用户指令和领域特定知识生成代码,并借助高级模型进行增强。同时,检查员在必要时调试代码。为了确保鲁棒性并处理不利场景,LAMBDA具有允许用户直接干预操作循环的用户界面。
LAMBDA在多种机器学习(ML)数据集上展示了卓越的性能。在NHANES、Breast Cancer和Wine数据集上分别取得了100%、98.07%和98.89%的显著准确率。总之,LAMBDA的主要特点如下:(1)无代码和自然语言界面。(2)整合人类智能与人工智能。(3)可靠性。(4)自动分析报告生成。
           

 

二、论文的简单介绍
2.1 论文的背景
利用深度神经网络的数据驱动方法在数据科学应用中遇到了挑战和局限,特别是在需要广泛专业知识和高级编程知识的领域,如生物学、医疗保健和商业。一个显著的障碍是领域专家与复杂AI模型之间缺乏有效沟通渠道。为了解决这一问题,论文引入了*LAMBDA,一种新的开源、无代码的多agent数据分析系统,旨在克服这一困境。LAMBDA旨在促进所需媒介的创建,促进领域知识与数据科学中AI能力的无缝交互。论文开发LAMBDA的主要目标如下。    
图 1:概览,LAMBDA 通过自然语言交互促进高效的数据分析。它弥合了领域专家与数据科学领域之间的鸿沟,后者需要广泛的代码知识

(a) 跨越编码障碍:长期以来,编码一直被视为非计算机科学背景领域专家有效利用强大AI工具的主要障碍[28]。LAMBDA通过允许用户使用自然语言与数据agent进行交互,从而无需编码,为数据科学任务(如数据分析和数据挖掘)降低了入门门槛,同时提高了效率,使其对各学科的专业人士更加易于接触。

(b) 整合人类智能与人工智能:现有的数据分析范式面临挑战,因为缺乏一个有效的中介来连接人类智能与人工智能 [30]。一方面,AI 模型往往缺乏对特定任务所需未学习领域知识的理解。另一方面,领域专家发现将他们的专业知识融入 AI 模型以提升其性能具有挑战性 [9]。LAMBDA 为这一问题提供了解决方案。通过精心设计的接口模板,agent可以访问外部资源,如算法或模型。这种整合确保了领域特定知识得到有效利用,满足定制化数据分析的需求,并增强了agent执行复杂任务的能力,提高了准确性和相关性。

(c) 重塑数据科学教育:LAMBDA 有潜力成为一个互动平台,能够改变数据科学教育。它为教育者提供了灵活性,使他们能够定制教学计划并无缝整合最新的研究成果。这种适应性使得 LAMBDA 成为寻求提供尖端、个性化学习体验的教育者的宝贵工具。这种方法与直接应用 GPT-4 等模型 [29, 38] 形成对比,提供了一个独特且创新的教育平台。    

除了上述特点,LAMBDA的设计还包括可靠性和可移植性。可靠性指的是LAMBDA能够稳定且正确地处理数据分析任务。可移植性表明LAMBDA兼容多种大型语言模型(LLMs),这确保了LAMBDA始终能够通过最新的最先进模型得到增强。为了使用户能够从撰写文档等琐碎工作中节省时间,LAMBDA进一步升级了自动分析报告生成功能。
             

 

2.2 方法论
论文提出的多智能体数据分析系统(LAMBDA)由两个智能体组成,它们无缝协作,通过自然语言解决数据分析任务,如图2所示。宏观工作流程首先根据用户指令编写代码,随后执行该代码。
图2:提出的 LAMBDA 框架。论文利用云存储缓存用户上传的数据集和系统生成的文件。这使得 LAMBDA 能够持久化存储整个对话,包括数据、图形和模型。
2.2.1 概述
LAMBDA 围绕两个核心agent角色构建:“程序员”和“检查员”,分别负责代码生成和评估。当用户提交指令时,程序员agent根据提供的指令和数据集编写代码。然后,该代码在主机系统的内核环境中执行。如果在执行过程中出现任何错误,检查员介入,提供代码改进建议。程序员考虑这些建议,修改代码,并重新提交以进行重新评估。这个迭代循环继续进行,直到代码无错误运行或达到预设的最大尝试次数。为了应对不利情况并增强其可靠性和灵活性,工作流程中集成了人工干预机制。这一功能允许用户在必要时直接修改代码并进行干预。协作算法如算法 1 所示。    
2.2.2 程序员
程序员的主要职责是编写代码并响应用户。在用户上传数据集后,程序员接收一个定制的系统提示,该提示概述了程序员的角色、环境上下文和 I/O 格式。该提示通过示例增强,以促进程序员的少量样本学习。具体而言,系统提示包括用户的工作目录、数据集的存储路径、数据集的维度、每个列的名称、每个列的类型、缺失值信息和统计描述。
程序员的流程可以概括如下:最初,程序员根据用户或检查员的指示编写代码;随后,程序从程序员的输出中提取代码块并在内核中执行它们。最后,程序员根据执行结果生成最终回复,并将其传达给用户。这个最终回复包含了一个总结和下一步的建议。    
2.2.3 检查员与自校正机制
检查员的主要职责是在代码执行出现错误时提供合理的修改建议。检查员的提示包括当前对话轮次中程序员编写的代码以及内核的错误信息。检查员将提供可操作的修订建议给程序员进行代码修正。这个建议提示包含错误代码、内核错误信息以及检查员的建议。这两个agent之间的协作过程会迭代多轮,直到代码成功执行或达到最大尝试次数。这种自校正机制使得程序员和检查员在出错时可以多次尝试。自校正机制的一个案例展示在图15中。论文的实验结果如表~ 2 所示,包含检查员的agent系统显著提高了可靠性。
2.2.4 融合人类智能与AI
图3 : LAMBDA 中的知识匹配。该过程通过计算描述与指令之间的相似度,从知识库中选择代码。
除了利用LLMs的固有知识外,LAMBDA还通过用户提供的外部资源(如定制算法和模型)进一步增强,以整合人类智能。由于通用RAG方法在数据科学场景中面临的挑战,这些挑战源于用户指令与表示空间中代码片段之间可能缺乏明确关联,以及代码片段长度变化的影响。论文设计了一个KV知识库来存储代码资源。
               

 

   
其中,K是知识库,d_i 表示第i 条知识的描述,c_i 表示相应的源代码。
当用户发出指令ins 时,嵌入模型(记为F)会对知识库中的所有描述及ins 进行编码。描述和指令的嵌入张量分别表示为e_d_i 和e_ins。通过计算它们之间的余弦相似度,选取相似度分数大于阈值 且匹配度最高的知识作为知识。
设嵌入函数为F,则e_d_i 和e_ins 的表达式如下:
描述与指令之间的相似度S_i 可通过余弦相似度计算为:
论文设定匹配阈值theta = 0.5。选取满足S_i > theta 且具有最高S_i 的匹配知识k,计算如下:
知识k 将被嵌入到上下文学习(ICL)中,供大型语言模型(LLM)生成答案A。形式上,给定查询q、匹配知识k、一组示例D =(q_1, k_1, a_1), (q_2, k_2, a_2), ..., (q_n, k_n, a_n),以及 LLMM,模型通过M 估计概率并输出使该概率最大的答案A。最终响应A 为P(a | q, k, D),如下:
KV 知识库是一个用于存储用户外部资源的关键值对仓库。具体而言,论文将资源的代码格式化为键值对:键表示资源描述,值表示代码。用户的查询将在知识库中进行匹配,以选择相似度最高的代码。图3 展示了 LAMBDA 中知识匹配的工作流程。         

 

2.2.5 报告生成
LAMBDA 可以根据对话历史生成分析报告。报告通常包括数据处理、数据可视化、模型描述和评估结果。论文提供多种报告模板供用户选择。LAMBDA 通过 ICL 生成所需格式的报告。这一功能使用户能够专注于高价值任务,而不是花费时间和资源在报告撰写和格式化上。图 21 中可以找到一个示例案例。    
总体而言,程序员agent、检查员agent、自校正机制和人在回路为 LAMBDA 提供了理论上的可靠性。知识集成使 LAMBDA 具有可扩展性和灵活性。此外,为了给 LAMBDA 带来可移植性,论文提供了 OpenAI 风格的接口。这意味着大多数 LLM,一旦通过 vLLM和 LLaMAF-Factory 等开源框架部署,就可以与论文的系统兼容。               

2.3 实验与结果
论文首先验证函数调用方法的猜想。此外,论文对提出的 LAMBDA 进行了消融研究,以展示每个agent的影响和性能。最后,为了评估提出的 LAMBDA,论文观察了 LAMBDA 在多个机器学习(ML)数据集上的性能,以及是否需要人类干预。
2.3.1 函数调用方法的挑战
论文通过使用论文预定义的 API 的平均长度,估计了一些开源 LLM 在数据科学场景中能处理的最大 API 数量。图 4 展示了结果。Qwen1.5 和 Mistral-v0.1 专门设计为自然处理长序列,分别能够管理 400 和 372 个 API。然而,通用 LLM 如 LLaMA2、LLaMA3、Mistral-V0.2、Qwenl、ChatGLM2 和 ChatGLM3 只能处理少于 100 个 API,这对于需要更多 API 的应用(如数据科学任务)构成了挑战。
为了研究API数量对LLMs选择这些API准确性的影响,论文制作了一个包含100个数据科学场景中常用API的数据集。通过少样本学习,论文使用Qwen1.5-110B生成了与这些API对齐的880条测试指令。随后,论文将API和测试指令分别按10个功能为间隔进行分割,以进行分析。评估数据集的详细信息如表1所示,结果如图5所示。
表1:评估数据集中API数量及相应指令数
综上所述,函数调用方法存在几个显著缺点。首先,定义大量API的劳动密集型过程效率低下。其次,API的静态特性阻碍了其对多样化和不断变化的用户需求的适应性。第三,大量的API注释可能占据输入序列的很大一部分,可能导致截断风险。最后,随着API数量的增加,模型正确选择的准确性下降,从而引入了响应中潜在的不准确性。    
图4:单个API的平均token长度及每个LLM能处理的最大API数量
   
图5:模型 Qwen1.5 选择的 API 准确性。由于 Qwen1.5 能够处理实验中最大数量的 API,因此被用于实验
API 选择的结果表明,随着 API 数量的增加,模型准确选择 API 的能力显著下降。这一效应在较小的模型中尤为明显。具体而言,Qwen1.5-32b 和 Qwen1.5-7b 的准确率分别从 100% 下降到94.32% 和85.45%。在数据科学场景中,由于包含多种处理方法和组合,API 的数量可能非常庞大。
2.3.2 LAMBDA的消融研究
为了评估LAMBDA中各agent的可靠性和性能,论文基于心脏病数据集设计了一项消融研究。该数据集包含缺失值,自然带来了挑战。论文利用Qwen1.5-110B为相关任务生成指令。经过筛选后,实验中有454条指令。论文分别评估了单一程序员agent和多agent(程序员和检查员)的执行通过率。结果总结在表z中。
表2:单一agent与多agent实验对比。括号内的百分比表示相对于单一agent的提升率。本实验中,程序员和检查员agent均由Qwen1.5-32b实现
结果显示,仅使用程序员agent与加入检查员之间的通过率存在显著差距。程序员agent的通过率为 68.06%,而结合检查员后,通过率提升至 95.37%,较单一agent设置提高了 40.13%。这一实验验证了协作agent在提升 LAMBDA 可靠性和鲁棒性方面的重要作用。通过利用错误建议和修正的互补优势,多agent协作方法不仅提高了代码通过率,还减少了执行复杂数据分析任务时的人工干预频率。
2.3.3 机器学习数据集实验
为了获取在实际数据科学任务中的实践经验和性能,论文在多个 ML 数据集上评估了 LAMBDA,记录了其在这些数据集上的表现,并观察是否需要人工介入。分类任务采用准确率作为评估指标,回归任务则采用均方误差。结果如表3 所示。
•AIDS临床试验组研究175提供了关于AIDS患者的医疗统计和分类数据。该数据集于1996年发布,包含2139个实例和23个特征,主要用于预测患者在特定时间框架内的死亡率。    
• 国家健康与营养健康调查2013-2014年年龄预测子集(NHANES)源自CDC的综合健康与营养调查。该子集包含6287个实例和l个特征,专注于利用生理、生活方式和生化数据预测受访者的年龄组(老年人或非老年人)。
•威斯康星州乳腺癌(诊断)数据集包含569个实例和30个特征,用于将患者分类为恶性或良性。
•葡萄酒数据集包含了对意大利特定地区三种不同品种葡萄酒的化学分析结果。它包括178个实例和13个特征,重点关注葡萄酒中各种成分的含量。
•混凝土抗压强度数据集包含1030个实例和 8个特征,研究混凝土抗压强度、年龄和成分之间的高度非线性关系。
• 联合循环发电厂数据集包含六年间收集的9568个数据点,具有4个特征,用于分析发电厂在满负荷条件下的性能。
•鲍鱼数据集通过物理测量来预测鲍鱼的年龄。该数据集包含4177个样本,每个样本有8个特征
•翼型自噪声数据集旨在预测缩放后的声压,包含1503个实例和5个特征,这些特征源自翼型叶片部分在消声风洞中的空气动力学和声学测试。
表3的结果展示了在执行机器学习任务中的卓越性能。对于分类任务,LAMBDA在AIDS、NHANES、乳腺癌和葡萄酒数据集上分别达到了最高的准确率89.679%、1009%、98.079%和98.899%。对于回归任务,它分别达到了最低的均方误差(MSE)0.2749、0.0315、0.4542和0.2528。这些表现展示了其在使用多种模型处理不同数据科学场景中的全面性。
此外,在这些实验的整个过程中没有人类的参与,这验证了LAMBDA有效地克服了编码障碍,并弥合了数据科学与缺乏编码知识的人类专家之间的差距。总而言之,上述实验结果表明,LAMBDA可以作为一个高效且可靠的数据agent,协助各行各业的人士处理数据科学任务。

2.4 示例
论文提供了三个示例来展示LAMBDA在数据分析中的能力,分别结合了人类智能和教育领域。    
数据分析:论文模拟了用户要求LAMBDA在提供的鸢尾花数据集上执行不同任务的场景,包括数据预处理、数据可视化和模型训练。LAMBDA始终提供准确的响应。更重要的是,LAMBDA进一步根据用户的完整指令生成分析报告。演示视频见 https://www.polyu.edu.hk/ama/cmfai/files/lambda/lambda.mp4
表3:使用LAMBDA在MIL数据集上的实验结果。分类问题通过准确率评估,准确率越高越好。回归问题通过均方误差(MSE)评估,MSE越低越好。所有结果均通过5折交叉验证获得。
             

 

整合人类智能:论文通过使用二次收敛牛顿法计算最近相关矩阵,展示了LAMBDA中的知识整合[31]。首先,论文展示了GPT-4在任务上的局限性,并通过比较突出了LAMBDA的价值。演示视频见https://www.polyu.edu.hk/ama/cmfai/files/lambda/knw.mp4    
互动教育:论文考虑一种教育情境,教师利用LAMBDA设计课程,学生使用LAMBDA完成习题。习题数据集为Abalone。这种教育支持提高了教学和学习的效率。演示视频见https://www.polyu.edu.hk/ama/cmfai/files/lambda/LAMBDA-education.mp4

             

 

             

 

   

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅