2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

复旦大学AI³徐盈辉研究员:Agent的可视化创作界面 | Agent Insights

发布日期:2024-06-14 04:45:31 浏览次数: 2746
作者:緑洲资本 Vitalbridge

微信搜一搜,关注“緑洲资本 Vitalbridge”

传统 LLM-based AI Agent 运维平台在复杂应用开发方面存在一定局限,复旦大学人工智能创新与产业研究院(AI³)徐盈辉研究员与 AI2Apps 团队打造的 AI2Apps 可视化集成开发环境集成了工程级的开发工具,覆盖 AI Agent 完整开发周期,具有完全开放的扩展性,并自带浏览器沙盒环境,借鉴 Figma 的理念,支持开发者向协作者实时共享创作进度实现协作开发,帮助开发者一站式高效构建 AI Agent 应用,减少创作过程中的“拘束”。Enjoy。

《AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications》

AI2Apps 系统架构

解决问题:传统 LLM-based AI Agent 运维平台在大幅降低用户开发门槛的同时,往往难以兼顾对专业开发者的需求,从而制约了设计、编码、调试的灵活性,不利于发展更复杂的 AI Agent。AI2Apps 作为首个面向 LLM-based AI Agent 应用的可视化集成开发环境(Virtual IDE),覆盖了从原型设计、代码编写、Agent 调试以及最终打包发布的完整开发周期,帮助开发者高效地构建 AI Agent

模型框架:AI2Apps 框架包括 1. 原型画布 2. 代码编辑器 3. Agent 调试器 4. 发布工具 5. 插件扩展系统 6. 基于自研浏览器操作系统(Tab-OS)构建的管理系统
使用效果AI2Apps 集成了工程级开发工具,以及覆盖前后端全栈式可视化组件,使得开发者能够通过组件拖拽与代码编程并行方式在一套“画布”GUI 上进行一站式 Agent 应用构建,开发效率大大提升。在团队协作方面,AI2Apps 借鉴了知名协作设计工具 Figma 的理念,支持开发者通过二维码链接向协作者实时共享其创作进度,并通过内置的版本控制功能实现协作开发。在部署方面,AI2Apps 具备 Web-IDE 特性,部署后打开浏览器即可使用,并自带沙盒环境,将每个 Agent 项目低消耗地安全隔离在独立的浏览器 Tab 页面,无需在端侧配置 Docker 等容器环境
应用空间任何领域任何类型的 LLM-based AI Agent 开发,就像 VScode 等开源通用 IDE 一样,AI2Apps 具有完全开放的扩展性,开发者可以将外部代码封装成微服务形式,插入 AI2Apps 作为新的可视化组件使用。AI2Apps 既可以单独作为 Web-IDE 使用,也便于被集成进大语言模型运维平台

AI2Apps 开发工具集成度/组件可视化程度

绿洲:您认为 Agent 与大家讨论的 AGI 底层关系是什么?
徐老师:目前已经进入后大语言模型时代,除了 OpenAI,其他人很难显著拉开底层基模的差距。Agent 设立过程包括规划(Planning)、模型选择(Model Selection)和执行(Execution),其体系最有效的方式是“搭积木”一样快速做一个任务。目前“搭积木”还得靠人,例如 AI2Apps 也需要人进行编排,无限光年会考虑将 AI2Apps 的技术理念融入光语启智大模型研发平台,为业界提供高效灵活的大模型智能体构筑能力。
目前 Agent 一方面可用于开发系统应用,另一方面它可以做指令微调(IFT)的数据处理工具,过去收集数据完全靠人工,难度不小。OpenAI 有比较大的流量,十几亿人在用,可以通过用户 QA 形式完成,QA 过程中会微调一些工具。人使用大模型的过程就是一个 Agent,使用过程中产生的大量数据,用于大语言模型微调,使得大模型持续生产能力强化,模型自然学会更多指令,并精准执行。未来 Agent 能够自动整理并收集大模型的用户数据,随着这样的数据越来越多,基模通过超级对齐利用 Agent 能力进行微调逐渐变成可能。
AGI 是什么意思?一言而概之,即通过人工智能让机器像人一样思考。每个人能力都不一样,老司机可以一把到位,欠缺经验的需要绕一绕,好的智能化大模型应该去适配不同的平台工作风格。但总体来说我认为 Agent 是没到 AGI 终局的中间过渡态,换句话说就是软件 1.0 到软件 2.0 的过渡。单靠 LLM 无法胜任人类复杂的任务体系,很多行业的数据需要在系统应用过程中沉淀出来,再教模型如何做事。这是一个过程,在实现 AGI 之前,Agent 就是最佳解决方案。
至于 AGI 何时会实现?我的理解是,日常生产生活中,办公室里至少有一半“员工”是硅基生物,就差不多实现 AGI 了(笑)。
绿洲:虽然每个人心中有不同的 AGI,但最终 AGI 实现后,可能大家就不再需要 Agent 了,类似于过去软件替代自动化的逻辑,这样理解对么?
徐老师:对,我们有很多客户和身边的人表示很需要非结构化数据的结构化,比如金融领域,其数据的结构化处理非常难,各种证券银行都需要通过爬虫、采买进行数据结构化处理形成有价值的研究,万得做的就是这个业务。医疗领域也一样,需要收集大量数据汇总,其中的问题是原来这种系统里对结构化要求很强的数据,必然会导致业务系统仅在结构化表面建立,例如辅助智能问诊,生动化系统,这些都是人思考之后流程化、界面化互动变成的模块,背后有一堆规则,然而过程中产生的交互数据会天然成为从软件 1.0 到软件 2.0 所必须的基层数据。我认为今后不再需要软件 1.0,会利用所有交互数据输入大模型,自然地把软硬件替代掉,这就是 Agent 在做的事情。
Agent 的流程是用户输入指令,后端调用大语言模型,期间可能会调用 RAG,出完结果以后将多轮对话存储到记忆,这期间我们可以将 AI2Apps 的 A Agent 与 B Agent 记忆连接,构建两个人对话的环境。例如 A 模拟医生,B 模拟患者,模拟医患之间对话进行问诊训练,医生利用就医指南微调,患者利用个人家族史、病史等数据微调,这种对话环境已经能够很好地映射现实世界应用了。
另外在这种对话环境中我们会生成合成数据,Agent 天然就是很好的合成数据产生集,数据越多,就可以搭建更好的应用。为 Agent 注入思考,将 Agent 行为流程化,这背后的价值很大。
绿洲:您一直提到用户数据的重要性,在处理用户数据进行微调的时候您的团队有没有特别的处理方式?
徐老师:和做预训练数据一样,我们要根据反馈去看数据到底要不要纳入最终学习体系,我们希望找到整个人类社会解决问题的方法。就像我们要找到通往罗马的道路,“找到道路”是最终反馈,但“何时找到”是反馈中间的偏好和信号,因此我们要建立反馈中优先选项的信号,然后帮助用户筛选所有可能的产品。
整个人类社会不是整齐划一,按照一个范式去执行任务,认知程度也参差不齐,因此要建立数据处理的引擎,对所有数据进行统一管理,才能让这些数据有生命力,反向提升 Agent 的能力。
绿洲:Agent 能不能只学最佳案例(Best Practice)?
徐老师:拿经济来类比,最大的问题是资源分配,一个人的知识就是他的资源,你无法让所有人都受最好的教育,得到最好的资源,因为资源是有限的。硅基时代资源稀缺性也一样,你无法让所有人都获得 H800 或 A800,最终 Agent 的知识水平以及能力也是有边界的。
筑聪:我自己的博士课题做科学智能体,AGI 是我们最高级别的目标。我们时常在思考 AGI 最高的目标是不是拓宽人类的边界,如果是,应该去做科研探索。但每个人做科研的方式不同,大家只能通过试错才能从不同角度拓宽人类边界。这个过程中使用的数据,都是个人的 Know-How,我们无法让所有人齐头并进学习最佳案例再去做科研。
当然从数据收集的角度来看,假如我们将科学 Agent 部署好,它会源源不断收集任务,让人类科学家去和 Agent 交互,这个过程也可以搜集到大量人类思考和数据,利用这些数据调出很多的 Agent。这时只有简单问题存在最佳案例,难或复杂的问题很难存在公认的最佳案例,还是需要在不断的数据收集、调优之后才能评估。也就是说复杂情况下很难利用最佳案例进行部署。
现在每个人无形之中已经从碳基进入硅基了,过去有个概念是 Machine-in-the-human-loop(机器在人的循环),现在已经逐渐变为 Human-in-the-machine-loop(人在机器的循环)。传统产线从 20 个工人减少到 2 个工人,只有机器出问题的时候人类才会干预。未来人有人的优势,机器有机器的优势。机器不会像人一样有情绪,而工厂的规范可能完全变革为规范机器的工作效率,与现在规范人的行为是完全不同的。
筑聪:刚才徐老师也提到了 AI 员工的概念,以后 SaaS 会由 AI 员工直接操纵,AI2Apps 的目标是冲着 AI 员工去的,AI 员工又是冲着全 AI 驱动的公司实体去的。之前 Sam Altman 的采访提到,未来的公司只需要人做销售和当法人,剩下的可以由 AI 员工担任。
未来在科研场景有科研助理 Agent,公司场景会存在财务 Agent、产品经理 Agent、程序员 Agent 等,且可以无限复制,AI 员工占比越来越大。Agent 从交互中汲取的知识形成新的 Agent 内容,这种工作方式是很值得期待的。底层基础决定上层建筑,为了实现未来像 AI 员工等更复杂的应用,社区需要更强大的开发环境,因此有了 AI2Apps。谈到社区,我们团队希望 AI2Apps 能够像 Figma(著名的界面设计工具,可用于网站设计等用途,Adobe 曾试图花费 200 亿美元收购 Figma)一样,开发者可以随时向协作者展示开发进度,从而根据建议调整方案。
团队在 AI2Apps 上还倾注了对 Agent 开发的两个思考。第一,目前 Agent 与人的主流交互方式仍只是对话,但自然语言不会是唯一的方式,也往往不是在真实场景下最有效的方式。因此 AI2Apps 还引入了菜单、按钮等十几种前端交互组件。第二,Docker(应用容器引擎)是否一定是跑 Agent 应用最佳的容器?因为 Agent 太“轻”而 Docker 又太“重”了,Docker 可能更适合服务器跑大模型而不是在端侧跑 Agent,因此我们团队探索了一种使用浏览器作为沙盒的方式,把每个 Tab 页面作为 Agent 的容器。
绿洲:两位老师如何看待今年多模态能力提升对 Agent 功能带来的变化?
徐老师:Sora 和文生图等其他相关的基础模型,最终都会成为开发者搭建任务链条里面的一个 MLOps(机器学习运维实践)。和系统对话的时候,需要 Agent 拥有对应文字、语言、图像等多模态的能力进行协同。当前从 Sora 披露的技术细节来看,底层应该利用了大量信息图像符号化(Tokenization)的技术路径,后面会加上生成视频和图像的超分来实现,换句话说无论是语言、图像还是声音,最后都嵌入到仅有解码器(Decoder-Only)的架构里,都是离散的。
当前大家的观点各异,有一派认为连续建模效果更好,我个人更倾向于离散建模,因为离散建模的文本态跟多模态的优化目标是一样的,这样长序列的生成就不会有问题。但一旦用来连续建模想做长序列内容生成的统一成本是很高的。目前国内还没有一家能够做到,离散建模对于算力的要求非常高,对于数据的贪婪程度远大于连续建模。我们很重视多模态为 Agent 能力带来的多样数据处理能力,同时也很关注离散建模方式的发展。
绿洲:AI2Apps 中设计各个功能模组、可扩展模块、用户交互等的可视化效果的原因是什么?

筑聪:因为 Prompt Engineering 不够可控的缘故,真正能落地的复杂 Agent 应用的开发变得很繁琐,尽可能追求更全面的可视化是降低其开发难度的好办法。可视化能让开发者从高维俯瞰整个项目,不断减少创作过程中的“拘束”。

AI2Apps 设计的可视化“画布”界面
绿洲:您认为 AI2Apps 比较适用于哪些行业?
筑聪:AI2Apps 适用于任意类型的 Agent 开发,这要看什么行业会有旺盛 Agent 的开发需求。我相信 Agent 的浪潮会逐步把如今所有的软件产品重做一遍。
绿洲:徐老师,之前您认为历史上只有搜索引擎做到了“技术及商业”,大模型和 Agent 时代,您觉得什么可以达到成为您心目中大模型时代新的技术及商业结合点?
徐老师:我觉得现在已经有端倪了,未来通过 Google 找信息的时代仍然存在,但相当一部分信息获取将通过 Chatbot 实现。Chatbot 目前最大的问题是偏知识型,专业性解答的问题,会衍生出很多垂类信息引擎,例如围绕医疗、娱乐分成大类。医疗可能是一个大的知识引擎,这个知识引擎未来的商业模式会发生改变,可能是商业融入到信息流里,例如个性化保健品推荐,符合个人饮食习惯的当地餐厅推荐……大模型生成的信息流里会嵌入合理的商业价值内容,和搜索时代商业与搜索引擎结合为一体的发展历程相似。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅