2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AI Agent成熟度评估的参考分类方法

发布日期:2024-07-11 13:05:21 浏览次数: 5009
作者:数据技术和数字化转型

微信搜一搜,关注“数据技术和数字化转型”

如今生成式人工智能落地如火如荼,Agent(智能体)产品和应用成为业界首选方式之一,如何评价Agent的成熟度或智能能力级别也成为甲乙双方共同关注的问题。

作为参考,本文摘要了几种不同的人工智能分级方法,涵盖了从谷歌 DeepMind、清华大学智能技术系统实验室、RASA 人工智能助手、商汤 AI 数字人以及北京交通大学/中国科学院大学等五家机构的分类方法,欢迎行业同仁就这一课题开展交流。

省流版(summarized with AI tools, please double check if you want to show this to your boss)


机构

级别

定义

谷歌 DeepMind

L0

非 AI

L1

初级(有涌现能力)

L2

中级(能力娴熟)

L3

专家(专家能力)

L4

大师

L5

超人

清华大学

智能技术

系统实验室

L0

实际对话由人给出,系统完全没有自动对话能力

L1

能完成单一场景的较高质量对话

L2

能完成多个场景的较高质量对话,处理跨场景上下文依赖

L3

能在大量场景中开展高质量对话

L4

在多轮交互中拟人化程度较高

L5

在开放场景中主动学习和持续学习,具有多模态感知和表达能力

RASA 

人工智能助手

L1

通知助手

L2

FAQ 助手

L3

上下文助手

L4

个性化助手

L5

自动化组织机构里的人工智能助手

商汤 AI 

数字人

L1

主要以人工制作为主

L2

依靠动捕设备采集表情、肢体等动作

L3

依靠算法驱动口型、表情和动作

L4

实现部分智能化交互,在垂直领域创新服务模式

L5

实现完全智能化交互,打造真正的个性化虚拟助手

北京交通大学/中国科学院

L0

信息输入或输出有缺陷

L1

不能与人类进行信息交互的系统

L2

出厂后控制程序无法更新的系统

L3

可以更新升级但不能与其他系统通过云端交互

L4

能通过云端进行信息共享但不能自主创新

L5

能够自主创新并通过多种方式进行信息交互


---------------------


完整版

谷歌DeepMind六级分类   

基于能力深度(性能)和广度(通用性)将AGI分类为:

  • L0:非AI
  • L1:初级(有涌现能力)
  • L2:中级(能力娴熟)
  • L3:专家(专家能力)
  • L4:大师
  • L5:超人    

在这个技术之上,作者提出了6种人机互动级别:

  • 无AI
  • AI工具
  • AI顾问
  • AI协作者
  • AI专家
  • AI智能体    

清华大学智能技术系统实验室六级分类  

按照场景、对话轮次、信息量、拟人化等标准,划分为L0-L5六个等级    

  • L0:实际对话由人给出,系统完全没有自动对话能力;或者在任意单一场景中,系统均无法给出较高质量的对话。

  • L1:能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖。

  • L2:在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。

  • L3:在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。

  • L4:在L3的基础上,在新场景上具有高质量兑换能力,在多轮交互中拟人化(指人设、人格、情感、观点等多维度的一致性)程度较高。

  • L5:在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知和表达能力。


评判维度

  • 高质量:相关性、信息量、自然度分数达到8-10分(满分10分)较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)低质量:相关性、信息量、自然度分数小于6分(满分10分)

  • l相关性:指回复与上文的适配度信息量:指回复是否提供足够必要的信息,而非通用回复自然度:是指与人类回复相比的自然度,包含语法是否通顺、是否包含常识错误等

  • 测试方式:通过一定数量的测试者与对话系统进行充分的对话交互,在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从三个维度进行主观的总评分


RASA人工智能助手五级分类  

RASA是一家Chatbot技术产品公司

按照与人交互的范围、深度和群体广度划分    

  • L1:通知助手——这就是我们最熟悉的,在手机上的简单通知。但它们只能显示在类似WhatsApp这样的消息应用中。

  • L2:FAQ(常见问题)助手——这是目前最常见的助手类型,它能让用户提出一个简单的问题并回复。这比带有搜索栏的FAQ解答页略有改进。唯一的区别是助手有时能通过一到两个后续问题得到加强。

  • L3:上下文助手——正如大多数机器人开发人员说的那样,为用户提供一个问题输入框很少会只得到一个简单的问题和返回一个答案。这就是为什么上下文(即用户之前说过什么,何时/何地/如何说的等)很重要。考虑上下文也意味着人工智能能够理解和响应不同的和未想到的输入。

  • L4:个性化助手——正如我们人类期望随着时间的推移别人能更了解自己一样,这个级别的人工智能助手将会开始做同样的事情。例如,人工智能助手将了解何时应该进行沟通,并根据此上下文主动沟通。它会记住用户的偏好并为用户提供完全个性化的界面。

  • L5:自动化组织机构里的人工智能助手——最终,将有一组人工智能助手,它们了解每个客户,并最终完成公司的大部分运营:从市场、销售、人力资源到财务等。这是一个需要多年才能实现的重大飞跃,但这是我们认为的将会成为现实的愿景。 

  

商汤AI数字人五级分类  

按数字人交互实现方法和程度划分

  • L1级:主要以人工制作为主;
  • L2级:依靠动捕设备采集表情、肢体等动作,例如电影动画制作;
  • L3级:可依靠算法驱动口型、表情和动作,例如虚拟化身实时互动;
  • L4级:实现部分智能化交互,在垂直领域创新服务模式;
  • L5级:实现完全智能化交互,打造真正的个性化虚拟助手

北京交通大学/中国科学院大学人工智能系统六级分类    

从信息获取方式和信息、知识产生方式的角度划分

L0: 人工智能系统的第0级系统

可以信息输入,但不能信息输出,或者可以信息输出,但不能信息输入,或者可以创新创造,但知识库不能增长,这些在现实中不能找得对应系统范例的案例,我们将其统一划归到“人工智能系统的第0级系统”,也可以叫“人工智能系统的特异类系统”

L1: 人工智能系统的第1级系统

从“标准智能模型”延伸的第一套规则“能不能和测试者(人类)进行信息交互”看,因为石头不能与人类进行信息交互,也许它内部有知识库,能够创新知识,或者能够与其他石头进行信息交互,但对人类测试者是黑箱,不能了解。

因此不能与测试者(人类)进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”

L2: 人工智能系统的第2级系统

如智能冰箱,智能电视,智能微波炉,智能扫地机...虽然它们内部有或多或少的控制程序信息,但一旦出厂后,就无法再更新他们的控制程序,不能进行升级,更不会自动的学习或产生新的知识...这种系统能够与人类测试者使用者进行信息交互,但它的控制程序或知识库从诞生时就不再发生变化。这种系统,我们可以定义为“人工智能系统的第2级系统”、

L3: 人工智能系统的第3级系统

如家用电脑其内部的应用程序也可以根据不同需要不断更新升级,这种系统能够与人类测试者使用者进行信息交互,但这类系统不能与其他系统通过“云端”进行信息交互,控制程序或知识库只能接受usb,光盘等外接设备进行程序或信息升级,这种系统,我们可以定义为“人工智能系统的第3级系统”

L4: 人工智能系统的第4级系统

如互联网的B/S架构可以通过云端进行信息共享,这样的智能系统就具备了更为强大的智力能力,如谷歌大脑,百度大脑,RoboEarth云机器人项目等,这种系统能够与人类测试者使用者进行信息交互,可以通过“云端”进行信息交互,进行程序或信息升级,但这类系统所有的信息都是直接从外部获得,其内部无法自主的,创新创造的产生新的知识,这种系统,我们可以定义为“人工智能系统的第4级系统”    

L5: 人工智能系统的第5级系统

如人类可以看作是大自然构建的特殊“人工智能系统”...可以不断的创新创造并能够识别创新创造对只身的用处,这种系统能够与人类测试者使用者进行信息交互,可以创新创造的产生新的知识,并可以通过文章,信件,电报,甚至互联网这样的“云端”进行信息交互,这种系统,我们可以定义为“人工智能系统的第5级系统”    



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅