AI Agent成熟度评估的参考分类方法

发布日期：2024-07-11 13:05:21 浏览次数： 5009

作者：数据技术和数字化转型

微信搜一搜，关注“数据技术和数字化转型”

如今生成式人工智能落地如火如荼，Agent（智能体）产品和应用成为业界首选方式之一，如何评价Agent的成熟度或智能能力级别也成为甲乙双方共同关注的问题。

作为参考，本文摘要了几种不同的人工智能分级方法，涵盖了从谷歌 DeepMind、清华大学智能技术系统实验室、RASA 人工智能助手、商汤 AI 数字人以及北京交通大学/中国科学院大学等五家机构的分类方法，欢迎行业同仁就这一课题开展交流。

省流版（summarized with AI tools, please double check if you want to show this to your boss）

机构	级别	定义
谷歌 DeepMind	L0	非 AI
	L1	初级（有涌现能力）
	L2	中级（能力娴熟）
	L3	专家（专家能力）
	L4	大师
	L5	超人
清华大学智能技术系统实验室	L0	实际对话由人给出，系统完全没有自动对话能力
	L1	能完成单一场景的较高质量对话
	L2	能完成多个场景的较高质量对话，处理跨场景上下文依赖
	L3	能在大量场景中开展高质量对话
	L4	在多轮交互中拟人化程度较高
	L5	在开放场景中主动学习和持续学习，具有多模态感知和表达能力
RASA 人工智能助手	L1	通知助手
	L2	FAQ 助手
	L3	上下文助手
	L4	个性化助手
	L5	自动化组织机构里的人工智能助手
商汤 AI 数字人	L1	主要以人工制作为主
	L2	依靠动捕设备采集表情、肢体等动作
	L3	依靠算法驱动口型、表情和动作
	L4	实现部分智能化交互，在垂直领域创新服务模式
	L5	实现完全智能化交互，打造真正的个性化虚拟助手
北京交通大学/中国科学院	L0	信息输入或输出有缺陷
	L1	不能与人类进行信息交互的系统
	L2	出厂后控制程序无法更新的系统
	L3	可以更新升级但不能与其他系统通过云端交互
	L4	能通过云端进行信息共享但不能自主创新
	L5	能够自主创新并通过多种方式进行信息交互

---------------------

完整版

谷歌DeepMind六级分类

基于能力深度（性能）和广度（通用性）将AGI分类为：

L0：非AI
L1：初级（有涌现能力）
L2：中级（能力娴熟）
L3：专家（专家能力）
L4：大师
L5：超人

在这个技术之上，作者提出了6种人机互动级别：

无AI
AI工具
AI顾问
AI协作者
AI专家
AI智能体

清华大学智能技术系统实验室六级分类

按照场景、对话轮次、信息量、拟人化等标准，划分为L0-L5六个等级

L0：实际对话由人给出，系统完全没有自动对话能力；或者在任意单一场景中，系统均无法给出较高质量的对话。
L1：能完成单一场景的较高质量对话；或虽能完成多个单一场景的较高质量对话，但无法处理场景之间的上下文依赖。
L2：在L1的基础上，能同时完成多个场景的较高质量对话，具有处理跨场景的上下文依赖和自然切换能力，无法完成新场景较高质量的对话。
L3：在L2的基础上，能针对大量场景开展高质量对话，在新场景上具有较高质量对话能力。
L4：在L3的基础上，在新场景上具有高质量兑换能力，在多轮交互中拟人化（指人设、人格、情感、观点等多维度的一致性）程度较高。
L5：在L4的基础上，在多轮交互中拟人化程度高，能在开放场景交互中主动学习和持续学习，具有多模态感知和表达能力。

评判维度

高质量:相关性、信息量、自然度分数达到8-10分(满分10分)较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)低质量:相关性、信息量、自然度分数小于6分(满分10分)
l相关性:指回复与上文的适配度信息量:指回复是否提供足够必要的信息,而非通用回复自然度:是指与人类回复相比的自然度，包含语法是否通顺、是否包含常识错误等
测试方式:通过一定数量的测试者与对话系统进行充分的对话交互，在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式，最后由测试者从三个维度进行主观的总评分

RASA人工智能助手五级分类

RASA是一家Chatbot技术产品公司

按照与人交互的范围、深度和群体广度划分

L1：通知助手——这就是我们最熟悉的，在手机上的简单通知。但它们只能显示在类似WhatsApp这样的消息应用中。
L2：FAQ（常见问题）助手——这是目前最常见的助手类型，它能让用户提出一个简单的问题并回复。这比带有搜索栏的FAQ解答页略有改进。唯一的区别是助手有时能通过一到两个后续问题得到加强。
L3：上下文助手——正如大多数机器人开发人员说的那样，为用户提供一个问题输入框很少会只得到一个简单的问题和返回一个答案。这就是为什么上下文（即用户之前说过什么，何时/何地/如何说的等）很重要。考虑上下文也意味着人工智能能够理解和响应不同的和未想到的输入。
L4：个性化助手——正如我们人类期望随着时间的推移别人能更了解自己一样，这个级别的人工智能助手将会开始做同样的事情。例如，人工智能助手将了解何时应该进行沟通，并根据此上下文主动沟通。它会记住用户的偏好并为用户提供完全个性化的界面。
L5：自动化组织机构里的人工智能助手——最终，将有一组人工智能助手，它们了解每个客户，并最终完成公司的大部分运营：从市场、销售、人力资源到财务等。这是一个需要多年才能实现的重大飞跃，但这是我们认为的将会成为现实的愿景。

商汤AI数字人五级分类

按数字人交互实现方法和程度划分

L1级：主要以人工制作为主；
L2级：依靠动捕设备采集表情、肢体等动作，例如电影动画制作；
L3级：可依靠算法驱动口型、表情和动作，例如虚拟化身实时互动；
L4级：实现部分智能化交互，在垂直领域创新服务模式；
L5级：实现完全智能化交互，打造真正的个性化虚拟助手

北京交通大学/中国科学院大学人工智能系统六级分类

从信息获取方式和信息、知识产生方式的角度划分

L0: 人工智能系统的第0级系统

可以信息输入，但不能信息输出，或者可以信息输出，但不能信息输入，或者可以创新创造，但知识库不能增长，这些在现实中不能找得对应系统范例的案例，我们将其统一划归到“人工智能系统的第0级系统”，也可以叫“人工智能系统的特异类系统”。

L1: 人工智能系统的第1级系统

从“标准智能模型”延伸的第一套规则“能不能和测试者（人类）进行信息交互”看，因为石头不能与人类进行信息交互，也许它内部有知识库，能够创新知识，或者能够与其他石头进行信息交互，但对人类测试者是黑箱，不能了解。

因此不能与测试者（人类）进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”。

L2: 人工智能系统的第2级系统

如智能冰箱，智能电视，智能微波炉，智能扫地机...虽然它们内部有或多或少的控制程序信息，但一旦出厂后，就无法再更新他们的控制程序，不能进行升级，更不会自动的学习或产生新的知识...这种系统能够与人类测试者使用者进行信息交互，但它的控制程序或知识库从诞生时就不再发生变化。这种系统，我们可以定义为“人工智能系统的第2级系统”、

L3: 人工智能系统的第3级系统

如家用电脑其内部的应用程序也可以根据不同需要不断更新升级，这种系统能够与人类测试者使用者进行信息交互，但这类系统不能与其他系统通过“云端”进行信息交互，控制程序或知识库只能接受usb，光盘等外接设备进行程序或信息升级，这种系统，我们可以定义为“人工智能系统的第3级系统”。

L4: 人工智能系统的第4级系统

如互联网的B/S架构可以通过云端进行信息共享，这样的智能系统就具备了更为强大的智力能力，如谷歌大脑，百度大脑，RoboEarth云机器人项目等，这种系统能够与人类测试者使用者进行信息交互，可以通过“云端”进行信息交互，进行程序或信息升级，但这类系统所有的信息都是直接从外部获得，其内部无法自主的，创新创造的产生新的知识，这种系统，我们可以定义为“人工智能系统的第4级系统”。

L5: 人工智能系统的第5级系统

如人类可以看作是大自然构建的特殊“人工智能系统”...可以不断的创新创造并能够识别创新创造对只身的用处，这种系统能够与人类测试者使用者进行信息交互，可以创新创造的产生新的知识，并可以通过文章，信件，电报，甚至互联网这样的“云端”进行信息交互，这种系统，我们可以定义为“人工智能系统的第5级系统”。