免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Skill迎来大一统,浙大阿里腾讯等众多研究机构联合推出SkillNet,拒绝「重复造轮子」

发布日期:2026-03-14 09:08:17 浏览次数: 1576
作者:Hyman的杂货铺

微信搜一搜,关注“Hyman的杂货铺”

推荐语

SkillNet打破AI技能孤岛,20万技能库让Agent告别重复劳动,性能提升40%!

核心内容:
1. 当前AI技能复用困境与SkillNet的解决方案
2. SkillNet三大核心创新:统一框架、五维评估、开源生态
3. 在基准测试中实现执行效率提升30%的实证效果

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

一句话讲清楚👉🏻 浙江大学联合阿里巴巴、腾讯等19个机构提出的SkillNet,构建了超过20万个AI技能的开放基础设施,通过统一的本体论、五维度评估体系和技能关系图谱,让Agent从「重复造轮子」进化到「技能复用」,在三个基准测试中平均奖励提升40%、执行步骤减少30%

为什么需要这项研究?

正如Richard S. Sutton所言:"我们正处于经验的时代。"智能不再是基于从零开始的知识获取,而是依赖于从先前经验中提炼出的启发式规则的高效检索和自适应复用。

然而,当前AI Agent面临一个核心困境:缺乏系统性的技能积累和迁移机制

想象一个程序员——他会将算法的逻辑内化为可复用的思维模式,而不是每次都从头记忆语法。但当代AI系统却恰恰相反:它们在孤立的上下文中"重复造轮子",即使面对相似的任务,也难以复用之前的策略。

这个问题的根源可以追溯到AI发展的历史演进:

符号时代:系统依赖刚性的符号逻辑,虽然可解释但脆弱且难以扩展。

深度学习时代:知识参数化为高维权重矩阵,虽然强大但难以模块化和复用。

Agent时代(当前前沿):我们正在见证向Agent技能的收敛——技能作为简单、可迁移的单元,为Agent提供新能力和专业知识,同时将智能与单体的参数空间分离。

图1:SkillNet整体架构。SkillNet将大规模Agent技能组织成结构化的技能网络,建模丰富的关系(如相似性、组合性和依赖性),支持多维度评估,并提供统一的接口用于技能发现、创建和分析。

当前AI方法存在两个根本性缺陷:

  1. 缺乏统一的技能获取和整合机制:有价值的专业知识广泛存在于开源仓库、学术论文和Agent执行轨迹中,但它们仍然很大程度上是非结构化和孤立的。AI Agent无法自动将这些资源提炼为可复用、可执行的能力。

  2. 缺乏原则性的技能质量验证框架:没有内在和系统的评估,技能仓库容易"污染",可执行性、安全性和鲁棒性只能通过下游任务成功间接评估。这种随机且不透明的验证引入了技术债务,破坏了长期能力增长。


核心贡献

SkillNet通过三大核心贡献解决上述问题:

1. 统一的技能框架

将碎片化的Agent经验转化为结构化的技能网络,支持丰富的关系建模,作为可操作知识工程的可扩展基础。

2. 严谨的技能评估协议

建立了五维度评估体系(安全性、完整性、可执行性、可维护性、成本感知),确保大规模技能仓库的可靠性。

3. 开源生态系统

发布了超过20万个技能、Python工具包和全面的基准测试,实证证明了在Agent规划和执行任务中的显著性能提升。


方法原理

什么是Agent技能?

在Agent系统的语境中,技能是一种轻量级、模块化、可复用的抽象,用于扩展AI Agent的能力。概念上,技能封装了程序性知识、任务特定指令和支持资源,使Agent能够更准确、高效、一致地执行复杂任务。

技能以结构化文件夹的形式组织,包含核心的SKILL.md文件,定义了技能的元数据和详细指令。元数据包括技能名称、用途简述和使用条件,而指令提供分步执行指导。

技能操作的三个步骤:

  1. 发现(Discovery):Agent最初只加载最小元数据(如名称和描述),识别可能与给定任务相关的技能。

  2. 激活(Activation):当任务与技能描述匹配时,Agent从SKILL.md读取完整指令并准备相关资源。

  3. 执行(Execution):Agent遵循指令,可选执行捆绑代码或利用引用资产完成任务。

SkillNet架构

图2:SkillNet端到端流程。SkillNet通过自动技能创建和多维度评估,将异构用户输入和开放互联网资源转化为可执行技能,并将高质量技能组织成结构化网络,支持搜索、下载、分析和贡献。

SkillNet由三个核心模块组成:

技能创建(Skill Creation)

分析多种输入源,包括用户轨迹、办公文档、GitHub项目、自然语言提示和开放互联网资源,提取可执行模式并结构化为可复用能力。

技能评估(Skill Evaluation)

沿多个主要维度过滤和评估生成的技能,包括安全性、完整性、可执行性、可维护性和成本感知,确保只保留高质量技能。

技能分析(Skill Analysis)

自动分析技能间的结构和功能关系,构建大规模技能图谱,捕获相似性、层次结构、组合和依赖模式,支持高效检索、组合和工作流合成。

Skill Ontology:三层技能本体

图3:SkillNet的技能本体。由三层组成:技能分类法(顶部)定义功能类别;技能关系图(中间)建模技能间依赖和语义关联;技能包库(底部)将技能组织成模块化、面向任务的包。

技能分类法(Skill Taxonomy)

使用类别和标签关系将技能组织成多层层次结构。将广泛领域(如Development、AIGC、Science等)细分为精细标签(如frontend、llm、physics),提供高级语义骨架。

技能关系图(Skill Relation Graph)

将抽象标签实例化为具体技能实体(如Matplotlib、Playwright),通过多关系边定义核心交互逻辑:similar_tocompose_withbelong_todepend_on,形成推理和规划的骨干。

技能包库(Skill Package Library)

底层表示技能的物理组织。通过packaged_in关系将技能封装成技能包(如data-science-visualization),便于模块化发布和部署。

五维度技能评估

SkillNet定义了五个核心维度来定量表征每个技能的质量和就绪度:

维度
说明
安全性(Safety)
评估潜在风险,包括危险系统操作和对提示注入或对抗操纵的鲁棒性
完整性(Completeness)
评估技能是否封装了所有关键程序步骤,明确定义必要前提、依赖和执行约束
可执行性(Executability)
验证技能是否可在沙箱环境中成功实现,识别幻觉工具调用或模糊指令
可维护性(Maintainability)
衡量技能的模块化和可组合性,确保可局部更新而不破坏全局依赖
成本感知(Cost-awareness)
量化执行开销,包括时间延迟、计算资源消耗和API使用成本

图4:多维度技能评估与可靠性分析。(a) SkillNet中技能质量分布,使用三级评分方案评估,大多数技能被评为Good或Average。(b) 自动评估器在200个随机抽样技能上的可靠性验证。热力图显示了人类标注者与模型评估器之间的平均绝对误差(MAE)和二次加权kappa(QWK),所有维度均达到近乎完美的QWK和低MAE,证明了评估框架的鲁棒性和可扩展性。

为了实现高通量评估,所有维度主要通过自动LLM评估器(实例化为GPT-5o-mini)进行评估,并由细粒度评分标准指导。对于可执行性,通过在受控沙箱环境中执行技能来补充LLM判断,验证运行时正确性。每个维度分为三个级别:Good、Average、Poor。

可靠性验证:研究团队随机抽样200个技能,招募三名计算机科学博士生进行独立盲审。结果显示,人类判断与LLM评分之间的一致性极高——所有维度的平均绝对误差(MAE)低于0.03,二次加权kappa(QWK)均达到近乎完美水平(1.000)。

技能关系建模

SkillNet将技能分析形式化为结构化关系发现问题,自动识别和标注多种类型的语义和功能关系:

  • similar_to:两个技能执行功能等效或高度相似的任务,可互换使用,支持冗余检测、替换和鲁棒性增强。

  • belong_to:技能作为更大组合工作流中的子组件或原子步骤,捕获层次结构,支持技能抽象和模块化。

  • compose_with:两个技能在工作流中频繁共同调用,一个通常产生另一个消耗的输出,支持自动工作流组合。

  • depend_on:技能无法独立执行,需要前提技能(如环境设置或API初始化),支持显式依赖跟踪和安全执行规划。


实验设置

评估环境

实验在三个文本模拟环境中进行:

ALFWorld:模拟家庭任务的交互式环境,测试Agent在复杂场景中的规划和执行能力。

WebShop:模拟电商购物环境,评估Agent在真实世界场景中的决策和任务完成能力。

ScienceWorld:模拟科学实验环境,测试Agent的推理和实验设计能力。

评估指标

  • 平均奖励(R↑):任务完成获得的奖励,越高越好
  • 平均步骤(S↓):完成任务所需的交互步骤,越少越好

对比方法

  • React:基础ReAct框架
  • Expel:经验学习增强方法
  • +SkillNet:集成SkillNet的方法

骨干模型


实验结果

图5:不同方法和模型的性能比较。结果表明,SkillNet在ALFWorld、WebShop和ScienceWorld上一致优于React和Few-shot基线,实现显著更高的平均奖励(上)和减少的平均步骤(下)。

主要发现

1. 性能显著提升

在所有三个基准测试中,集成SkillNet的方法都实现了显著性能提升:

模型
ALFWorld (Seen)
ALFWorld (Unseen)
WebShop (Seen)
WebShop (Unseen)
ScienceWorld
DeepSeek V3.2 + SkillNet
80.60 83.57 46.18 84.87 81.31
Gemini 2.5 Pro + SkillNet
91.43 91.04 53.02 88.84 86.26

2. 效率大幅提高

SkillNet不仅提高了成功率,还大幅减少了完成任务所需的步骤:

  • DeepSeek V3.2:步骤从19步减少到14步
  • Gemini 2.5 Pro:步骤从19步减少到12步

3. 跨模型泛化能力

SkillNet在三种不同架构的模型上都展现出稳定的性能提升,证明了其跨模型泛化能力。

4. 零样本迁移能力

在Unseen场景中,SkillNet同样展现出强大的性能,表明其支持的技能具有良好的迁移性。


应用场景

图6:SkillNet应用场景示例。框架将用户任务分解为可操作步骤(上),展示了科学研究和编程场景的代表性技能获取和多维度评估(下)。

SkillNet支持多种应用场景:

科学研究自动化

支持文献调研、实验设计、数据分析等科研工作流的自动化,帮助研究人员提高效率。

软件开发

支持代码生成、测试自动化、文档编写等软件开发任务,加速开发流程。

数据处理流水线

支持数据清洗、转换、可视化等数据处理任务的自动化,提升数据工程效率。

Web自动化

支持网页交互、数据采集、表单填写等Web自动化任务,减少重复劳动。


开源资源

SkillNet提供了完整的开源生态系统:

图7:skillnet-ai工具包使用示例。该工具包通过命令行界面(左)和Python库(右)提供统一的功能体验。

Python工具包安装

pip install skillnet-ai

主要功能

  • 搜索技能:关键词搜索和语义搜索
  • 下载技能:一键下载并安装技能
  • 创建技能:从多种数据源自动生成技能
  • 评估技能:五维度自动化评估
  • 分析技能:技能关系图谱分析

📦 开源资源汇总

资源
链接
📄 论文
https://arxiv.org/abs/2603.04448
💻 GitHub
https://github.com/zjunlp/SkillNet
🌐 官网
http://skillnet.openkg.cn
📦 PyPI包
https://pypi.org/project/skillnet-ai/
🔌 API文档
http://api-skillnet.openkg.cn/v1/search

⭐️关注我,实时跟进AI最新进展⭐️

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询