2026年4月23日 周四晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

借助 Gemma 4,将业界领先的 Agent Skills 引入端侧

发布日期:2026-04-20 18:47:06 浏览次数: 1528
作者:谷歌开发者

微信搜一搜,关注“谷歌开发者”

推荐语

Gemma 4 带来端侧 AI 革命,让智能体能力直接运行在本地设备上,无需云端依赖。

核心内容:
1. Gemma 4 的核心功能与多模态处理能力
2. 通过 AICore 和 AI Edge 快速开发端侧应用
3. Agent Skills 实现的多步自主工作流案例

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

作者 / Google AI Edge 团队


前不久,Google DeepMind 推出了 Gemma 4,这是一系列业界领先的开放模型,重塑了端侧 AI 的可能性。Gemma 4 已通过 Apache 2.0 许可发布,为开发者提供了强大的端侧 AI 开发工具包。借助 Gemma 4,您将不再局限于简单的聊天机器人,而是可以构建直接在本地设备上运行的智能体和自主 AI 应用场景。Gemma 4 支持多步规划、自主行动、离线代码生成,甚至音视频处理,且无需专门的微调。同时,该模型原生支持 140 多种语言,旨在服务全球开发者与用户。

△ Gemma 4 具备卓越的视觉处理能力,并原生支持 140 多种语言


我们很高兴地宣布,Gemma 4 强大的端侧能力现已正式开放体验!您可以通过全新的 AICore 开发者预览版访问 Android 内置的 Gemma 4 模型,或借助 Google AI Edge 在移动端、桌面端和边缘设备上构建具有智能体能力的应用内体验。在本篇文章中,我们将向您展示如何通过 Google AI Edge Gallery 和 LiteRT-LM 快速上手 Google AI Edge。


  • AICore 开发者预览版

    https://developers.google.com/ml-kit/genai/aicore-dev-preview

  • Google AI Edge

    https://ai.google.dev/edge

  • Google AI Edge Gallery

    https://github.com/google-ai-edge/gallery

  • LiteRT-LM

    https://ai.google.dev/edge/litert-lm/overview



在 Google AI Edge Gallery 中探索 Gemma 4 的 Agent Skills


Google AI Edge Gallery 已在 iOS 和 Android 上线,让您可以构建并测试完全在端侧运行的 AI 体验。我们非常高兴地宣布推出 "Agent Skills",这是首批完全在端侧运行多步自主智能体工作流的应用之一。在 Gemma 4 的驱动下,Agent Skills 可以: 

  • 扩充知识库Gemma 4 可以通过调用各种 "Skills",访问其初始训练数据之外的信息,从而实现智能体增强型体验。例如,您可以构建一个查询维基百科的技能,让智能体能够查询并解答各类百科常识。

△ 检索维基百科或其他知识库


  • 生成丰富的交互式内容将段落或视频转化为用于学习的精简摘要或学习闪卡,或将数据转化为交互式的可视化视图或图表。例如,您可以创建一个 Skill,根据用户的语音输入,自动总结并展示每日睡眠时长和情绪趋势。

△ 生成图标、学习闪卡及其他可视化视图


  • 拓展 Gemma 4 的核心能力: 将 Gemma 4 与其他模型 (如文本转语音、图像生成或音乐合成模型) 进行集成。例如,您可以利用 Skills,为照片配上与氛围完美契合的音乐。

△ 与其他模型集成,以合成音乐和理解图像


  • 打造全面的端到端体验: 用户无需在多个应用之间切换,只需通过与 Gemma 4 对话,即可管理复杂的工作流并构建自己的应用。为了直观展示这一能力,我们构建了一个可以描述并播放动物叫声的可运行应用。

△ 构建多步工作流和端到端体验


  • iOS

    https://apps.apple.com/us/app/google-ai-edge-gallery/id6749645337

  • Android

    https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&hl=en_US


想要亲身体验 Gemma 4 E2B 和 E4B 模型的实际表现,请立即探索 Google AI Edge Gallery 应用。在应用内,借助我们提供的指南,您可以轻松地开始实验并创建您的专属 Skills。我们迫不及待地想看到您构建的作品,欢迎在 GitHub Discussion 中分享您的 Skills!


  • Google AI Edge Gallery 应用

    https://github.com/google-ai-edge/gallery

  • 我们提供的指南

    https://github.com/google-ai-edge/gallery/tree/main/skills

  • Discussion

    https://github.com/google-ai-edge/gallery/discussions/categories/skills



借助 LiteRT-LM 实现 Gemma 4 的跨设备部署


对于希望在应用内或更广泛的设备上部署 Gemma 4 的开发者,LiteRT-LM 提供了卓越的性能,能够覆盖各类硬件生态。LiteRT-LM 在 LiteRT 的基础上增加了生成式 AI 专用库,而 LiteRT 已凭借其高性能库 XNNPack 和 ML Drift 深受数百万 Android 和端侧开发者的信赖。LiteRT-LM 构建于此技术栈之上,并通过以下新特性增强了模型性能: 

  • 极小的内存占用: 得益于 LiteRT 对 2-bit 和 4-bit 权重的支持,以及内存映射 (mmap) 的逐层嵌入技术,在某些设备上运行 Gemma 4 E2B 的内存占用仅需不到 1.5 GB。

  • 约束解码: 每次都能获得结构化、可预测的输出,确保您的 AI 驱动型应用和工具调用脚本在生产环境中保持稳定。

  • 动态上下文: 能够灵活地在 CPU 和 GPU 上处理单一模型并支持动态上下文长度,让您可以充分利用 Gemma 4 的 128K 上下文窗口


  • LiteRT-LM

    https://ai.google.dev/edge/litert-lm/overview

  • LiteRT

    https://ai.google.dev/edge/litert


为了支持智能体用例所需的超长上下文,LiteRT-LM 利用前沿的 GPU 优化技术,在不到 3 秒的时间内即可处理跨越 2 个不同 Skills 的 4,000 个输入 token


LiteRT-LM 还将较小规格的 Gemma 4 模型带到了物联网和边缘设备,并在多种平台上展现出引人注目的性能。其中包括 Raspberry Pi 5,在 CPU 上运行时,其预填充 (prefill) 速度达到 133 token/秒,解码 (decode) 速度为 7.6 token/秒;而 Qualcomm Dragonwing IQ8 上的 NPU 加速则将性能提升至更令人惊叹的 3,700 预填充 token/秒和 31 解码 token/秒。


准备好开始了吗?请查阅 LiteRT-LM 文档以获取完整指南和特定设备的性能指标。您还可以查看 Gemma 4 E2B 和 Gemma 4 E4B 的独立 Model Card。


  • LiteRT-LM 文档

    https://ai.google.dev/edge/litert-lm/overview

  • Gemma 4 E2B

    https://huggingface.co/litert-community/gemma-4-E2B-it-litert-lm

  • Gemma 4 E4B

    https://huggingface.co/litert-community/gemma-4-E4B-it-litert-lm



全平台运行


Gemma 4 现已发布,并实现了前所未有的广泛平台支持: 

  • 移动端: 支持 Android 和 iOS 的 CPU/GPU 运行。开发者还可以通过 Android AICore 在系统层面访问并部署 Android 内置且经过优化的 Gemma 4 模型。

  • 桌面端与 Web 端: 在 Windows、Linux 和 macOS (通过 Metal) 上拥有流畅性能,并支持由 WebGPU 驱动的原生浏览器执行。

  • 物联网与机器人技术: 我们将 Gemma 4 带到了 Raspberry Pi 5,以及赋能 Arduino VENTUNO Q 的 Qualcomm Dragonwing IQ8 处理器等端侧。


我们还推出了全新的 Python 包和 CLI 工具,让您在控制台中体验 Gemma 变得前所未有的简单,并为物联网设备上基于 Gemma 的 Python 流水线提供支持。litert-lm CLI 已在 Linux、macOS 和 Raspberry Pi 上可用,开发者无需编写任何代码即可尝试最新的 Gemma 4 模型能力。该 CLI 现已支持工具调用,为 Google AI Edge Gallery 中的 Agent Skills 提供支持。LiteRT-LM 的 Python bindings 提供了从 Python 深度定制设备端大模型流水线的灵活性。借助我们的指南,在终端中开始使用 LiteRT-LM 非常简单。


  • 指南

    http://ai.google.dev/edge/litert-lm/cli


端侧智能体体验的时代已经到来,我们希望您已准备好在端侧开启构建之旅。无论您在何种设备上进行开发,请通过 Google AI Edge Gallery 中的 Agent Skills 示例以及 LiteRT-LM 入门指南开启您的旅程。我们迫不及待地想看到您的作品!


  • Agent Skills 示例

    https://github.com/google-ai-edge/gallery/tree/main/skills

  • LiteRT-LM 入门指南

    https://ai.google.dev/edge/litert-lm/overview


欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!







53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询