微信扫码
添加专属顾问
我要投稿
GPUStack v0.7重磅升级,一站式解决异构GPU集群管理与大模型部署难题,助力开发者快速构建AI服务。 核心内容: 1. 新增macOS/Windows一键安装包,大幅简化本地开发环境配置 2. 支持昇腾MindIE多机分布式推理,满足国产化大模型部署需求 3. 完善模型计量与寒武纪MLU支持,强化异构算力生态布局
GPUStack 是一个100%开源的模型服务平台。支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像、和语音模型。GPUStack 支持 vLLM、MindIE、llama-box 等多种推理引擎与引擎多版本并行,支持自动调度分配、故障自动恢复、多机推理、异构推理、推理负载均衡、监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性。GPUStack 提供OpenAI 兼容 API 无缝接入 dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。
随着大模型在 RAG、AI Agents 以及各类生成式 AI 场景中的快速落地,工程团队对异构GPU资源的统一调度、推理加速与系统可运维性等方面提出了更高要求。GPUStack 致力于为开发者提供一个开箱即用、可扩展、支持多后端的推理平台,帮助用户高效部署模型,简化系统集成。
在 GPUStack v0.7 中,平台围绕推理性能、部署易用性、异构硬件兼容性和系统可观测性等核心方向,进行了全面增强与能力演进。重点更新包括:
除上述关键更新外,GPUStack v0.7 还包含 70 余项功能优化与稳定性修复,涵盖推理加速与性能优化、开箱即用与用户交互、生产落地与多场景兼容性、运维运营能力等多个方面,进一步提升平台的可用性与工程稳定性,助力用户轻松构建高性能、可扩展的大模型服务体系!
有关 GPUStack 的详细信息,可以访问:
GitHub 仓库地址: https://github.com/gpustack/gpustack
GPUStack 用户文档: https://docs.gpustack.ai
MindIE 是昇腾官方推出的高性能推理框架,具备运行加速、调试优化与快速部署等优势,已成为 NPU 上主流的模型部署推理方案。
GPUStack 自 v0.6 起集成 MindIE,支持在昇腾 910B 和 310P 平台上运行主流大模型,提供稳定且高效的单机推理能力。随着用户对超大规模模型和横向扩展的需求不断提升,v0.7 在此基础上新增对 MindIE 多机分布式推理的支持。
我们已完成包括 DeepSeek R1 671B 在内的多机场景实测部署,验证其在昇腾集群中的稳定性与高吞吐性能,充分满足 NPU 集群环境下大规模模型部署和高效推理的需求。
▲ GPUStack + Ascend MindIE 在多节点 NPU 集群上运行超大模型 DeepSeek R1 671B
在过往版本中,用户在桌面环境部署 GPUStack 需依赖安装脚本或 Python 环境,常因 Python 环境冲突、系统依赖缺失、环境差异或网络问题而导致安装失败,同时安装过程缺乏进度反馈,容易中断流程,影响初学者的上手体验。
为解决上述问题,GPUStack v0.7 全新推出适用于macOS与 Windows 平台的原生一键安装包:
这一版本显著优化了桌面环境下的安装体验,帮助开发者在本地快速完成模型部署与测试,让本地大模型推理像安装 App 一样简单自然,也为个人开发者、团队快速评估和体验 GPUStack 提供了更轻量的入口。
GPUStack v0.7 新增了对推理请求的细粒度计量能力,支持按用户和模型维度采集调用数据,涵盖 API 请求次数、输入输出 Token 数量等关键指标,帮助用户全面掌握模型服务的使用情况。
随着模型服务逐步进入多用户、多模型、多场景并存的阶段,透明且可追踪的使用数据对服务治理与资源管理的重要性日益凸显。GPUStack 为模型服务提供了可靠的数据基础,为构建灵活的计费体系、异常请求定位以及后续的资源配额管理等场景提供了可靠基础,也为企业实现模型服务的精细化运营闭环奠定了坚实支撑。
▲ v0.7 引入了对推理请求的细粒度计量能力
在 GPUStack v0.7 中,寒武纪团队为社区贡献了 MLU 芯片的适配支持,标志着 GPUStack 在国产 AI 硬件生态中的支持范围进一步拓展,也体现了平台在推理基础设施领域逐步获得主流芯片厂商的认可与合作。
目前,GPUStack 已支持统一调度包括 NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯、寒武纪等多种异构算力资源,为用户提供在异构环境下灵活部署模型、提供稳定推理服务的一体化能力。
随着平台持续拓展对国产芯片的适配支持,GPUStack 正成为企业在大模型国产化部署、异构算力统一调度与高性能模型服务场景中的关键基础平台。
GPUStack v0.7 对平台界面进行了全面的 UI / UX 升级,优化了导航结构与交互体验,使模型服务的使用更加高效、直观。
新版本界面更贴合用户操作习惯,大幅提升功能可达性与操作效率,让用户能够更专注于模型服务本身。
▲ v0.7 全新界面重构,常用功能一键直达,大幅提升使用效率与易用
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-30
大模型的“思维链”(Chain-of-Thought):AI 是怎么一步步“推理”的
2025-08-30
Agentic AI与WorkFlow的相互成就
2025-08-29
刚刚,xAI 发布 Grok Code Fast 1 编程模型,快、便宜、免费
2025-08-29
大模型时代有了自己的「价值高速公路」
2025-08-29
A I智能革命——上下文工程新突破
2025-08-29
知识库检索准不准,关键看模型选没选对!一份评测指南请收好
2025-08-29
我如何用Prompt工程将大模型调教成风控专家
2025-08-29
度小满金融大模型技术创新与应用探索
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25