我要投稿

GPUStack v0.7：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

发布日期：2025-08-16 17:46:29 浏览次数： 2374

作者：Seal软件

微信搜一搜，关注“Seal软件”

GPUStack 是一个100%开源的模型服务平台。支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Embedding、Reranker、图像、和语音模型。GPUStack 支持 vLLM、MindIE、llama-box 等多种推理引擎与引擎多版本并行，支持自动调度分配、故障自动恢复、多机推理、异构推理、推理负载均衡、监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性。GPUStack 提供OpenAI 兼容 API 无缝接入 dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架，是企业建设模型服务平台的理想选择。

随着大模型在 RAG、AI Agents 以及各类生成式 AI 场景中的快速落地，工程团队对异构GPU资源的统一调度、推理加速与系统可运维性等方面提出了更高要求。GPUStack 致力于为开发者提供一个开箱即用、可扩展、支持多后端的推理平台，帮助用户高效部署模型，简化系统集成。

在 GPUStack v0.7 中，平台围绕推理性能、部署易用性、异构硬件兼容性和系统可观测性等核心方向，进行了全面增强与能力演进。重点更新包括：

桌面系统一键安装支持：大幅简化本地开发环境配置流程，助力个人开发者与小团队快速启动本地推理服务。
昇腾 MindIE 多机分布式推理支持：在原有 MindIE 单机推理能力基础上，扩展对华为昇腾 NPU 的多节点分布式推理支持，适用于超大参数模型的国产化部署需求。
模型使用计量与计费数据采集：引入细粒度的推理请求统计与计量机制，为模型服务的精细化运营与计费体系提供数据支撑。
寒武纪 MLU 兼容支持：感谢寒武纪团队为 GPUStack 社区贡献 MLU 芯片的适配支持，进一步丰富 GPUStack 对国产 AI 硬件的兼容能力，完善 GPUStack 在异构算力生态中的布局。

除上述关键更新外，GPUStack v0.7 还包含 70 余项功能优化与稳定性修复，涵盖推理加速与性能优化、开箱即用与用户交互、生产落地与多场景兼容性、运维运营能力等多个方面，进一步提升平台的可用性与工程稳定性，助力用户轻松构建高性能、可扩展的大模型服务体系！

有关 GPUStack 的详细信息，可以访问：

GitHub 仓库地址: https://github.com/gpustack/gpustack
GPUStack 用户文档: https://docs.gpustack.ai

重点特性介绍

昇腾 MindIE 多机分布式推理

MindIE 是昇腾官方推出的高性能推理框架，具备运行加速、调试优化与快速部署等优势，已成为 NPU 上主流的模型部署推理方案。

GPUStack 自 v0.6 起集成 MindIE，支持在昇腾 910B 和 310P 平台上运行主流大模型，提供稳定且高效的单机推理能力。随着用户对超大规模模型和横向扩展的需求不断提升，v0.7 在此基础上新增对 MindIE 多机分布式推理的支持。

我们已完成包括 DeepSeek R1 671B 在内的多机场景实测部署，验证其在昇腾集群中的稳定性与高吞吐性能，充分满足 NPU 集群环境下大规模模型部署和高效推理的需求。

▲ GPUStack + Ascend MindIE 在多节点 NPU 集群上运行超大模型 DeepSeek R1 671B

macOS 与 Windows 一键安装包

在过往版本中，用户在桌面环境部署 GPUStack 需依赖安装脚本或 Python 环境，常因 Python 环境冲突、系统依赖缺失、环境差异或网络问题而导致安装失败，同时安装过程缺乏进度反馈，容易中断流程，影响初学者的上手体验。

为解决上述问题，GPUStack v0.7 全新推出适用于macOS与 Windows 平台的原生一键安装包：

零环境依赖：无需预装 Python、Docker Desktop 或其他组件，双击即可完成安装与启动；
内置 GPUStack Helper 运维面板，提供一站式图形化管理操作：

快速设置核心参数（如 Server / Worker 角色、端口、环境变量）；
一键访问配置目录，方便编辑配置文件及后台服务文件；
实时查看和管理 Worker 服务状态与运行日志，便捷访问 Web 控制台。

极大降低部署门槛：适用于本地测试、个人开发、小型部署等场景，让开发者无需折腾即可快速上手。

这一版本显著优化了桌面环境下的安装体验，帮助开发者在本地快速完成模型部署与测试，让本地大模型推理像安装 App 一样简单自然，也为个人开发者、团队快速评估和体验 GPUStack 提供了更轻量的入口。

模型使用计量与计费数据采集

GPUStack v0.7 新增了对推理请求的细粒度计量能力，支持按用户和模型维度采集调用数据，涵盖 API 请求次数、输入输出 Token 数量等关键指标，帮助用户全面掌握模型服务的使用情况。

随着模型服务逐步进入多用户、多模型、多场景并存的阶段，透明且可追踪的使用数据对服务治理与资源管理的重要性日益凸显。GPUStack 为模型服务提供了可靠的数据基础，为构建灵活的计费体系、异常请求定位以及后续的资源配额管理等场景提供了可靠基础，也为企业实现模型服务的精细化运营闭环奠定了坚实支撑。