2024年第一季度AI基础设施（AI Infra）解决方案报告

发布日期：2024-04-06 07:36:20 浏览次数： 3761

作者：Andy730

微信搜一搜，关注“Andy730”

工作负载的多样性和成本优化至关重要

AI已经悄然降临。若您尚未准备好为其提供专用计算、存储和网络支持，切勿轻易导入。这正是AI基础设施的意义所在。它旨在满足AI对三大核心工作负载的需求：数据准备、模型训练与模型推理。无论是为了训练定制模型以获取竞争优势，还是利用开源生成式AI模型，企业技术领导者都需明智地投资于AI基础设施。这不仅仅是云端与本地的选择问题，更关乎如何将AI基础设施投资与整体基础设施战略相结合，以优化成本并平衡内部需求。

基于当前趋势，寻求AI基础设施解决方案的企业应关注以下提供商：

最大化核心AI工作负载性能。三大核心工作负载分别为数据准备、训练和推理。每种工作负载对吞吐量、延迟、容错性和成本的需求截然不同。即便在这三种工作负载内部，也存在不同需求。例如，预测性AI的数据准备工作负载主要关注结构化数据的查询、访问和转换，而生成式AI则需处理大量非结构化数据。计算机视觉或大型语言模型的深度学习离不开GPU（或其他专为AI设计的芯片架构），但预测模型可能无需GPU支持。本次评估中的AI基础设施解决方案覆盖了所有工作负载，但企业可能会根据实际需求选择多家供应商。例如，企业可能选择本地解决方案用于数据管理和训练，而超大规模供应商则负责推理，反之亦然。因此，企业技术领导者需对当前和未来的AI工作负载进行梳理和预测。

提供管理层以优化成本和管理复杂性。AI基础设施配备管理软件，协助运营人员监控系统、控制访问、分配使用情况，并根据需求提供或释放基础设施资源，以实现成本优化。这种管理软件与AI/ML平台有所不同，后者主要帮助AI团队构建AI应用程序，而非管理AI基础设施。本次评估中的部分供应商同时提供AI基础设施和AI/ML平台，因此可能存在功能重叠和紧密集成的优势。企业买家需了解供应商提供的AI基础设施管理层如何与现有基础设施管理工具、政策和ITOps实践相结合。若企业已选定某家供应商作为标准化基础设施的合作伙伴，那么采用该供应商的AI基础设施可能在管理层面更具吸引力。

与企业对AI的战略承诺相契合。每个供应商都有其独特的最佳市场承诺向量。尽管大型AI模型因其数十亿参数而备受瞩目，但您的企业可能并不需要训练如此庞大的模型。相反，您可能更倾向于从云服务中调用大型模型，或从HuggingFace等平台下载并安装至自有基础设施。同时，您还需考虑是否存在关键用例（哪怕只有一个）需要在边缘进行AI处理，若仅支持云端使用则无法满足需求。若您的公司从事生物化学研究，可能需要一个与高性能计算（HPC）环境紧密集成或作为其一部分的AI基础设施，以支持大规模模拟。技术领导者应从宏观角度审视AI的整体需求，并根据企业的整体AI战略作出关于AI基础设施的决策。对于部分企业而言，这可能意味着投资于多家AI基础设施供应商。

Source:Mike Gualtieri, Sudha Maheshwari, Sarah Morana, Jen Bart; The Forrester Wave: AI Infrastructure Solutions, Q1 2024; March 17, 2024

领导者（Leaders）

谷歌

谷歌为AI工作负载提供了一站式解决方案。AI一直是谷歌众多消费者和商业服务的核心驱动力，如互联网搜索和广告。因此，说谷歌领先一步，实则低估了其在该领域的地位。能够在谷歌的庞大规模上高效地进行AI操作，这在全球仅有几家公司能够做到。谷歌将丰富的经验和基础设施引入谷歌云AI，为其增添了强大实力。谷歌早期且持续对其他业务的AI投资，进一步推动了其对企业AI“未来趋势”的深远见解。谷歌的卓越发展蓝图和创新举措旨在让谷歌规模的AI技术惠及所有客户，无论是充满活力的初创企业还是大型跨国企业，同时借助易于使用的工具简化复杂操作。

在本次评估中，谷歌各方面表现均出类拔萃，获得最高评分。唯一需要注意的是，客户目前无法在本地使用谷歌的AI基础设施。专注于互联网业务的客户高度赞赏其高效的弹性规模，能够轻松应对峰值工作负载并有效控制成本。参考客户对与谷歌AI平台Vertex AI的紧密集成表示赞赏，通过这一平台，他们能够利用自定义模型和LLMs构建高效的AI解决方案。因此，谷歌非常适合现有的谷歌云客户，并为希望将谷歌云作为战略公共云的既有客户和新客户提供全面支持。

微软

微软简化了在云规模下使用超级计算机AI基础设施的过程。微软提供多种规格的GPU优化虚拟机供客户直接使用。Azure AI组合提供了一系列面向AI的服务，如Azure OpenAI Service和Azure AI Studio，帮助客户开发基于微软基础AI设施的自定义AI应用。微软的战略是将AI融入每个应用、每个业务流程和每个员工的工作中。为实现这一目标，微软计划通过整合其业务和生产力应用，同时提升Azure AI基础设施对AI开发者的吸引力。其对OpenAI的130亿美元投资便是这一战略的有力证明。微软的卓越创新和发展蓝图通过将AI融入公司所有业务应用、开发工具和云服务中得以实现。

微软在架构、生态系统、数据准备、模型训练、推理和开发工具方面表现出色。为进一步提升竞争力，微软可考虑添加针对AI的基础设施管理工具，并在Azure Arc上扩展本地部署的AI工作负载能力。参考客户对微软通过合作伙伴关系提供的数据准备、应用开发、认知服务和OpenAI等预训练模型的广泛服务表示赞赏。因此，微软的人工智能基础设施尤其适合已经标准化使用Microsoft Azure并需要云规模人工智能基础设施的客户。

NVIDIA

NVIDIA在全球人工智能基础设施领域占据领先地位。没有NVIDIA的GPU，现代人工智能的发展将无从谈起。除了向本次评估中的大多数其他供应商提供GPU外，NVIDIA还通过NVIDIA DGX平台直接向客户提供AI基础设施，支持在云上运行NVIDIA DGX Cloud和/或本地工作负载。与其他AI芯片制造商相比，NVIDIA的创新、发展蓝图和愿景清晰明确，使其保持了快速的发展势头。NVIDIA直接向客户提供的AI基础设施并非旨在与其众多AI基础设施合作伙伴展开激烈竞争，而是作为一个先进系统的标杆。

NVIDIA在系统架构、合作伙伴生态系统、配置选项、模型训练和系统管理方面具备显著优势。NVIDIA在模型训练方面一直表现出色，并在推理方面不断取得进步。该公司依赖云服务提供商和其他合作伙伴来支持可扩展的数据准备工作负载。随着NVIDIA DGX Cloud的推出，客户能够更灵活地部署工作负载，满足实验和/或处理突发工作负载的需求。参考客户对NVIDIA设计的系统表示赞赏，这些系统既可直接在本地部署，现在也可在云上使用。因此，对于希望拥有先进本地模型训练系统的客户来说，NVIDIA无疑是一个极具吸引力的选择。

AWS

AWS是一站式人工智能平台，提供多样化的选择。AWS拥有广泛的人工智能基础设施组合。AWS致力于为客户提供从预配置实例到在Amazon SageMaker这一AI开发工具背后抽象出的训练服务等多样选择，以满足不同的人工智能工作负载需求。亚马逊的人工智能战略基础设施组合涵盖了基于NVIDIA GPU的高性能计算实例/虚拟机，同时也包括基于英特尔Gaudi芯片的实例。此外，AWS还提供基于自家芯片的人工智能基础设施，包括用于推理的AWS Inferentia和用于训练的AWS Trainium。其他服务则包括AWS Neuron SDK，便于客户轻松利用AWS的定制芯片，AWS Elastic Inference以优化成本与性能，以及AWS IoT Greengrass用于边缘推理。

AWS在解决方案生态系统、数据准备服务、推理和人工智能开发工具方面表现出色。AWS可通过增强本地和边缘部署的人工智能工作负载能力来进一步巩固其现有产品地位。客户对AWS为从最小规模实验到最大规模生产部署提供可扩展的人工智能基础设施表示赞赏。他们同样喜爱Amazon SageMaker的集成工具。AWS的人工智能基础设施特别适合那些将训练数据存储在AWS上并依赖其他AWS服务来补充人工智能用例的客户。不过，AWS并未参与完整的Forrester Wave评估过程。

戴尔

戴尔为各类用户提供了人工智能架构，但仍有进一步发展空间，比如增加更多的开发工具。运行日益多样化的人工智能工作负载可能会变得复杂。戴尔技术旨在通过发布详尽的参考架构来简化这一过程，以适应各种人工智能工作负载场景。戴尔提供了丰富的选项，包括旗舰PowerEdge服务器用于人工智能，以及诸如PowerFlex和PowerScale等众多存储解决方案。戴尔的愿景是为企业提供最快、最集成的解决方案，用于本地和合作部署。该公司可通过进一步增加针对人工智能的工具来完善其发展规划和创新战略。

戴尔在架构（特别是其参考架构）、配置和模型训练方面具备优势。戴尔可通过设计针对人工智能的基础设施管理工具，并与人工智能开发工具提供商建立更紧密的合作关系来加以改进。戴尔在某些人工智能工作负载组件方面已具备云能力，但仍需加强在完全托管的人工智能基础设施解决方案方面的布局。参考客户对戴尔在快速设计与其现有IT基础设施集成的定制人工智能基础设施方面的卓越服务水平表示赞赏。因此，戴尔特别适合那些希望在本地或合作部署人工智能基础设施，并希望与戴尔建立长期合作伙伴关系，以便随着需求增长平滑升级基础设施的企业。

强劲表现者（Strong Performers）

HPE

HPE在支持从边缘到云的人工智能方面有着卓越的表现，但还需要在信息传递上更加明确。HPE提供了从边缘到超级计算机的丰富硬件配置，足以支撑各种人工智能工作负载。客户可以利用HPE GreenLake将所有工作以私有云的形式运行。HPE的策略是为本地部署和/或私有云部署提供完备的人工智能基础设施。此外，HPE还配备了专为人工智能工作负载设计的资源管理软件。尽管HPE的人工智能基础设施吸引了众多复杂的人工智能研究人员，但该公司仍需将信息传递的范围扩大到日益增多的企业人工智能开发人员中。为实现这一目标，HPE需要通过针对AI的特殊优化来完善其发展规划，这些优化应超越仅仅添加下一代GPU的层面。

HPE在配置、数据准备、管理软件以及部署地点（云和本地）方面均具备显著优势。HPE可通过扩展其解决方案生态系统并进一步优化模型训练来持续提升其竞争力。HPE的客户对其从边缘到云的广泛部署选项以及人工智能基础设施与其他HPE基础设施的无缝集成表示赞赏。因此，HPE非常适合那些希望在自有数据中心和云中运行人工智能工作负载的客户。不过，惠普企业公司（HPE）并未参与完整的Forrester Wave评估过程。

IBM

IBM为关键任务工作负载量身打造了人工智能基础设施。这一基础设施融合了IBM存储、IBM云、IBM Power和IBM Z的强大功能。IBM的愿景是成为云和本地关键任务工作负载的值得信赖的人工智能基础设施提供商。为此，该公司提供了本地、云和混合云的人工智能基础设施。IBM Z主机继续处理着世界上最为关键、延迟最低的交易，因此对于依赖这些数据和低延迟推理的AI应用的客户来说，IBM无疑是首选。然而，IBM的云业务正面临着来自谷歌、微软和AWS这三大主流公共云的激烈竞争。为了与它们抗衡，IBM需要改进其发展规划，更好地整合客户在其生态系统中无缝购买和使用人工智能基础设施的方式。

IBM在解决方案生态系统、配置、数据准备、部署地点（云和本地）以及人工智能开发工具方面均具备显著优势。IBM可通过增加更多的训练工作负载优化和统一管理工具来进一步提升其解决方案的竞争力。参考客户对能够在本地和/或云端自由选择的灵活性表示赞赏，同时也对能够利用他们在IBM存储和IBM Z上的现有投资的能力表示肯定。因此，IBM的人工智能基础设施特别适合现有的IBM客户，不论是在本地还是云端部署。

竞争者（Contenders）

阿里云

阿里云提供了云规模的人工智能基础设施，但还需进一步拓展市场。作为总部位于中国的公共云巨头，阿里云提供与其他全球云服务提供商相媲美的完整云服务。其人工智能基础设施涵盖广泛的GPU实例访问。此外，该公司还提供开发工具，旨在简化运行人工智能工作负载的复杂性。阿里云的策略是提供可扩展、成本效益高且易于使用的人工智能基础设施。为吸引全球更多地区的企业，阿里巴巴必须在亚太地区以外进一步拓展市场。若阿里巴巴能更多借鉴超大规模云服务提供商的经验，其愿景、创新和路线图将得到进一步完善。

阿里云在数据准备、管理工具、开发工具、容错性和效率等方面具有显著优势。为进一步优化，阿里云可加大模型训练和推理的投资，并扩展其解决方案生态系统。阿里巴巴的参考客户对其能够扩展人工智能基础设施以处理大规模人工智能工作负载的能力表示赞赏，并称赞其提供广泛的人工智能应用程序部署服务。因此，阿里云非常适合现有的阿里巴巴客户以及需要在中国运行规模化云端人工智能工作负载的新客户。

联想

联想提供从便携设备（摩托罗拉）、笔记本电脑（ThinkPad）到服务器（ThinkSystem）、边缘计算（ThinkEdge）、超级计算机等的人工智能基础设施，但仍有扩展人工智能专用工具的空间。该公司旨在提供从移动设备推理到应对最严苛人工智能研究的超级计算机所需的所有配置，但缺乏一个明确的“为何选择联想”的理由。为增强创新，联想可考虑与提供与联想人工智能基础设施集成的人工智能/机器学习平台供应商建立合作关系。

联想在解决方案生态系统和配置选项方面表现出色，同时在模型训练、数据、推理、容错性和效率方面也有不俗的得分。为进一步提升竞争力，联想可提供专用的人工智能管理工具，并优化人工智能工作负载。参考客户对联想在本地和大规模运行人工智能工作负载的能力表示赞赏。因此，联想非常适合希望在移动设备、本地、边缘计算和/或私有云中运行人工智能工作负载的客户。

甲骨文

甲骨文提供了具有成本效益的人工智能基础设施，但仍需加强工具支持。由于其成熟的公共云、广泛的人工智能服务配套以及高性能硬件支持，甲骨文已成为备受青睐的云端人工智能基础设施提供商。此外，凭借庞大的企业应用业务，许多企业已在甲骨文云中积累了大量训练数据。甲骨文的策略是成为主要云服务提供商的经济实惠的替代选择。为优化策略，甲骨文应大幅扩展其人工智能基础设施愿景，不仅提供原始GPU实例，还应向企业阐明为何应考虑与甲骨文云建立长期战略关系。同时，通过增强人工智能专用开发工具来改进其路线图。

甲骨文在数据准备方面表现突出，并在模型训练、推理、容错性和效率方面也有不俗表现。为进一步提升服务，甲骨文可继续优化人工智能工作负载。参考客户认为，与其他云服务提供商相比，甲骨文提供了极具竞争力的人工智能基础设施选择。因此，甲骨文非常适合那些需要在云中获取成本效益高的人工智能计算能力，或已在甲骨文云中存储数据的客户。

挑战者（Challengers）

Cerebras Systems

Cerebras Systems致力于革新人工智能计算领域，但尚未完全实现其愿景。Cerebras是一家于2015年在硅谷成立的初创公司，专注于从头设计专为人工智能工作负载打造的半导体。该公司的关键创新在于一种称为晶片级引擎的技术，这款芯片据称是世界上最大的，其尺寸相当于一个比萨饼。这款大型芯片的设计理念在于减少因互连和其他优化所带来的延迟。该公司利用这款芯片构建了CS-2系统，该系统既可在本地和云端使用，也可通过定制配置（包括超级计算机配置中的集群）提供。目前，其客户主要包括科学组织和生命科学组织等拥有大量人工智能工作负载的机构。Cerebras的策略是为模型训练提供最优的价格/性能比。由于Cerebras主要聚焦于模型训练，因此其未来发展路径依赖于与合作伙伴共同处理数据准备和推理工作负载。

在训练工作负载、工作负载效率以及部署位置（本地和云端）方面，Cerebras具备显著优势。为了进一步完善自身，Cerebras可以扩展其支持的训练工作负载类型，弥补在构建更强大解决方案生态系统方面的不足，并在各个方面取得进步，以使其在本次评估中与其他供应商更为接近。参考客户对Cerebras的训练性能表示赞赏。因此，Cerebras非常适合那些注重Cerebras支持的模型训练性能，并已拥有稳定的数据准备和推理解决方案的客户。

Graphcore

Graphcore专注于设计用于人工智能的芯片，但尚未成功取代GPU的地位。Graphcore是一家总部位于英国的初创公司，成立于2016年，致力于为人工智能工作负载打造半导体。该公司将这些芯片命名为智能处理单元（IPU）。其最新芯片Bow IPU采用了晶片叠层技术，可为特定用例提供高达350 teraflops的人工智能计算能力。Graphcore提供本地系统的Bow PODs和Bow IPU处理器，并与部分云服务提供商合作，在云端提供IPU。Graphcore的策略是通过创新人工智能芯片设计实现卓越性能，但该公司仍需扩展其愿景、创新和未来发展规划，以与业界巨头竞争。鉴于人工智能基础设施需求的迅猛增长，Graphcore可通过建立合作伙伴关系或加大在销售和营销方面的投入来加速其市场推广策略。

在模型训练、推理、开发工具、效率以及部署位置（本地和云端）方面，Graphcore的表现与其他本次评估中的供应商相当。为了进一步提升竞争力，Graphcore可以开发更先进的管理工具和容错能力，并通过扩大解决方案合作伙伴生态系统来弥补能力上的不足。参考客户对Graphcore提供的性价比表示赞赏。因此，Graphcore非常适合那些希望使用或尝试新型人工智能芯片设计，以追求更高性价比的客户。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业