2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

2024年第一季度AI基础设施(AI Infra)解决方案报告

发布日期:2024-04-06 07:36:20 浏览次数: 3761
作者:Andy730

微信搜一搜,关注“Andy730”

工作负载的多样性和成本优化至关重要

AI已经悄然降临。若您尚未准备好为其提供专用计算、存储和网络支持,切勿轻易导入。这正是AI基础设施的意义所在。它旨在满足AI对三大核心工作负载的需求:数据准备、模型训练与模型推理。无论是为了训练定制模型以获取竞争优势,还是利用开源生成式AI模型,企业技术领导者都需明智地投资于AI基础设施。这不仅仅是云端与本地的选择问题,更关乎如何将AI基础设施投资与整体基础设施战略相结合,以优化成本并平衡内部需求。

基于当前趋势,寻求AI基础设施解决方案的企业应关注以下提供商:

最大化核心AI工作负载性能。三大核心工作负载分别为数据准备、训练和推理。每种工作负载对吞吐量、延迟、容错性和成本的需求截然不同。即便在这三种工作负载内部,也存在不同需求。例如,预测性AI的数据准备工作负载主要关注结构化数据的查询、访问和转换,而生成式AI则需处理大量非结构化数据。计算机视觉或大型语言模型的深度学习离不开GPU(或其他专为AI设计的芯片架构),但预测模型可能无需GPU支持。本次评估中的AI基础设施解决方案覆盖了所有工作负载,但企业可能会根据实际需求选择多家供应商。例如,企业可能选择本地解决方案用于数据管理和训练,而超大规模供应商则负责推理,反之亦然。因此,企业技术领导者需对当前和未来的AI工作负载进行梳理和预测。

提供管理层以优化成本和管理复杂性。AI基础设施配备管理软件,协助运营人员监控系统、控制访问、分配使用情况,并根据需求提供或释放基础设施资源,以实现成本优化。这种管理软件与AI/ML平台有所不同,后者主要帮助AI团队构建AI应用程序,而非管理AI基础设施。本次评估中的部分供应商同时提供AI基础设施和AI/ML平台,因此可能存在功能重叠和紧密集成的优势。企业买家需了解供应商提供的AI基础设施管理层如何与现有基础设施管理工具、政策和ITOps实践相结合。若企业已选定某家供应商作为标准化基础设施的合作伙伴,那么采用该供应商的AI基础设施可能在管理层面更具吸引力。

与企业对AI的战略承诺相契合。每个供应商都有其独特的最佳市场承诺向量。尽管大型AI模型因其数十亿参数而备受瞩目,但您的企业可能并不需要训练如此庞大的模型。相反,您可能更倾向于从云服务中调用大型模型,或从HuggingFace等平台下载并安装至自有基础设施。同时,您还需考虑是否存在关键用例(哪怕只有一个)需要在边缘进行AI处理,若仅支持云端使用则无法满足需求。若您的公司从事生物化学研究,可能需要一个与高性能计算(HPC)环境紧密集成或作为其一部分的AI基础设施,以支持大规模模拟。技术领导者应从宏观角度审视AI的整体需求,并根据企业的整体AI战略作出关于AI基础设施的决策。对于部分企业而言,这可能意味着投资于多家AI基础设施供应商。

Source:Mike Gualtieri, Sudha Maheshwari, Sarah Morana, Jen Bart; The Forrester Wave: AI Infrastructure Solutions, Q1 2024; March 17, 2024


领导者(Leaders)

谷歌

谷歌为AI工作负载提供了一站式解决方案。AI一直是谷歌众多消费者和商业服务的核心驱动力,如互联网搜索和广告。因此,说谷歌领先一步,实则低估了其在该领域的地位。能够在谷歌的庞大规模上高效地进行AI操作,这在全球仅有几家公司能够做到。谷歌将丰富的经验和基础设施引入谷歌云AI,为其增添了强大实力。谷歌早期且持续对其他业务的AI投资,进一步推动了其对企业AI“未来趋势”的深远见解。谷歌的卓越发展蓝图和创新举措旨在让谷歌规模的AI技术惠及所有客户,无论是充满活力的初创企业还是大型跨国企业,同时借助易于使用的工具简化复杂操作。

在本次评估中,谷歌各方面表现均出类拔萃,获得最高评分。唯一需要注意的是,客户目前无法在本地使用谷歌的AI基础设施。专注于互联网业务的客户高度赞赏其高效的弹性规模,能够轻松应对峰值工作负载并有效控制成本。参考客户对与谷歌AI平台Vertex AI的紧密集成表示赞赏,通过这一平台,他们能够利用自定义模型和LLMs构建高效的AI解决方案。因此,谷歌非常适合现有的谷歌云客户,并为希望将谷歌云作为战略公共云的既有客户和新客户提供全面支持。

微软

微软简化了在云规模下使用超级计算机AI基础设施的过程。微软提供多种规格的GPU优化虚拟机供客户直接使用。Azure AI组合提供了一系列面向AI的服务,如Azure OpenAI Service和Azure AI Studio,帮助客户开发基于微软基础AI设施的自定义AI应用。微软的战略是将AI融入每个应用、每个业务流程和每个员工的工作中。为实现这一目标,微软计划通过整合其业务和生产力应用,同时提升Azure AI基础设施对AI开发者的吸引力。其对OpenAI的130亿美元投资便是这一战略的有力证明。微软的卓越创新和发展蓝图通过将AI融入公司所有业务应用、开发工具和云服务中得以实现。

微软在架构、生态系统、数据准备、模型训练、推理和开发工具方面表现出色。为进一步提升竞争力,微软可考虑添加针对AI的基础设施管理工具,并在Azure Arc上扩展本地部署的AI工作负载能力。参考客户对微软通过合作伙伴关系提供的数据准备、应用开发、认知服务和OpenAI等预训练模型的广泛服务表示赞赏。因此,微软的人工智能基础设施尤其适合已经标准化使用Microsoft Azure并需要云规模人工智能基础设施的客户。

NVIDIA

NVIDIA在全球人工智能基础设施领域占据领先地位。没有NVIDIA的GPU,现代人工智能的发展将无从谈起。除了向本次评估中的大多数其他供应商提供GPU外,NVIDIA还通过NVIDIA DGX平台直接向客户提供AI基础设施,支持在云上运行NVIDIA DGX Cloud和/或本地工作负载。与其他AI芯片制造商相比,NVIDIA的创新、发展蓝图和愿景清晰明确,使其保持了快速的发展势头。NVIDIA直接向客户提供的AI基础设施并非旨在与其众多AI基础设施合作伙伴展开激烈竞争,而是作为一个先进系统的标杆。

NVIDIA在系统架构、合作伙伴生态系统、配置选项、模型训练和系统管理方面具备显著优势。NVIDIA在模型训练方面一直表现出色,并在推理方面不断取得进步。该公司依赖云服务提供商和其他合作伙伴来支持可扩展的数据准备工作负载。随着NVIDIA DGX Cloud的推出,客户能够更灵活地部署工作负载,满足实验和/或处理突发工作负载的需求。参考客户对NVIDIA设计的系统表示赞赏,这些系统既可直接在本地部署,现在也可在云上使用。因此,对于希望拥有先进本地模型训练系统的客户来说,NVIDIA无疑是一个极具吸引力的选择。

AWS

AWS是一站式人工智能平台,提供多样化的选择。AWS拥有广泛的人工智能基础设施组合。AWS致力于为客户提供从预配置实例到在Amazon SageMaker这一AI开发工具背后抽象出的训练服务等多样选择,以满足不同的人工智能工作负载需求。亚马逊的人工智能战略基础设施组合涵盖了基于NVIDIA GPU的高性能计算实例/虚拟机,同时也包括基于英特尔Gaudi芯片的实例。此外,AWS还提供基于自家芯片的人工智能基础设施,包括用于推理的AWS Inferentia和用于训练的AWS Trainium。其他服务则包括AWS Neuron SDK,便于客户轻松利用AWS的定制芯片,AWS Elastic Inference以优化成本与性能,以及AWS IoT Greengrass用于边缘推理。

AWS在解决方案生态系统、数据准备服务、推理和人工智能开发工具方面表现出色。AWS可通过增强本地和边缘部署的人工智能工作负载能力来进一步巩固其现有产品地位。客户对AWS为从最小规模实验到最大规模生产部署提供可扩展的人工智能基础设施表示赞赏。他们同样喜爱Amazon SageMaker的集成工具。AWS的人工智能基础设施特别适合那些将训练数据存储在AWS上并依赖其他AWS服务来补充人工智能用例的客户。不过,AWS并未参与完整的Forrester Wave评估过程。

戴尔

戴尔为各类用户提供了人工智能架构,但仍有进一步发展空间,比如增加更多的开发工具。运行日益多样化的人工智能工作负载可能会变得复杂。戴尔技术旨在通过发布详尽的参考架构来简化这一过程,以适应各种人工智能工作负载场景。戴尔提供了丰富的选项,包括旗舰PowerEdge服务器用于人工智能,以及诸如PowerFlex和PowerScale等众多存储解决方案。戴尔的愿景是为企业提供最快、最集成的解决方案,用于本地和合作部署。该公司可通过进一步增加针对人工智能的工具来完善其发展规划和创新战略。

戴尔在架构(特别是其参考架构)、配置和模型训练方面具备优势。戴尔可通过设计针对人工智能的基础设施管理工具,并与人工智能开发工具提供商建立更紧密的合作关系来加以改进。戴尔在某些人工智能工作负载组件方面已具备云能力,但仍需加强在完全托管的人工智能基础设施解决方案方面的布局。参考客户对戴尔在快速设计与其现有IT基础设施集成的定制人工智能基础设施方面的卓越服务水平表示赞赏。因此,戴尔特别适合那些希望在本地或合作部署人工智能基础设施,并希望与戴尔建立长期合作伙伴关系,以便随着需求增长平滑升级基础设施的企业。

强劲表现者(Strong Performers)

HPE

HPE在支持从边缘到云的人工智能方面有着卓越的表现,但还需要在信息传递上更加明确。HPE提供了从边缘到超级计算机的丰富硬件配置,足以支撑各种人工智能工作负载。客户可以利用HPE GreenLake将所有工作以私有云的形式运行。HPE的策略是为本地部署和/或私有云部署提供完备的人工智能基础设施。此外,HPE还配备了专为人工智能工作负载设计的资源管理软件。尽管HPE的人工智能基础设施吸引了众多复杂的人工智能研究人员,但该公司仍需将信息传递的范围扩大到日益增多的企业人工智能开发人员中。为实现这一目标,HPE需要通过针对AI的特殊优化来完善其发展规划,这些优化应超越仅仅添加下一代GPU的层面。

HPE在配置、数据准备、管理软件以及部署地点(云和本地)方面均具备显著优势。HPE可通过扩展其解决方案生态系统并进一步优化模型训练来持续提升其竞争力。HPE的客户对其从边缘到云的广泛部署选项以及人工智能基础设施与其他HPE基础设施的无缝集成表示赞赏。因此,HPE非常适合那些希望在自有数据中心和云中运行人工智能工作负载的客户。不过,惠普企业公司(HPE)并未参与完整的Forrester Wave评估过程。

IBM

IBM为关键任务工作负载量身打造了人工智能基础设施。这一基础设施融合了IBM存储、IBM云、IBM Power和IBM Z的强大功能。IBM的愿景是成为云和本地关键任务工作负载的值得信赖的人工智能基础设施提供商。为此,该公司提供了本地、云和混合云的人工智能基础设施。IBM Z主机继续处理着世界上最为关键、延迟最低的交易,因此对于依赖这些数据和低延迟推理的AI应用的客户来说,IBM无疑是首选。然而,IBM的云业务正面临着来自谷歌、微软和AWS这三大主流公共云的激烈竞争。为了与它们抗衡,IBM需要改进其发展规划,更好地整合客户在其生态系统中无缝购买和使用人工智能基础设施的方式。

IBM在解决方案生态系统、配置、数据准备、部署地点(云和本地)以及人工智能开发工具方面均具备显著优势。IBM可通过增加更多的训练工作负载优化和统一管理工具来进一步提升其解决方案的竞争力。参考客户对能够在本地和/或云端自由选择的灵活性表示赞赏,同时也对能够利用他们在IBM存储和IBM Z上的现有投资的能力表示肯定。因此,IBM的人工智能基础设施特别适合现有的IBM客户,不论是在本地还是云端部署。

竞争者(Contenders)

阿里云

阿里云提供了云规模的人工智能基础设施,但还需进一步拓展市场。作为总部位于中国的公共云巨头,阿里云提供与其他全球云服务提供商相媲美的完整云服务。其人工智能基础设施涵盖广泛的GPU实例访问。此外,该公司还提供开发工具,旨在简化运行人工智能工作负载的复杂性。阿里云的策略是提供可扩展、成本效益高且易于使用的人工智能基础设施。为吸引全球更多地区的企业,阿里巴巴必须在亚太地区以外进一步拓展市场。若阿里巴巴能更多借鉴超大规模云服务提供商的经验,其愿景、创新和路线图将得到进一步完善。

阿里云在数据准备、管理工具、开发工具、容错性和效率等方面具有显著优势。为进一步优化,阿里云可加大模型训练和推理的投资,并扩展其解决方案生态系统。阿里巴巴的参考客户对其能够扩展人工智能基础设施以处理大规模人工智能工作负载的能力表示赞赏,并称赞其提供广泛的人工智能应用程序部署服务。因此,阿里云非常适合现有的阿里巴巴客户以及需要在中国运行规模化云端人工智能工作负载的新客户。

联想

联想提供从便携设备(摩托罗拉)、笔记本电脑(ThinkPad)到服务器(ThinkSystem)、边缘计算(ThinkEdge)、超级计算机等的人工智能基础设施,但仍有扩展人工智能专用工具的空间。该公司旨在提供从移动设备推理到应对最严苛人工智能研究的超级计算机所需的所有配置,但缺乏一个明确的“为何选择联想”的理由。为增强创新,联想可考虑与提供与联想人工智能基础设施集成的人工智能/机器学习平台供应商建立合作关系。

联想在解决方案生态系统和配置选项方面表现出色,同时在模型训练、数据、推理、容错性和效率方面也有不俗的得分。为进一步提升竞争力,联想可提供专用的人工智能管理工具,并优化人工智能工作负载。参考客户对联想在本地和大规模运行人工智能工作负载的能力表示赞赏。因此,联想非常适合希望在移动设备、本地、边缘计算和/或私有云中运行人工智能工作负载的客户。

甲骨文

甲骨文提供了具有成本效益的人工智能基础设施,但仍需加强工具支持。由于其成熟的公共云、广泛的人工智能服务配套以及高性能硬件支持,甲骨文已成为备受青睐的云端人工智能基础设施提供商。此外,凭借庞大的企业应用业务,许多企业已在甲骨文云中积累了大量训练数据。甲骨文的策略是成为主要云服务提供商的经济实惠的替代选择。为优化策略,甲骨文应大幅扩展其人工智能基础设施愿景,不仅提供原始GPU实例,还应向企业阐明为何应考虑与甲骨文云建立长期战略关系。同时,通过增强人工智能专用开发工具来改进其路线图。

甲骨文在数据准备方面表现突出,并在模型训练、推理、容错性和效率方面也有不俗表现。为进一步提升服务,甲骨文可继续优化人工智能工作负载。参考客户认为,与其他云服务提供商相比,甲骨文提供了极具竞争力的人工智能基础设施选择。因此,甲骨文非常适合那些需要在云中获取成本效益高的人工智能计算能力,或已在甲骨文云中存储数据的客户。

挑战者(Challengers)

Cerebras Systems

Cerebras Systems致力于革新人工智能计算领域,但尚未完全实现其愿景。Cerebras是一家于2015年在硅谷成立的初创公司,专注于从头设计专为人工智能工作负载打造的半导体。该公司的关键创新在于一种称为晶片级引擎的技术,这款芯片据称是世界上最大的,其尺寸相当于一个比萨饼。这款大型芯片的设计理念在于减少因互连和其他优化所带来的延迟。该公司利用这款芯片构建了CS-2系统,该系统既可在本地和云端使用,也可通过定制配置(包括超级计算机配置中的集群)提供。目前,其客户主要包括科学组织和生命科学组织等拥有大量人工智能工作负载的机构。Cerebras的策略是为模型训练提供最优的价格/性能比。由于Cerebras主要聚焦于模型训练,因此其未来发展路径依赖于与合作伙伴共同处理数据准备和推理工作负载。

在训练工作负载、工作负载效率以及部署位置(本地和云端)方面,Cerebras具备显著优势。为了进一步完善自身,Cerebras可以扩展其支持的训练工作负载类型,弥补在构建更强大解决方案生态系统方面的不足,并在各个方面取得进步,以使其在本次评估中与其他供应商更为接近。参考客户对Cerebras的训练性能表示赞赏。因此,Cerebras非常适合那些注重Cerebras支持的模型训练性能,并已拥有稳定的数据准备和推理解决方案的客户。

Graphcore

Graphcore专注于设计用于人工智能的芯片,但尚未成功取代GPU的地位。Graphcore是一家总部位于英国的初创公司,成立于2016年,致力于为人工智能工作负载打造半导体。该公司将这些芯片命名为智能处理单元(IPU)。其最新芯片Bow IPU采用了晶片叠层技术,可为特定用例提供高达350 teraflops的人工智能计算能力。Graphcore提供本地系统的Bow PODs和Bow IPU处理器,并与部分云服务提供商合作,在云端提供IPU。Graphcore的策略是通过创新人工智能芯片设计实现卓越性能,但该公司仍需扩展其愿景、创新和未来发展规划,以与业界巨头竞争。鉴于人工智能基础设施需求的迅猛增长,Graphcore可通过建立合作伙伴关系或加大在销售和营销方面的投入来加速其市场推广策略。

在模型训练、推理、开发工具、效率以及部署位置(本地和云端)方面,Graphcore的表现与其他本次评估中的供应商相当。为了进一步提升竞争力,Graphcore可以开发更先进的管理工具和容错能力,并通过扩大解决方案合作伙伴生态系统来弥补能力上的不足。参考客户对Graphcore提供的性价比表示赞赏。因此,Graphcore非常适合那些希望使用或尝试新型人工智能芯片设计,以追求更高性价比的客户。


-

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅