新闻中心

EEPW首页 > 智能计算 > 市场分析 > 自研AI服务器芯片,竞争升级

自研AI服务器芯片,竞争升级

作者: 时间:2024-04-30 来源:半导体产业纵横 收藏

有越来越多的互联网和 IT 设备大厂开始自研 AI 服务器芯片,最近,这一风潮吹到了苹果公司,据悉,该智能设备龙头正在开发用于 AI 服务器的定制芯片。

本文引用地址://www.cazqn.com/article/202404/458241.htm

与微软和谷歌等竞争对手相比,苹果在推出生成式 AI 方面进展较慢,不过,苹果公司 CEO 库克称,AI 已经在苹果产品的幕后发挥作用,此前有媒体报道,苹果计划使用 AI 来提高搜索存储在苹果设备上的数据的能力。

今年 2 月,库克在年度股东大会上表示,使用苹果 AI 技术的功能包括 Vision Pro 的手部跟踪工具和 Apple Watch 的心率警报。他还表示,MacBook 中的芯片能够运行 AI。

库克表示,今年晚些时候,将与大家分享如何在生成式 AI 领域开辟新天地。苹果公司通常在 6 月份的年度开发者大会上宣布新的软件产品和功能。

知名分析师郭明錤在 2023 年 10 月发布的一份报告显示,预计苹果在 2023 和 2024 年分别采购 2000–3000 台、1.8 万–2 万台 AI 服务器,分别占同期全球 AI 服务器出货量的 1.3% 和 5%。估算苹果在 2023 和 2024 年需要分别支出约 6.2 亿和 47.5 亿美元,用于 AI 服务器采购。

基于苹果产品的功能需求,以及庞大的 AI 服务器资本支出,再结合该公司自研芯片的历史,相信其自研 AI 服务器芯片是早晚的事,特别是苹果放弃造车,将资金和资源重点投入到 AI 技术和产品研发上,自研 AI 服务器芯片就更加顺理成章了。

AI 服务器芯片的重要性

据统计,2024 年,全球服务器出货量约 1365.4 万台,其中,各家 ODM 的出货以 AI 服务器最为强劲。分析师指出,2024 年,AI 服务器出货年增长率和占比都将达到两位数,这主要得益于生成式 AI 市场的增长。

预计生成式 AI 市场规模将从 2022 年的 400 亿美元增长到 2032 年的 1.3 万亿美元,年复合增长率高达 41.7%。由于全球生成式 AI 市场商机与增长潜力巨大,对训练 AI 系统的软硬件需求量很大,使得市场对 AI 服务器及相关芯片的需求不断增长。

AI 大模型迭代速度越来越快,厂商对智能算力的投入大幅增加,支持存储和训练的高端 AI 服务器的需求激增,2023 和 2024 年,大模型训练所需数据量激增,AI 大模型厂商需要的是能够支持存储和训练的高端 AI 服务器,因此,各服务器厂商都在升级芯片规格、扩大卡组数量。

与传统服务器相比,AI 服务器在多个方面有所不同。硬件方面,AI 服务器采用异构形式,内存容量更大,可满足不同场景需求;卡的数量方面,由于 AI 服务器需要大量计算,至少配置 4 个 GPU 卡,有的需要 8 个;系统结构方面,AI 服务器在散热、拓扑等方面进行了专门设计,以实现稳定运行。

自研 AI 服务器芯片热潮

根据应用场景不同,AI 服务器可分为深度学习训练型和智能应用推理型;根据计算模块结构不同,AI 服务器可分为 CPU+GPU、CPU+ASIC、CPU+FPGA 等,其中,最常见的是 CPU+多块 GPU 组合模式。

虽然 AI 服务器计算系统主要由 CPU 和 GPU 组成,但就目前而言,GPU 占据了较大市场份额,CPU 份额相对较小。在这种情况下,GPU 厂商的行业地位就很凸出了。然而,虽然市场很大,但能够提供高性能 GPU 的厂商却很少,目前,能够形成一定市场规模的厂商只有 3 家:英伟达,AMD 和英特尔。

基于这种市场供求关系,对 AI 服务器具有很大需求量的互联网和 IT 设备大厂纷纷开始自研相关芯片,如亚马逊 AWS,谷歌,Meta,微软和苹果。

亚马逊 AWS 自研芯片始于 2015 年,当时收购了 Annapurna Labs,2018 年,AWS 推出了基于 Arm 架构的 Graviton 处理器,这是其首款自研服务器芯片。2020 年,AWS 发布了 Graviton2。2023 年 12 月,AWS 推出了 Graviton4 和 Trainium2,Graviton4 的性能比 Graviton2 提升了 30%,Trainium2 在 AI 训练速度上提升了 4 倍。

2016 年,谷歌推出了自研的 AI 张量处理单元(TPU),这些专为机器学习设计的芯片为谷歌云平台上提供了 AI 加速能力,2022 年前后,谷歌开始研发基于 Arm 架构的服务器 CPU,2024 年 4 月,谷歌发布了首款自研 Arm 构架 CPU——Axion,并宣布该芯片已经在内部使用。

2020 年,微软开始为其 Azure 云服务定制芯片,2023 年 11 月,微软推出了两款自研芯片——Maia100 和 Cobalt100。Maia100 是一款专为大语言模型训练和推理而设计的芯片,采用台积电 5nm 制程,Cobalt100 是一款基于 Arm 架构的 128 核服务器 CPU。

今年 4 月初,Meta 发布了新一代 AI 训练和推理加速器 MTIA,其计算和内存带宽是上一代产品的两倍多,最新版本芯片有助于驱动 Facebook 和 Instagram 上的排名和推荐广告模型。

自研 AI 芯片的好处

互联网和 IT 设备大厂自研 AI 芯片的核心动机是降低成本。当然,自研芯片的前提是自身有很大的需求量,否则自研没有意义。这些大厂的巨量规模能够分摊芯片研发成本,随着产量的增加,单位芯片的成本会降低。通过自研,这些大厂可以直接控制芯片的设计和生产成本,从而减少对外部供应商的依赖。这种成本控制能力使它们能够更有效地管理运营支出,提高整体利润率。自研芯片还可以优化供应链管理,减少中间环节,从而降低采购成本和物流成本。此外,自研芯片可以根据云服务的具体需求进行定制,避免不必要的功能和性能过剩,进一步降低生产成本。

通过自研芯片,这些大厂能够掌握更多的议价权和定价权,避免成为英特尔、英伟达等传统芯片商的「打工仔」。这不仅有助于提升利润空间,还能够在价格竞争中保持灵活性,根据市场情况调整定价策略。

自研芯片还可以帮助这些大厂完善软硬件生态系统,它们能够根据自家的业务需求和特点定制芯片,从而实现硬件与软件之间的无缝对接和优化。自研芯片还可以保持技术创新,随着云计算、大数据、人工智能的快速发展,数据中心面临的工作负载越来越多样化,自研芯片使这些大厂能够快速响应市场变化,及时推出符合新需求的产品和服务。

自研 AI 服务器芯片的难度有多大?

AI 服务器芯片属于超大规模集成电路,除了需要大量资金投入,其设计和制造的难度都很大,需要能够精准把握技术路线选择,另外,在团队建设,以及与晶圆代工厂合作方面,需要具备业界顶级水平,才能把芯片做好。

AI 服务器需要训练和推理两类处理器和系统,如何规划技术发展路线是关键,也就是说,是发展训练,还是推理,或是兼而有之,是不同的技术路线,这要考虑到市场现状及未来的发展情况。

训练芯片主要用于 AI 算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整、优化算法参数,直至算法识别准确率达到较高水平。推理芯片主要用于 AI 算法推理,将在云端训练好的算法模型进行裁剪、优化变「轻」之后,进入应用阶段,输入数据直接得出识别结果。

不同用途(训练和推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。训练芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。「端-边-云」这 3 个环节对 AI 芯片的要求也不同,在端和边上进行的大部分是 AI 推理,大部分的训练是在云和数据中心进行的,训练过程对时延没有什么要求,需要保证 AI 芯片在尽可能保证较高算力的情况下,功耗尽量低。

目前,英伟达 GPU 主导的 AI 训练市场最为火热,然而,随着 AI 应用的深入展开,巨大的推理芯片市场会逐渐展现出来,该市场比我们目前看到的要大得多,没有任何一家厂商的芯片能够满足这个市场需求。这就是前文提到的亚马逊、谷歌、微软,甚至英伟达自研 CPU 的原因所在。

有统计显示,AI 芯片市场包括约 15% 的训练,45% 的数据中心推理和 40% 的边缘推理。在这样的行业背景下,大厂自研芯片,必须找准方向,权衡好中短期和中长期应用需求,分配好训练芯片和推理芯片的研发投入。

芯片研发团队建设也很重要。

技术团队搭建,是一个长期积累的过程,需要时间,难度不小,因此,多家互联网大厂对芯片设计外包服务的依赖度较高,这恐怕只能解决短期、少量需求问题,长期来看,还需要技术积累和芯片团队建设。

下面看一下自研芯片大厂与晶圆代工厂的合作关系。

AI 服务器芯片采用的都是最先进制程工艺,这方面,考虑到三星电子的先进制程(4nm 和 3nm)良率迟迟提升不上去,台积电几乎是唯一的晶圆代工厂选择。

根据专门研究半导体公司的金融分析师 Dan Nystedt 的估计,2023 年,苹果公司占台积电收入的 25%(175.2 亿美元)。

2023 年,台积电的前 10 名客户占其收入的 91%,高于 2022 年的 82%,这些公司包括联发科、AMD、高通、博通、索尼和 Marvell。可以看出,没有一家互联网大厂,除了苹果,都是 IC 设计大厂。

多年来,苹果一直是台积电的头号客户,而且,在未来多年内将一直是台积电的第一大客户。据悉,苹果自研的 AI 服务器芯片将采用台积电的 3nm 制程工艺,将在 2025 下半年生产,那时,台积电的 3nm 制程将升级到「N3E」版本。

对于互联网和 IT 设备大厂来说,自研的 AI 服务器芯片,必须找到足够好的晶圆代工厂生产,要想保持长期、稳定发展,就必须对晶圆代工厂的制程工艺有足够的了解。这方面,与谷歌、亚马逊和微软相比,苹果具有先天优势,因为该智能设备巨头是台积电多年的第一大客户,双方有深入了解,能够更好地把握好芯片生产规模、良率、成本,可以实现无缝过渡。

芯片设计服务商机无限

如前文所述,互联网大厂自研 AI 服务器芯片,由于研发难度很大,这些大厂短时间内又难以形成有足够技术和经验积累的团队,因此,选择外包,找芯片设计服务合作伙伴就成为了不二选择。

例如,谷歌开发的两种 Arm 服务器 CPU,其中一款代号为「Maple」,是基于 Marvell 的技术。

另外,谷歌自研的 TPU 用于取代英伟达的 GPU,谷歌设计的芯片蓝图,都由博通进行物理实现。物理实现是将逻辑电路转换为有物理连接的电路图的过程,博通绘制好物理版图后,再送到台积电流片,流片成功后的芯片正式进入制造环节,整个过程都需要博通深度参与。

数据中心中成百上千个高性能处理器共同运作,它们之间的通信就成为了大问题,这也是当下数据中心性能损耗的主要来源。

博通是通信巨头,最善于解决通信带宽问题,在全球 50GB/s 的 SerDes 市场中,博通占据了 76% 的份额,其 SerDes 接口通过将低速并行数据转换为高速串行数据,然后在接收端转换回并行数据。通过这样的操作,数据可以从一个 TPU 高速转移到另一个 TPU,大大提升了传输效率。

有了博通的帮助,谷歌自研芯片的项目进展速度明显加快了,TPU 从设计开始,仅用 15 个月就部署进了数据中心。

随着大模型市场竞争快速展开,谷歌大幅增加了 TPU 设计服务订单,使博通一跃成为仅次于英伟达的 AI 芯片厂商,Semianalysis 预估,AI 芯片会在 2024 年给博通带来 80 亿~90 亿美金的营收。

不止谷歌,Meta、亚马逊、微软等大厂都在加大自研 AI 服务器芯片的投入力度,找芯片设计服务外包合作伙伴的需求只增不减,此时,以博通、Marvell 为代表的芯片设计服务公司的商机会越来越多。



关键词: AI服务器

评论


技术专区

关闭