当下,高性能计算(HPC)芯片成为半导体产业发展的主要驱动力,无论是 IC 设计、晶圆代工,还是封装测试企业,正在将越来越多的资源和精力由手机转向 HPC 市场,特别是人工智能(AI)服务器芯片。
目前,称霸 HPC 芯片市场的依然是以英特尔、英伟达和 AMD 这三巨头为代表的美国企业,不过,这些公司的优势主要体现在 IC 设计上,在芯片制造,特别是晶圆代工,以及封装测试方面,美国企业在全球范围内没有优势。
在 HPC 芯片和系统方面,中国本土相关企业和产品一直处于追赶状态,与国际领先技术和企业之间有明显差距。不过,受多种因素影响,近几年,这种落后的局面正在悄然改变,无论是 IC 设计,还是晶圆代工,以及封装测试,中国本土企业的技术和产品力在加速提升。这些给美国 HPC 芯片大厂带来了挑战,在美国政策和中国本土产品竞争力提升的双重压力下,这些美国芯片大厂也在想办法突围。
制程不够,封装来凑
HPC 芯片对晶圆厂的制程工艺要求很高,能够完全提供这种产能的晶圆厂不多,这就是美国积极邀请台积电和三星在其本土建设 5nm 及以下先进制程晶圆厂的主要原因。但是,这样的产能建设需要时间和技术积累,短期内难以形成规模,做先进封装相对容易一些,而且很实用,因为异构芯片很受市场欢迎,而先进封装是实现异构芯片的关键一环,实现起来又比 5nm、3nm 这样的芯片制造产线要容易,因此,无论是美国,还是中国大陆,都把发展先进封装技术和产线看得很重。
市场对先进封装有怎样的需求呢?以 HPC 芯片大厂英伟达和 AMD 为例说明一下。
业界估算,2024 年,英伟达和 AMD 的 AI 芯片出货量总计有望达到 150 万个。据悉,AMD 的 MI300A 于今年第一季度开始量产出货,采用了 Chiplet(小芯片)设计,其中,CPU 和 GPU 部分采用台积电 5nm 制程,I/O 部分采用 6nm,并通过台积电全新系统整合芯片封装(SoIC)和 CoWoS 整合。
与 H100 类似,英伟达最新产品 H200 依然供不应求,预计该公司在 2024 年底前还会推出采用台积电 3nm 制程的 B100 和 GB200 等新产品,估计英伟达今年 AI 芯片出货总量不会低于 100 万个,与 2023 年相比翻倍。这些 Chiplet 设计产品都需要先进封装,台积电的相关产能已经供不应求,这也是 2023 全年高性能 GPU 供不应求的重要原因,这些 GPU 多采用 CoWoS 封装技术,目前,CoWoS 供需缺口不低于 20%,除了英伟达,越来越的国际 IC 设计大厂也在持续增加订单。预计到 2024 下半年,台积电 CoWoS 产能将增加 130%,加上有更多厂商(日月光 ASE、Amkor、矽品、三星和 JCET 等)积极切入 CoWoS 供应链,先进封装市场一片红火。
因此,无论是美国企业(如英特尔和 Amkor),还是美国政府,都在大力发展或扶持先进封装产线。
美国 DARPA 推出了一项名为下一代微电子制造(NGMM)的新计划,主要关注点是 3D 异构集成微系统 ( 3DHI ) ,该计划认为,微电子创新的下一个主要浪潮将来自通过先进封装集成异质材料、器件和电路的能力。可以通过新的封装和集成技术将内存和处理器集成,显著提高芯片性能,芯片能够在不增加更多晶体管的情况下大幅提高速度。
DARPA 表示该计划的目标是建立一个 3DHI 制造中心,并可供学术界、政府和行业用户使用。衡量它成功的标准是能否以合理的成本支持设计、制造、封装和测试各种高性能 3DHI 微系统,且支持快节奏的创新研究。
去年 11 月,美国政府宣布了国家先进封装制造计划愿景 ( NAPMP ) ,NAPMP 是 4 个 CHIPS for America 研发计划之一,政府预计向该计划投入约 30 亿美元,该计划的初始资助分配将于 2024 年初公布。
企业方面,美国最大,全球排名第二的封测企业 Amkor 于 2023 年底宣布在亚利桑那州建设一座先进芯片封装厂,该项目将专注于高性能计算芯片的封装和测试。据悉,该工厂将在 2~3 年内投入生产,并已向美国政府申请 CHIPS 补贴。该工厂建成后,将与附近的台积电新建晶圆厂配合,为苹果、AMD、英伟达、博通等本土大客户提供先进制程芯片制造和封测服务。
美国 HPC 芯片大厂遭遇挑战
除了先进制程制造和封装产能,美国 HPC 芯片大厂还面临着销售渠道不畅通,以及更多竞争对手的挑战。
以英伟达为例,中国大陆市场占其销售额的 20% 左右,该公司不得不多次改变 GPU 性能规格,以满足美国政府的出口要求。
2022 年 8 月,美国政府禁止向中国大陆出口英伟达的 A100 和 H100 芯片,AMD 的 MI250 也被纳入限制名单,因为这些芯片的通信带宽达到了 600GB/s 或更高。针对中国大陆市场,英伟达随后推出了 A800 和 H800 处理器,通信带宽都明显低于 600GB/s。
2023 年 10 月,美国商务部工业与安全局(BIS)表示,将使用 " 性能密度 " 作为新参数对受限芯片进行分类。根据新规定,英伟达的 A800、H800、L40、L40S 和 RTX 4090 相关产品被禁止销往中国大陆。针对这项规定,英伟达又于去年 11 月推出了三款 AI 芯片—— H20、L20 和 L2,但要到 2024 年第二季度才能量产交付。
针对 RTX 4090 在中国大陆销售受限问题,英伟达开发出了 RTX 4090 D 显卡,通过降低部份规格,以符合美国出口管制要求。据悉,RTX 4090 D 满足综合运算性能(TPP)4800 限制,RTX 4090 的 TPP 是 5286。
最近,英伟达推出了最新版本的中国特供 GPU 和显卡 RTX 5880 Ada,符合 4800 TPP 的限制规定。英伟达将 AD102 芯片用于 RTX 6000 Ada 和 RTX 5000 Ada,RTX 5880 Ada 很可能使用相同芯片的变体。AD102 拥有 18,432 个 CUDA 内核。
不止英伟达,由于受到同样的出口限制,英特尔和 AMD 也在向中国大陆市场推出定制化的 GPU 和 CPU 产品。
2023 年 7 月,英特尔针对中国市场推出了一款定制版的 AI 训练处理器 Gaudi2。由于 MI300 系列产品受到美国新规限制,AMD 也计划向中国大陆市场推出特供版的 MI300。
这几家美国处理器大厂如此热衷于为中国大陆市场开发定制版产品,主要原因是这里的市场巨大,有足够的赚钱空间。不过,随着近几年美国限制政策的出台,以及中国本土企业和产品竞争力的提升,英伟达等厂商的技术和产品优势正在缩小。例如,英伟达的 H20 在性能和效率上仍比中国本土 AI 芯片具有优势,但这种优势正在缩小,因为多家中国本土芯片厂商正在快速发展。
事实上,一些中国大陆科技公司已经转向使用本地芯片。
由于中国本土 AI 芯片与英伟达特供版产品之间的差距缩小,进入 2024 年以来,多家中国互联网大厂和云服务提供商表示,今年下订的英伟达 H20 等产品数量将远少于原本想买的,因为本土相关芯片的用量增加了。
测试结果显示,H20 能有效在多个处理器之间高效传输数据,比中国本土相关芯片更适合 AI 计算应用,但是,需要更多 H20 才能表现出英伟达常规 GPU 的算力,这就大幅提高了成本。相比之下,中国本土最先进的 AI 芯片也能处理 AI 相关应用,只是处理任务的复杂度低于英伟达的。知情人士表示,多家中国互联网大厂和云服务提供商已经把一些 AI 芯片订单转至本土厂商。
不止中国市场,英伟达、英特尔等 HPC 芯片大厂还要面对来自美国本土客户的竞争。微软、Meta、亚马逊等云服务提供商为了降低芯片成本,并使芯片供应链多元化,减少对英伟达的依赖,不仅开始提升采购 AMD 的 MI300 系列产品数量,要求 ODM 厂设计专门采用 MI300 系列产品的 AI 服务器,还纷纷加强自研 HPC 芯片力度,争取将更多自研芯片用于自家的互联网和云计算系统。
这样看来,虽然英伟达和 AMD 依然很风光,但受限于先进制程、封装产能,以及来自各级别芯片对手的竞争,这几家处理器传统大厂是有隐忧的,未来的日子不会像现在这么好过。
中国本土 AI 系统的崛起和不足
中国是电子信息制造和消费大国,对 GPU 和 CPU 需求量巨大。近年来,国产 GPU 公司,如璧韧科技、摩尔线程、芯动科技、天数智能、华为等纷纷发布新品,且含金量越来越高。总体来看,中国本土 GPU 和 CPU 性能及生态系统正在逐步完善。
以华为为例,该公司自研的 Ascend 910 系列处理器,特别是其最新版本芯片得到了越来越多中国本土 IT 系统设备和互联网大厂的青睐,订单量持续提升。除了芯片本身,华为还提供相应的开发工具包和跨 AI 的云训练服务。2023 年 8 月,科大讯飞董事长刘庆峰高度评价了华为开发的处理器,将它与英伟达的 A100 进行了比较,刘庆峰表示,科大讯飞正在与华为合作进行硬件开发。当然,不止科大讯飞一家,有几家中国本土头部 IT 和互联网大厂都在与华为和其它本土 HPC 芯片企业合作,开发高性能计算系统。
经过多年的潜心研发和沉淀,近两三年,龙芯迎来了收获季。
2023 年底,龙芯正式推出了 3A6000 处理器。3A6000 依然基于该公司自研的 LoongArch 指令集架构,工艺制程依旧是 12nm,内核升级为 LA664,也就是 64 位。3A6000 为 4 核处理器,所以拥有 4 个 LA664 核心,支持 128 位向量处理扩展指令(LSX)和 256 位高级向量处理扩展指令(LASX)。另外,3A6000 支持同步多线程技术,也就是超线程技术。测试数据显示,3A6000 的 SPEC 性能达到了英特尔 10 代酷睿 4 核处理器的水准。
龙芯还推出了服务器 CPU 芯片 3C6000 和 3D6000,以及具有较高性价比的桌面级 CPU 芯片 2K3000,可用于上网本、工控、迷你主机等。
龙芯也在研发 GPU,于 2023 年底推出了 9A1000,对标 AMD 的 RX 550 显卡,计划在 2024 年第三季度流片。9A1000 支持科学计算加速和 AI 加速。
以华为和龙芯为代表的中国本土厂商不断发力,正在将国产 GPU 和 CPU 推向新的高度,目前来看,这些产品可以替换英伟达和英特尔的中国特供版芯片。
不过,要想跟上国际大厂的最先进 HPC 芯片,中国本土企业还有较长的路要走,攻克其中的技术壁垒依然很难。开发高性能 GPU 和 CPU 是一项系统工程,包含硬件架构、算法、软件生态等多个组成部分,缺一不可。
另外,HPC 系统设计也很复杂,芯片只是其中的一个重要组成部分,复杂系统不是简单的处理器堆砌,如果体系结构设计、高速互联网络、并行文件系统、存储列阵等不过关,即使堆再多的 CPU,整个系统性能也无法提高。
结语
从目前的发展情况来看,未来,美国和中国大陆的 HPC 芯片产业链综合实力都将增强,美国的 IC 设计能力依然强大,同时,其制造、封测能力不断提升,同时,中国大陆的 IC 设计和制造竞争力也会持续提升,并加快追赶传统大厂的脚步。
目前来看,美国发展先进芯片制造和封测具有更多优势,毕竟它们在获得先进半导体设备,以及在本土建先进制程晶圆厂方面更具话语权和掌控力。中国大陆在建先进制程晶圆产线方面,困难较多。在这种情况下,发展先进封装技术和产线就显得更加重要。
近几年,中国投资先进封装技术的力度越来越大。由于小芯片和异构集成已经成为充分利用较为成熟制程节点的重要手段,许多公司正在进入 FOWLP 或 FOPLP 等扇出型封装业务,由于能够实现无基板(no-substrate)解决方案,扇出技术广受欢迎。同时,CoWoS 和 3D 封装技术也成为重点开发项目。总体来看,先进封装已成为中国本土相关企业提升未来市场竞争力的战略手段。
查看