最强AI芯片来了!英伟达H200发布,3款"缩水"芯片难以满足中国

图片

文 / 道哥


近日,在2023年的全球超算大会(SC23)上,英伟达发布了其最新的AI芯片——NVIDIA HGX H200(以下简称“H200”)。这款芯片是其前代产品H100的升级版,基于相同的Hopper架构,但在性能和效率上有了显著的提升,堪称目前全球最强AI芯片。

图片

最强AI芯片英伟达H200发布

据悉,H200是首款采用HBM3e GPU(内存,相较此前速率更快、容量更大),进一步加速生成式AI与大语言模型,同时推进用于HPC(高性能计算)工作负载的科学计算,可提供传输速度4.8 TB/秒的141GB显存。

相比前一代的NVIDIA A100,其容量几乎翻了一倍,带宽增加了2.4倍。这种改进使得H200能够更高效地处理大规模的数据集,从而加速生成式AI和大语言模型的训练。

对于HPC(高性能计算)工作负载,H200同样表现出色。其高显存带宽确保了数据的高效访问,与CPU相比,获得结果的时间最多可提升110倍。这使得H200不仅适用于AI大模型的训练,还适用于各种科学计算。

在架构方面,尽管H200与H100基于相同的Hopper架构,但性能有了显著的提升。

根据英伟达的测试,H200在700亿参数的Llama 2大模型上的推理速度比H100快了一倍,推理能耗直接降低了一半。此外,H200在Llama 2和GPT-3.5大模型上的输出速度分别是H100的1.9倍和1.6倍。这些性能提升使得H200成为了AI和HPC应用的理想选择。

图片

除了硬件上的升级,H200还在软件上与H100保持兼容。这意味着H200将继承H100的所有功能,同时提供更强的性能和效率。此外,H200提供了四路和八路H200服务器主板的可选配置,使其可以部署在各种类型的数据中心,包括本地、云、混合云和边缘环境。

根据英伟达的规划,H200预计将于2024年第二季度开始出货。亚马逊云科技、谷歌云、微软Azure和甲骨文云等云服务提供商也预计将成为首批部署基于H200实例的服务商。这对于渴望利用生成式AI和HPC应用的企业和组织来说,无疑是一个令人振奋的消息。

值得一提的是,英伟达的股价在发布这一新品的消息后持续上涨,这反映出市场对英伟达及其新产品线的强烈信心。随着AI和HPC市场的持续增长,英伟达通过其强大的产品和创新能力,继续巩固其在这些领域的领先地位。

图片

中国市场仍要努力

此前不久,针对中国市场,英伟达还推出了三款基于H100的AI芯片,分别是HGX H20、L20 PCle、L2 PCle。据规格文件显示,这三款产品主要面向训练、推理和边缘场景,并预计将于今年11月至明年1月间量产。然而,与H100相比,这些芯片在性能上有所缩减,有些“鸡肋”的味道。

其中,HGX H20在带宽和计算速度等方面受到限制,理论上整体算力比H100降低约80%。尽管价格相对下降,但仍可能比国内AI芯片910B高一些。对于这种性能,有行业人士认为其对中国客户而言有些“鸡肋”。

那么,国产芯片是否可以替代?据智百道了解,目前国内AI芯片910B在大模型推理方面仅能达到A100的60%-70%性能,且算力功耗、发热等方面远高于英伟达A100/H100系列产品。

此外,新的HGX H20芯片虽然采用了先进封装技术并拥有更高的互联速率,但其FP16稠密算力仅为H100的15%。因此,在算力集群方面,新的H20芯片的理论极限低于H100/H800和A100,需要增加更多成本和扩展更多算力才能完成大规模模型训练。

图片

有行业专家预测,基于目前性能参数的预估,明年英伟达B100 GPU产品可能不再向中国市场销售。但是,整体来看,对于需要进行大规模模型训练的大模型企业而言,目前只有H800和H100能够胜任。国产910B芯片性能介于A100和H100之间,只是备用选择。而新的H20芯片更适用于特定领域的模型训练和推理,无法满足万亿级大模型训练需求。

因此,英伟达新推出的H20芯片更适用于垂类模型训练、推理,在一定程度上对国产AI芯片市场形成了冲击,但其仍无法满足万亿级大模型训练需求,无法完全满足中国市场的需求。

最新财报显示,截至7月30日的一个季度内,英伟达135亿美元的销售额中,有超过85%份额来自美国和中国,只有大约14%的销售额来自其他国家和地区。

中国市场是英伟达无法忽视的,而随着中国自身芯片产业的崛起,英伟达“缩水”版芯片还会有多大吸引力,值得持续观察。