性能飙升90%最强AI芯片为何卡在算力涨价时登场

  全球算力资源动荡时刻,H200顶着“最强AI”芯片的头衔亮相,其会缓解当下算力资源紧张的局面吗?

  当地时间周一,半导体巨头英伟达发布了新一代人工智能(AI)芯片H200,旨在培训和部署各种人工智能模型。

  新的H200芯片是当前用于训练最先进大语言模型H100芯片的升级产品,集成了141GB的内存。在用于推理或生成问题答案时,更加擅长进行“推理”性能较H100提高60%至90%。

  据英伟达官网消息,基于英伟达的“Hopper”架构的H200也是该公司第一款使用HBM3e内存的芯片,这种内存速度更快,容量更大,因此更适合大语言模型。

  英伟达称:借助HBM3e,英伟达H200以每秒4.8TB的速度提供141GB的内存,与A100相比,容量几乎是其两倍,带宽增加了2.4倍。

性能飙升90%最强AI芯片为何卡在算力涨价时登场

  另外,H200预计将于2024年第二季度上市,将与AMD的MI300X GPU展开竞争。与H200类似,AMD的芯片比其前身拥有更多的内存,这有助于大语言模型来运算推理。

  英伟达表示,H200将与H100兼容,这意味着已经在使用H100进行训练的人工智能公司,不需要改变他们的服务器系统或软件来适应H200。

  英伟达副总裁伊恩·巴克声称:“为了训练生成式人工智能和高性能计算应用程序,必须使用高效能GPU。而有了H200,业界领先的人工智能超级计算平台可以更快地解决一些世界上最重要的挑战。”

  英伟达加速计算首席产品经理迪翁·哈里斯表示:“看看市场上正在发生的事情,你会发现大模型尺寸正在急速膨胀。这是我们继续引领最新、最伟大技术的又一个例子。”

  与作为前辈的A100和H100相比,H200最大的变化就是内存。搭载“世界上最快的内存”HBM3e技术的H200在性能上得到了直接提升,141GB的内存几乎是A100和H100最高80GB内存的2倍,4.8TB每秒的带宽则达到了A100的2.4倍,也显著高于H100 3.35TB每秒的带宽。

  英伟达表示,根据使用Meta的70B大模型Llama 2进行的测试,H200的输出速度几乎是H100的两倍。基于与H100相同的Hopper架构,H200将具有H100的一切功能,例如可以用来加速基于Transformer架构搭建的深度学习模型的Transformer Engine功能。

  据美国金融机构RaymondJames透露,H100芯片成本仅3320美元,但英伟达对其客户的批量价格仍然高达2.5万至4万美元。这导致H100利润率或高达1000%,成为了有史以来最赚钱的一种芯片。

  而在训练大语言模型时,需要数千个H100集群工作,这导致科技巨头、初创公司和政府机构都在争夺英伟达有限的芯片供应。

  此外,尽管如此,英伟达并不会向中国厂商供应H200芯片。这并非由于价格和产能问题导致,而是美国最近出台的人工智能(AI)芯片管制新规所致。

  在这样的大背景下,英伟达只能为其他地区客户提供性能下降80%的版本的H200芯片。这种举措引发了业界对于中国厂商未来发展的担忧。

  近日,有消息称,因算力需求旺盛、供给紧张,阿里云官网已经暂停A100服务器出租业务。市场普遍猜测,阿里云目前已经无货可用于对外出租,但这一消息并未得到证实。

  国盛证券在一研报中称,随着拿卡难度加大,算力运营方开始已经“抢单”,H800服务器的报价甚至上冲300万/台。而硬件成本上涨已传导至算力租赁报价。

  以中贝通信为例,该公司在9月初签订一份算力服务协议显示,其以H800设备为基础搭建算力服务平台,提供960P算力服务,服务费为含税12万元/P/年。而在10月25日,该公司另一份协议显示,其向对方租赁容量为800P算力资源,租赁价格到了2.5万美元/P/年(按照当日汇率折算17.9万元人民币)。

  浙商证券在一份研报中举例,GPT-3训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,但用于训练的GPU数量增加了近24倍。

  因此,在该机构看来,国内15家头部大模型厂商对标GPT-3模型的训练需求,需要1920台A100/A800服务器,对应15360张GPU。而如果考虑国内5家头部大模型厂商对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11万张GPU。

  由于英伟达对华禁售,或导致国内算力资源无法快速扩张,因此AI算力芯片国产化和AI算力服务器国产化就尤为重要。市场已经开始寻求算力的国产替代机会。

  国盛证券认为,国产替代短期突破点为兼容CUDA。目前,国产GPU厂商沐曦测试完成了MXC500系列GPU,目标算力15 TFLOPS@FP32,兼容CUDA生态;海光信息协处理器DCU产品兼容“类CUDA”环境。短期来看,兼容CUDA有望解决国产算力“有没有”的难题。

  而从长期来看,需要构建自主的软硬件生态。华为近期发布了异构计算架构CANN 7.0,CANN搭建了从上层深度学习框架到底层AI硬件的桥梁,支持华为升思MindSpore、PaddlePaddle、PyTorch、TensorFlow、Caffe、Jittor等主流AI框架。

  该机构认为,拥抱类似于CANN的拥有自主技术的软件架构,是构建AI算力市场“第二极”的必经之路,也有望解决国产算力“好不好用“的问题。

  需要注意的是,多家算力运营商已相继走上寻求国产替代之路。中贝通信在近日机构交流中透露,该公司近期已与华为就华为根技术生态联盟合作、技术与业务合作等方面开展了交流,与超聚变达成算力合作意向,国产算力部署计划在细化落实中。

  而恒为科技也表示,公司与华为昇腾在异构智算中心的技术方案和运维方案方面,正在探讨合作,并在推进一些实际项目的落地。另外,其也与华为昇腾在私域模型训推一体机方面正在进行测试和移植等合作。

  弘信电子在近期也对机构透露,该公司先后与燧原科技、摩尔线程签署协议建立了战略合作关系,深度绑定国内AI算力芯片核心企业,推进AI算力芯片及服务器国产化落地。

  即便是跨界玩家鸿博股份也表示,该公司旗下英博数科实时关注并同步国产硬件的训练数据,与主流头部企业均保持深度密切的技术交流。

  壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者

您可以还会对下面的文章感兴趣:

使用微信扫描二维码后

点击右上角发送给好友