亚马逊云科技在纽约峰会上宣布EC2 P5实例正式可用

近日，亚马逊云科技在纽约峰会上宣布Amazon Elastic Compute Cloud(EC2)P5实例正式可用。这是一款下一代GPU实例，由最新的英伟达H100 Tensor Core GPU提供支持，可以满足客户在运行人工智能、机器学习和高性能计算工作负载时对高性能和高扩展性的需求。与上一代基于GPU的实例相比，Amazon EC2 P5实例可以将训练时间缩减6倍(从几天缩短到几小时)，从而帮助客户节省高达40%的训练成本。

Amazon EC2 P5实例提供8个英伟达H100 Tensor Core GPU，具有640 GB高带宽GPU内存，同时提供第三代AMD EPYC处理器、2TB系统内存和30 TB本地NVMe存储。Amazon EC2 P5实例还提供3200 Gbps的聚合网络带宽并支持GPU Direct RDMA，从而能够绕过CPU进行节点间通信，实现更低的延迟和高效的横向扩展性能。

亚马逊云科技与英伟达携手开发下一代基础设施

亚马逊云科技和英伟达(NVIDIA)在今年3月宣布了一项多方合作，构建全球最具可扩展性且按需付费的人工智能基础设施，以便训练日益复杂的大语言模型和开发生成式AI应用程序。

当时，亚马逊云科技预发布了由英伟达H100 Tensor Core GPU支持的Amazon EC2 P5实例，可为构建和训练更大规模的机器学习模型提供高达20 exaFLOPS的算力。亚马逊云科技和英伟达合作十多年来成果颇丰，推出了包括支持视觉计算、人工智能和高性能计算集群的各种GPU实例，如CG1实例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)实例。

现在，机器学习模型的规模已经达到数万亿参数，这种复杂性大大增加了客户训练模型所需的时间，例如，最新的大语言模型训练时间长达数月之久。类似的趋势也出现在高性能计算领域。随着高性能计算客户数据收集准确度的提高以及数据集达到EB级规模，客户已经在寻找解决日益复杂应用程序的更快方法。