1. 首页>动态 > 动态

亚马逊云科技在纽约峰会上宣布EC2 P5实例正式可用

作者:丁原一
2023年07月31日 17:40
动态

近日,亚马逊云科技在纽约峰会上宣布Amazon Elastic Compute Cloud(EC2)P5实例正式可用。这是一款下一代GPU实例,由最新的英伟达H100 Tensor Core GPU提供支持,可以满足客户在运行人工智能、机器学习和高性能计算工作负载时对高性能和高扩展性的需求。与上一代基于GPU的实例相比,Amazon EC2 P5实例可以将训练时间缩减6倍(从几天缩短到几小时),从而帮助客户节省高达40%的训练成本。

Amazon EC2 P5实例提供8个英伟达H100 Tensor Core GPU,具有640 GB高带宽GPU内存,同时提供第三代AMD EPYC处理器、2TB系统内存和30 TB本地NVMe存储。Amazon EC2 P5实例还提供3200 Gbps的聚合网络带宽并支持GPU Direct RDMA,从而能够绕过CPU进行节点间通信,实现更低的延迟和高效的横向扩展性能。

亚马逊云科技与英伟达携手开发下一代基础设施

亚马逊云科技和英伟达(NVIDIA)在今年3月宣布了一项多方合作,构建全球最具可扩展性且按需付费的人工智能基础设施,以便训练日益复杂的大语言模型和开发生成式AI应用程序。

当时,亚马逊云科技预发布了由英伟达H100 Tensor Core GPU支持的Amazon EC2 P5实例,可为构建和训练更大规模的机器学习模型提供高达20 exaFLOPS的算力。亚马逊云科技和英伟达合作十多年来成果颇丰,推出了包括支持视觉计算、人工智能和高性能计算集群的各种GPU实例,如CG1实例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)实例。

现在,机器学习模型的规模已经达到数万亿参数,这种复杂性大大增加了客户训练模型所需的时间,例如,最新的大语言模型训练时间长达数月之久。类似的趋势也出现在高性能计算领域。随着高性能计算客户数据收集准确度的提高以及数据集达到EB级规模,客户已经在寻找解决日益复杂应用程序的更快方法。

推荐阅读