bear458加速器小熊官网入口

案例中心

在AWS上为生成性AI制定的网络最佳实践 网络与内容交付

AWS上的生成AI网络最佳实践

由 Hernn Terrizzano 和 Marcos Boaglio 撰写于2024年8月12日,发布于 高级(300)、亚马逊机器学习、亚马逊SageMaker、亚马逊SageMaker HyperPod、亚马逊简单存储服务(S3)、亚马逊VPC、AWS大数据、AWS数据库迁移服务、AWS DataSync、AWS深度学习AMI、AWS Direct Connect、AWS PrivateLink、AWS站点对站点VPN、最佳实践、生成AI、高性能计算、迁移与传输服务、网络与内容交付、思想领导 永久链接 分享

关键要点

生成AI的发展:生成AI的需求日益增加,需要强大的计算资源和管理大量的数据。网络的重要性:有效的网络对于生成AI的各个阶段数据收集、训练和部署至关重要。最佳实践:文章分享了针对在AWS上训练和微调生成AI模型的网络建议和最佳实践。

引言

随着生成人工智能生成AI的不断发展,对于更强大、有效的计算资源的需求日益上升,同时管理急剧增加的数据量也成为一项重要任务。用于训练生成AI模型的数据集通常以TB太字节为单位,而传统机器学习ML数据集通常为以GB千兆字节为单位,相差悬殊。这直接与生成AI模型中使用的数十亿个参数神经网络权重有关。学术研究显示了模型大小与训练所需数据之间的相关性,以达到最佳性能。

在这种背景下,网络在生成AI工作流的所有阶段中扮演了至关重要的角色:数据收集、训练和部署。本文将分享一些在亚马逊网络服务AWS上训练和微调生成AI模型的网络建议和最佳实践。

免费IP加速器

参考架构

以下图示展示了一个可作为参考的样本架构。我们将在本帖的其余部分详细说明组件。该架构的变体也存在,本文不以每种可能组合的形式展示。例如,AWS DataSync可以直接写入亚马逊FSx for Lustre,而亚马逊弹性计算云Amazon EC2 实例可以通过来自AWS PrivateLink的网关VPC端点读取训练数据。

在AWS上为生成性AI制定的网络最佳实践 网络与内容交付

图1:参考架构

数据收集

训练生成AI模型的第一步是将数据移动到进行训练的AWS区域。避免直接从AWS计算节点访问本地数据源如共享文件系统和Hadoop集群。像网络文件系统NFS和Hadoop分布式文件系统HDFS这样的协议并未设计用于广域网WAN,其带宽通常较低。相反,首先使用我们在本节中讨论的专用服务将数据复制到AWS。亚马逊S3是一个常用的服务,它因低成本、高性能和耐用性而被广泛用于存储训练数据。

在线数据复制

如果带宽足够,数据可以通过网络传输。AWS DataSync代理将被作为虚拟机VM部署在本地,可以从多个来源读取数据,包括NFS、服务器消息块SMB文件共享、Hadoop集群和第三方云服务。数据复制的目标包括亚马逊S3和亚马逊FSx for Lustre。AWS DataSync提供了飞行加密和端到端的数据验证。AWS DataSync还可用于不同服务之间和不同AWS区域之间的数据传输,例如,从亚马逊弹性文件系统Amazon EFS将数据复制到不同区域的S3桶。要从S3桶复制数据到不同区域的桶,建议使用S3跨区域复制CRR。

在网络层,AWS DataSync支持公用互联网、AWS站点对站点VPN和AWS Direct Connect。公用互联网只需本地数据中心的一条互联网连接,但会受到互联网天气的影响。站点对站点VPN连接提供了一种快速和便利的方法来连接到AWS,但每条隧道的带宽限制为125Gbit每秒Gbps。而AWS Direct Connect提供敏感训练数据集的快速和安全的数据传输,它跳过公共互联网,并在您的网络和AWS全球网络骨干之间创建物理私有连接。AWS Direct Connect的速度可高达100 Gbps,在全球100多个地点可用。400 Gbps端口在选定地点提供给需要最高性能的客户。

AWS DataSync支持包括联邦信息处理标准FIPS在内的公共服务端点和VPC服务端点。AWS Direct Connect公共虚拟接口VIFs提供了一种经济高效的方式来连接公共和FIPS端点。如果您选择使用VPC服务端点,可以选择私有或传输VIF。您将在您创建的与DataSync服务通过PrivateLink管理和控制流量的接口亚马逊VPC端点上被收取AWS PrivateLink的费用。值得注意的是,只有控制流量会收费,而DataSync传输的文件或对象不需支付PrivateLink的费用。请参阅文章提高AWS和混合网络的性能以深入分析影响网络吞吐量的因素。

离线数据复制

对于较大数据集或连接性受限的站点,AWS Snow Family提供了离线数据复制功能。例如,使用1 Gbps链接移动1PB拍字节的数据可能需要4个月,但使用五台AWS Snowball边缘存储优化设备则可以在几天内完成。AWS Snow Family设备将被运送到您的设施,在那里您可以将其连接到网络并复制数据。然后,它们使用E Ink运输标签返回AWS,方便跟踪和将数据上传到亚马逊S3。所有转移到AWS Snow Family设备的数据都将自动使用256位加密密钥进行加密,这些密钥由AWS密钥管理服务AWS KMS管理。加密密钥不会存储在设备上,因此您的数据在传输过程中保持安全。您可以参考下面的表格,在在线和离线数据传输之间进行选择。

图2:在线与离线传输时间对比

离线与在线结合

某些用例可能需要结合使用的方法。初始训练数据可以离线传输,之后增量更新则可以定期或持续发送。这些增量数据可用于模型重训练、微调或检索增强生成RAG。例如,在使用AWS Snow Family进行首次传输后,可以使用AWS数据库迁移服务AWS DMS进行长期复制,捕获数据库中的更改并将其发送到亚马逊S3。

训练

在训练阶段,我们可以区分两种用例:访问训练数据和训练节点之间的数据交换。

访问训练数据

存储在S3中的训练数据可以通过链接到亚马逊FSx for Lustre进行访问。FSx for Lustre的低延迟和高吞吐特性经过优化,专门用于深度学习、生成AI和高性能计算HPC工作负载。如果希望直接从亚马逊S3访问数据,最具可扩展性的方法是使用亚马逊VPC网关端点。网关端点提供对亚马逊S3和亚马逊DynamoDB的可靠连接,无需VPC的互联网网关或NAT设备。为了进一步提高亚马逊S3的访问时间,您可以使用亚马逊S3快速单区存储类别。亚马逊S3快速单区是一个高性能、单区存储类别,旨在为最敏感的延迟应用提供一致的单数字毫秒数据访问。S3快速单区是目前最低延迟的云对象存储类别,数据访问速度可提高多达10倍,且请求成本比S3标准低50。

其他AWS服务和第三方SaaS产品可以通过AWS PrivateLink访问。利用AWS PrivateLink允许您的VPC中的资源使用私有IP地址连接到其他VPC中的服务,仿佛这些服务直接托管在您的VPC中。默认情况下,每个VPC端点的带宽为每可用区最高10 Gbps,并会自动扩展到100 Gbps。如果需要额外的带宽,可以通过多个接口端点扩展流量。如果您同时控制源VPC和目标VPC,VPC对等互连提供了无需额外费用并且没有带宽瓶颈的连接,但对跨可用区和区域的数据传输会收取费用。

训练节点之间的数据交换

有多种技术可改善训练节点之间信息交换的性能。本节将解释三种方法:扁平化网络拓扑、绕过操作系统和启用数据流并行性。

网络拓扑

网络分层构建见图3,这降低了复杂性,同时实现了水平扩展。大多数网络还实施超订阅,这意味着上层的带宽少于底层带宽的汇总。以图3为例,这意味着从网络节点2到网络节点1的带宽低于节点2到节点4和节点5的带宽总和。这同样意味着A和B之间的通信可用的带宽会多于A和C之间的通信,除了额外减少网络跳数带来的更低延迟外。

超订阅适用于大多数带宽需求变化的应用,为聚合流量需求和偶尔的峰值提供了一种经济有效的方式,假设不是所有节点都需要同时传输数据。然而,当训练节点交换训练数据和协调训练结果以更新模型权重时,分布式训练算法打破了这一假设。

图3:网络拓扑图

亚马逊EC2放置组可以影响EC2实例在网络拓扑中的位置。集群放置策略将实例紧密打包在一个可用区内。这使得工作负载能够实现紧密耦合节点之间通信所需的低延迟网络性能。您可以通过亚马逊EC2实例拓扑来验证实例的放置,以进一步优化机器学习ML任务。该API允许您描述实例拓扑,并提供实例之间相对接近度的层次化视图。

绕过操作系统(OS)

操作系统绕过是一种访问模型,允许ML应用程序直接与网络接口硬件通信,以提供低延迟、可靠的传输功能,而无需操作系统内核带来的性能损失。[用于机器学习的常用Amazon EC2实例](https//

使用 Generative AI 优化网络安全趋势关键要点Generative AI 的应用:超过 55 的公司已在网络安全管理中采用 Generative AI,展示了显著的增长趋势。财务回报:使用 Generative AI 进行网络安全管理的组织能够获得更高的年度收入节省,平均保存 77 的年...

在 Amazon RDS for SQL Server 上启用和优化审计文章重点在本篇文章中,我们将介绍如何在 Amazon RDS for SQL Server 上有效且高效地设置审计,并讨论最佳实践以优化您的审计配置。SQL Server 提供了广泛的事件日志功能,以追踪从资料库到伺服器层级的各...