Elastic Fabric Adapter向けKubernetes Dynamic Resource Allocationの発表
ID 4751
GUID 4f1cb89c610d045dda5390babca3660caf8fc615
発表日(JST)
要約生成日時(JST)
タイトル Elastic Fabric Adapter向けKubernetes Dynamic Resource Allocationの発表
詳細リンク https://aws.amazon.com/about-aws/whats-new/2026/05/kubernetes-dra-elastic-fabric-adapter/
カテゴリ
  • amazon-eks
  • containers
要点
  • Amazon EKSがElastic Fabric Adapter(EFA)向けのDynamic Resource Allocation(DRA)をサポート開始
  • AI/ML/HPCワークロードの高性能ノード間通信とRDMAを簡素化
  • トポロジーを考慮した割り当てにより、GPU/Trainium/Inferentiaデバイスに最も近いEFAインターフェースを通じてトラフィックをルーティング
  • 同一ノード上のワークロード間でEFAインターフェースの共有が可能で、利用率を最大化
  • Kubernetesバージョン1.34以降のAmazon EKSクラスターでの新規デプロイメントに推奨
  • Amazon EKSが利用可能なすべてのAWSリージョンで提供
  • 従来のEFAデバイスプラグインはKarpenterおよびEKS Auto Modeでの使用に引き続き推奨
アップデート内容要約

Amazon EKSがElastic Fabric Adapter(EFA)向けのDynamic Resource Allocation(DRA)をサポートし、AI/ML/HPCワークロードにおける高性能なノード間通信とRDMAを簡素化します。EFA DRAドライバーにより、トポロジーを考慮したEFAインターフェースの割り当てと共有が可能になり、GPUやAWS Trainium/Inferentiaデバイスに最も近いネットワークインターフェースを通じてトラフィックを流すことができます。

アップデート内容全文

Amazon Elastic Kubernetes Service(Amazon EKS)は、Elastic Fabric Adapter(EFA)向けのDynamic Resource Allocation(DRA)をサポートするようになりました。
これにより、人工知能、機械学習、およびHigh Performance Computing(HPC)ワークロードにおける高性能なノード間通信とRDMA(Remote Direct Memory Access)が簡素化されます。

アップストリームのDRANETプロジェクト上に構築されたEFA DRAドライバーは、Kubernetes上で動作するワークロードに対して、EFAインターフェースの共有とトポロジーを考慮した割り当てを提供します。
EFA DRAドライバーを使用すると、同じPCIeルートまたはデバイスグループを共有するEFAインターフェースとアクセラレータデバイスを割り当てることができ、ノード間トラフィックがノード上の各NVIDIA GPU、AWS Trainium、またはAWS Inferentiaデバイスに最も近いネットワークインターフェースを通じて流れるようになります。

また、EFA DRAドライバーは、同じノード上のワークロード間でのEFAインターフェースの共有をサポートし、EFAインターフェースの利用率を最大化します。

EFA DRAドライバーは、Kubernetesバージョン1.34以降を実行するAmazon EKSクラスターで、EKSマネージドノードグループまたはセルフマネージドノードを使用した新規デプロイメントに推奨されます。
EFA DRAドライバーは、Amazon EKSが利用可能なすべてのAWSリージョンで利用できます。
EFAデバイスプラグインは引き続きサポートされており、KarpenterおよびAmazon EKS Auto Modeでの使用が推奨されます。

詳細については、Amazon EKSユーザーガイドの「Amazon EKSでのEFAデバイスの管理」を参照してください。

関連サービス
  • AWS Trainium
  • Amazon Elastic Kubernetes Service
  • Elastic Fabric Adapter
関連サービスの説明
  • AWS Trainiumは、AWSが独自に設計した機械学習トレーニング用のカスタムチップ(アクセラレータ)です。大規模な深層学習モデルのトレーニングに最適化されており、Amazon EC2 Trn1インスタンスなどに搭載されています。GPUベースのインスタンスと比較してコスト効率の高いトレーニングを実現することを目的としており、特に大規模言語モデル(LLM)などのトレーニングに適しています。
  • Amazon Elastic Kubernetes Service(Amazon EKS)は、AWSが提供するマネージドKubernetesサービスです。Kubernetesはコンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するオープンソースのプラットフォームで、Amazon EKSを使うことで、Kubernetesの制御プレーン(マスターノード)の構築・運用をAWSに任せることができます。ユーザーはインフラの管理負担を軽減しながら、コンテナベースのアプリケーションを効率的に運用できます。
  • Elastic Fabric Adapter(EFA)は、Amazon EC2インスタンスに接続できるネットワークインターフェースで、高性能コンピューティング(HPC)や機械学習のワークロードを高速化するために設計されています。従来のTCP通信よりも低遅延・高スループットの通信を実現し、RDMA(Remote Direct Memory Access)をサポートすることで、OSカーネルをバイパスしてノード間で直接メモリにアクセスする高速な通信が可能になります。大規模な分散トレーニングやシミュレーションなどに活用されます。
関連URL