SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート
ID 4558
GUID 64d113f90c0c51a38eda256c33d34860ad4511fa
発表日(JST)
要約生成日時(JST)
タイトル SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート
詳細リンク https://aws.amazon.com/about-aws/whats-new/2026/04/sagemaker-hyperpod-gang-scheduling/
カテゴリ
  • amazon-sagemaker
  • artificial-intelligence
要点
  • Amazon SageMaker HyperPodのタスクガバナンスがギャングスケジューリングをサポート開始
  • 分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングを開始することを保証
  • 部分的なジョブ実行によるコンピュートリソースの無駄やデッドロックを防止
  • 設定時間内にすべてのPodが準備完了しない場合、ワークロードを自動的に引き戻して再キューイング
  • HyperPodコンソールから待機時間、ノード障害処理、ワークロード受け入れ方法、リトライスケジュールなどの設定が可能
  • EKSオーケストレーターを使用するHyperPodクラスターで、世界15リージョンで利用可能
アップデート内容要約

Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加されました。この機能により、分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングを開始することが保証され、部分的なジョブ実行によるコンピュートリソースの無駄やデッドロックを防止できます。

アップデート内容全文

Amazon SageMaker HyperPodのタスクガバナンスが、ギャングスケジューリングをサポートするようになりました。
これにより、分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングが開始されることが保証されます。
管理者はギャングスケジューリングを設定することで、部分的なジョブ実行によるコンピュートリソースの無駄を防ぎ、リソース待ちによるデッドロックを回避できます。

EKSオーケストレーターを使用してAmazon SageMaker HyperPodクラスター上で分散AI/MLトレーニングジョブを実行するデータサイエンティストは、ノード間でPod間通信を行いながら複数のPodを連携させる必要があります。
一部のPodが起動しても他のPodが起動しない場合、ジョブが進捗なくリソースを占有し、他のワークロードをブロックし、コストが増加する可能性があります。

ギャングスケジューリングは、ワークロード内のすべてのPodを監視し、設定された時間内にすべてのPodが準備完了しない場合、ワークロードを引き戻すことでこの問題を解決します。
引き戻されたワークロードは、停滞を防ぐために自動的に再キューイングされます。

管理者はHyperPodコンソールで、Podの準備完了を待つ時間、ノード障害の処理方法、ビジーなクラスターでのデッドロックを回避するためにワークロードを1つずつ受け入れるかどうか、リトライのスケジュール方法などの設定を調整できます。

この機能は現在、EKSオーケストレーターを使用するAmazon SageMaker HyperPodクラスターで、以下のAWSリージョンで利用可能です:米国東部(バージニア北部)、米国東部(オハイオ)、米国西部(北カリフォルニア)、米国西部(オレゴン)、アジアパシフィック(ムンバイ)、アジアパシフィック(シンガポール)、アジアパシフィック(シドニー)、アジアパシフィック(東京)、アジアパシフィック(ジャカルタ)、欧州(フランクフルト)、欧州(アイルランド)、欧州(ロンドン)、欧州(ストックホルム)、欧州(スペイン)、南米(サンパウロ)。
詳細については、SageMaker HyperPodのウェブページおよびHyperPodタスクガバナンスのドキュメントをご覧ください。

関連サービス
  • Amazon EKS
  • Amazon SageMaker HyperPod
関連サービスの説明
  • Amazon EKS(Elastic Kubernetes Service)は、AWSが提供するマネージドKubernetesサービスです。Kubernetesはコンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するためのオープンソースプラットフォームです。Amazon EKSを使うことで、Kubernetesの複雑なインフラ管理をAWSに任せつつ、コンテナベースのアプリケーションを簡単に運用できます。SageMaker HyperPodでは、EKSをオーケストレーター(コンテナの管理・調整役)として使用し、分散トレーニングジョブのPod(Kubernetesにおけるコンテナの最小実行単位)を管理します。
  • Amazon SageMaker HyperPodは、大規模な機械学習(ML)モデルのトレーニングを効率的に行うためのAWSサービスです。特に大規模言語モデル(LLM)などの基盤モデルのトレーニングに適しており、専用のコンピューティングクラスターを提供します。タスクガバナンス機能により、クラスター上のワークロードの優先順位付け、スケジューリング、リソース管理を行うことができます。今回追加されたギャングスケジューリング機能は、分散トレーニングジョブのリソース効率を向上させるための重要な機能です。
関連URL