SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート

ID	4558
GUID	64d113f90c0c51a38eda256c33d34860ad4511fa
発表日(JST)	2026/4/9
要約生成日時(JST)	2026-04-09 06:12:32 +0900
タイトル	SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート
詳細リンク	https://aws.amazon.com/about-aws/whats-new/2026/04/sagemaker-hyperpod-gang-scheduling/
カテゴリ	amazon-sagemaker artificial-intelligence
要点	Amazon SageMaker HyperPodのタスクガバナンスがギャングスケジューリングをサポート開始分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングを開始することを保証部分的なジョブ実行によるコンピュートリソースの無駄やデッドロックを防止設定時間内にすべてのPodが準備完了しない場合、ワークロードを自動的に引き戻して再キューイング HyperPodコンソールから待機時間、ノード障害処理、ワークロード受け入れ方法、リトライスケジュールなどの設定が可能 EKSオーケストレーターを使用するHyperPodクラスターで、世界15リージョンで利用可能
アップデート内容要約	Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加されました。この機能により、分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングを開始することが保証され、部分的なジョブ実行によるコンピュートリソースの無駄やデッドロックを防止できます。
アップデート内容全文	Amazon SageMaker HyperPodのタスクガバナンスが、ギャングスケジューリングをサポートするようになりました。これにより、分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングが開始されることが保証されます。管理者はギャングスケジューリングを設定することで、部分的なジョブ実行によるコンピュートリソースの無駄を防ぎ、リソース待ちによるデッドロックを回避できます。 EKSオーケストレーターを使用してAmazon SageMaker HyperPodクラスター上で分散AI/MLトレーニングジョブを実行するデータサイエンティストは、ノード間でPod間通信を行いながら複数のPodを連携させる必要があります。一部のPodが起動しても他のPodが起動しない場合、ジョブが進捗なくリソースを占有し、他のワークロードをブロックし、コストが増加する可能性があります。ギャングスケジューリングは、ワークロード内のすべてのPodを監視し、設定された時間内にすべてのPodが準備完了しない場合、ワークロードを引き戻すことでこの問題を解決します。引き戻されたワークロードは、停滞を防ぐために自動的に再キューイングされます。管理者はHyperPodコンソールで、Podの準備完了を待つ時間、ノード障害の処理方法、ビジーなクラスターでのデッドロックを回避するためにワークロードを1つずつ受け入れるかどうか、リトライのスケジュール方法などの設定を調整できます。この機能は現在、EKSオーケストレーターを使用するAmazon SageMaker HyperPodクラスターで、以下のAWSリージョンで利用可能です：米国東部（バージニア北部）、米国東部（オハイオ）、米国西部（北カリフォルニア）、米国西部（オレゴン）、アジアパシフィック（ムンバイ）、アジアパシフィック（シンガポール）、アジアパシフィック（シドニー）、アジアパシフィック（東京）、アジアパシフィック（ジャカルタ）、欧州（フランクフルト）、欧州（アイルランド）、欧州（ロンドン）、欧州（ストックホルム）、欧州（スペイン）、南米（サンパウロ）。詳細については、SageMaker HyperPodのウェブページおよびHyperPodタスクガバナンスのドキュメントをご覧ください。
関連サービス	Amazon EKS Amazon SageMaker HyperPod
関連サービスの説明	Amazon EKS（Elastic Kubernetes Service）は、AWSが提供するマネージドKubernetesサービスです。Kubernetesはコンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するためのオープンソースプラットフォームです。Amazon EKSを使うことで、Kubernetesの複雑なインフラ管理をAWSに任せつつ、コンテナベースのアプリケーションを簡単に運用できます。SageMaker HyperPodでは、EKSをオーケストレーター（コンテナの管理・調整役）として使用し、分散トレーニングジョブのPod（Kubernetesにおけるコンテナの最小実行単位）を管理します。 Amazon SageMaker HyperPodは、大規模な機械学習（ML）モデルのトレーニングを効率的に行うためのAWSサービスです。特に大規模言語モデル（LLM）などの基盤モデルのトレーニングに適しており、専用のコンピューティングクラスターを提供します。タスクガバナンス機能により、クラスター上のワークロードの優先順位付け、スケジューリング、リソース管理を行うことができます。今回追加されたギャングスケジューリング機能は、分散トレーニングジョブのリソース効率を向上させるための重要な機能です。
関連URL	https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/ https://aws.amazon.com/sagemaker-ai/hyperpod/ https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance-tasks-gang-scheduling.html