SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート
| ID | 4558 |
|---|---|
| GUID | 64d113f90c0c51a38eda256c33d34860ad4511fa |
| 発表日(JST) | |
| 要約生成日時(JST) | |
| タイトル | SageMaker HyperPodが分散トレーニングワークロード向けのギャングスケジューリングをサポート |
| 詳細リンク | https://aws.amazon.com/about-aws/whats-new/2026/04/sagemaker-hyperpod-gang-scheduling/ |
| カテゴリ |
|
| 要点 |
|
| アップデート内容要約 |
Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加されました。この機能により、分散トレーニングジョブに必要なすべてのPodが準備完了してからトレーニングを開始することが保証され、部分的なジョブ実行によるコンピュートリソースの無駄やデッドロックを防止できます。 |
| アップデート内容全文 |
Amazon SageMaker HyperPodのタスクガバナンスが、ギャングスケジューリングをサポートするようになりました。
EKSオーケストレーターを使用してAmazon SageMaker HyperPodクラスター上で分散AI/MLトレーニングジョブを実行するデータサイエンティストは、ノード間でPod間通信を行いながら複数のPodを連携させる必要があります。
ギャングスケジューリングは、ワークロード内のすべてのPodを監視し、設定された時間内にすべてのPodが準備完了しない場合、ワークロードを引き戻すことでこの問題を解決します。
管理者はHyperPodコンソールで、Podの準備完了を待つ時間、ノード障害の処理方法、ビジーなクラスターでのデッドロックを回避するためにワークロードを1つずつ受け入れるかどうか、リトライのスケジュール方法などの設定を調整できます。 この機能は現在、EKSオーケストレーターを使用するAmazon SageMaker HyperPodクラスターで、以下のAWSリージョンで利用可能です:米国東部(バージニア北部)、米国東部(オハイオ)、米国西部(北カリフォルニア)、米国西部(オレゴン)、アジアパシフィック(ムンバイ)、アジアパシフィック(シンガポール)、アジアパシフィック(シドニー)、アジアパシフィック(東京)、アジアパシフィック(ジャカルタ)、欧州(フランクフルト)、欧州(アイルランド)、欧州(ロンドン)、欧州(ストックホルム)、欧州(スペイン)、南米(サンパウロ)。
|
| 関連サービス |
|
| 関連サービスの説明 |
|
| 関連URL |