Amazon SageMaker HyperPodがSlurmクラスター向けのAMIベースのノードライフサイクル設定をサポート
ID 4822
GUID 129e15a679698cdfd68e10141f51462a6fb02aa6
発表日(JST)
要約生成日時(JST)
タイトル Amazon SageMaker HyperPodがSlurmクラスター向けのAMIベースのノードライフサイクル設定をサポート
詳細リンク https://aws.amazon.com/about-aws/whats-new/2026/05/amazon-sagemaker-hyperpod-ami-based-node/
カテゴリ
  • artificial-intelligence
  • compute
要点
  • Amazon SageMaker HyperPodがSlurmクラスターノード向けのAMIベースのライフサイクル設定をサポート開始
  • ライフサイクル設定スクリプトのダウンロード、設定、S3へのアップロードが不要になり、クラスター作成時間が大幅に短縮
  • AMIベースの設定にはDocker、Enroot、Pyxis、Slurmアカウンティング、SSHキー生成、ログローテーション、ユーザーホームディレクトリのセットアップが含まれる
  • AMIベースの設定を有効にするには、CreateCluster APIのインスタンスグループ設定からLifeCycleConfigブロックを省略するか、コンソールで「None」を選択
  • 追加カスタマイズ用に拡張スクリプトを提供可能(ユーザー設定、オブザーバビリティ、LDAP統合など)
  • 完全な制御が必要な高度なユースケース向けにカスタムライフサイクル設定スクリプトも引き続きサポート
  • SageMaker HyperPodが利用可能なすべてのAWSリージョンで利用可能
アップデート内容要約

Amazon SageMaker HyperPodが、Slurmクラスターノードに対してAMIベースの設定をサポートするようになりました。これにより、ライフサイクル設定スクリプトのダウンロード、設定、S3へのアップロードが不要になり、クラスター作成時間が大幅に短縮されます。AMIベースの設定にはDocker、Enroot、Pyxisなどの必要なソフトウェアや、Slurmアカウンティング、SSHキー生成などの設定が含まれています。

アップデート内容全文

Amazon SageMaker HyperPodは、AI/MLトレーニングワークロードを実行するための本番環境に必要なソフトウェアと設定をSlurmクラスターノードにプロビジョニングするAMIベースの設定をサポートするようになりました。
これにより、ライフサイクル設定スクリプトをダウンロード、設定、またはAmazon S3にアップロードする必要がなくなります。
クラスターを準備するための運用ステップが少なくなり、ノードプロビジョニング中にライフサイクル設定スクリプトが実行されないため、クラスター作成時間が大幅に短縮され、より早くジョブの実行を開始できます。

AMIベースの設定には、Docker、Enroot、Pyxisなどの必要なソフトウェアと、Slurmアカウンティング、SSHキー生成、Slurmログローテーション、ユーザーホームディレクトリのセットアップなどの設定が含まれています。

AMIベースの設定を有効にするには、CreateCluster APIを使用してクラスターを作成する際にインスタンスグループ設定からLifeCycleConfigブロックを省略するか、SageMaker AIコンソールを使用する場合はカスタムセットアップのライフサイクルスクリプトで「None」を選択します。

AMIベースの設定ベースラインに加えた追加のカスタマイズとして、拡張スクリプトを提供でき、ユーザー設定、オブザーバビリティ、LDAP統合などの追加する機能やソフトウェアのみに集中できます。
拡張スクリプトは、APIとSageMaker AIコンソールの両方からクラスター作成時に設定できます。
CreateCluster APIを使用する場合は、LifeCycleConfigブロックで新しいOnInitCompleteパラメータとSourceS3Uriを指定します。
コンソールでは、カスタムセットアップの「Extension script file in S3」フィールドに拡張スクリプトのS3 URIを指定します。

プロビジョニングを完全に制御する必要がある高度なユースケースの場合、カスタムライフサイクル設定スクリプトはAPIとSageMaker AIコンソールの両方を通じて引き続き完全にサポートされます。

この機能は、SageMaker HyperPodが利用可能なすべてのAWSリージョンで利用できます。
AMIベースのノードライフサイクル設定でHyperPod Slurmクラスターの作成を開始するには、SageMaker AI開発者ガイドの「AWS CLIを使用したSageMaker HyperPodの開始」または「SageMaker AIコンソールを使用したSageMaker HyperPodの開始」を参照してください。

関連サービス
  • Amazon S3
  • Amazon SageMaker HyperPod
関連サービスの説明
  • Amazon S3(Simple Storage Service)は、AWSが提供するオブジェクトストレージサービスです。高い耐久性とスケーラビリティを持ち、あらゆる種類のデータを保存・取得できます。この記事では、ライフサイクル設定スクリプトや拡張スクリプトの保存先として使用されています。ウェブサイトのホスティング、バックアップ、データレイクなど幅広い用途に利用されます。
  • Amazon SageMaker HyperPodは、大規模なAI/機械学習モデルのトレーニングを実行するためのマネージドクラスターサービスです。SlurmやAmazon EKSなどのオーケストレーターを使用して、分散トレーニングジョブを効率的に実行できる環境を提供します。ノードの障害検出や自動復旧などの機能により、大規模トレーニングの回復力を高め、運用負担を軽減します。
関連URL