Amazon SageMaker AIがキャパシティ対応推論と自動インスタンスフォールバックをサポート
| ID | 4769 |
|---|---|
| GUID | 81f7accb01275ecfbc35fd4bd936fa19ec5d59b5 |
| 発表日(JST) | |
| 要約生成日時(JST) | |
| タイトル | Amazon SageMaker AIがキャパシティ対応推論と自動インスタンスフォールバックをサポート |
| 詳細リンク | https://aws.amazon.com/about-aws/whats-new/2026/04/amazon-sagemaker-ai-inf-auto-inst/ |
| カテゴリ |
|
| 要点 |
|
| アップデート内容要約 |
Amazon SageMaker AIの推論エンドポイントが、優先順位付きのインスタンスタイプリストによる柔軟なプロビジョニングをサポートしました。希望するインスタンスタイプの容量が不足した場合、リスト内の次の利用可能なオプションから自動的にプロビジョニングされ、手動介入なしにエンドポイントの作成やオートスケーリングを継続できます。 |
| アップデート内容全文 |
Amazon SageMaker AIの推論エンドポイントは、優先順位付きのインスタンスタイプリスト全体にわたる柔軟なプロビジョニングをサポートするようになりました。
インスタンスプールサポートにより、優先順位付きのインスタンスタイプリストを定義すると、SageMaker AIがリストを順番に処理してキャパシティを自動的にプロビジョニングします。
この機能は、シングルモデルエンドポイント、InferenceComponentベースのエンドポイント、非同期推論エンドポイントで動作します。
フォールバックインスタンスタイプはGPUメモリとコンピュート能力が異なるため、優先リスト内の各インスタンスタイプに対して異なる最適化モデルを指定できます。
さらに、インスタンスタイプごとのCloudWatchメトリクスにより、単一のエンドポイント内でハードウェアタイプ別のレイテンシー、スループット、GPU使用率、インスタンス数を可視化できます。 この機能は現在、米国東部(バージニア北部)、米国東部(オハイオ)、米国西部(オレゴン)、カナダ(中部)、南米(サンパウロ)、欧州(アイルランド)、欧州(ロンドン)、欧州(フランクフルト)、欧州(ストックホルム)、欧州(チューリッヒ)、アジアパシフィック(東京)、アジアパシフィック(ソウル)、アジアパシフィック(シンガポール)、アジアパシフィック(シドニー)、アジアパシフィック(ムンバイ)、アジアパシフィック(ジャカルタ)で利用可能です。
|
| 関連サービス |
|
| 関連サービスの説明 |
|
| 関連URL |