Amazon SageMaker AIがキャパシティ対応推論と自動インスタンスフォールバックをサポート

ID	4769
GUID	81f7accb01275ecfbc35fd4bd936fa19ec5d59b5
発表日(JST)	2026/5/1
要約生成日時(JST)	2026-05-05 03:12:25 +0900
タイトル	Amazon SageMaker AIがキャパシティ対応推論と自動インスタンスフォールバックをサポート
詳細リンク	https://aws.amazon.com/about-aws/whats-new/2026/04/amazon-sagemaker-ai-inf-auto-inst/
カテゴリ	amazon-sagemaker-deploy artificial-intelligence
要点	Amazon SageMaker AIの推論エンドポイントが、優先順位付きインスタンスタイプリストによる柔軟なプロビジョニングをサポート希望するインスタンスタイプの容量不足時に、リスト内の次の利用可能なオプションへ自動フォールバックエンドポイントの作成、更新、スケーリング全体に適用され、手動介入が不要スケールダウン時は優先度の低いインスタンスから先に削除し、希望するインフラを保持シングルモデルエンドポイント、InferenceComponentベース、非同期推論エンドポイント（ゼロスケール含む）で利用可能各インスタンスタイプに異なる最適化モデルを指定可能インスタンスタイプごとのCloudWatchメトリクスによる可視化が可能東京リージョンを含む世界16リージョンで利用可能
アップデート内容要約	Amazon SageMaker AIの推論エンドポイントが、優先順位付きのインスタンスタイプリストによる柔軟なプロビジョニングをサポートしました。希望するインスタンスタイプの容量が不足した場合、リスト内の次の利用可能なオプションから自動的にプロビジョニングされ、手動介入なしにエンドポイントの作成やオートスケーリングを継続できます。
アップデート内容全文	Amazon SageMaker AIの推論エンドポイントは、優先順位付きのインスタンスタイプリスト全体にわたる柔軟なプロビジョニングをサポートするようになりました。希望するインスタンスタイプの容量が不足している場合、SageMaker AIはリスト内の次に利用可能なオプションから自動的にプロビジョニングを行い、手動介入なしにエンドポイントの作成とオートスケーリングをスムーズに実行し続けます。これにより、本番環境でAI/MLモデルをデプロイするチームは、キャパシティの制約を優雅に処理するレジリエンスを得ることができ、エンドポイントが確実に起動し、オンデマンドでスケールすることが保証されます。インスタンスプールサポートにより、優先順位付きのインスタンスタイプリストを定義すると、SageMaker AIがリストを順番に処理してキャパシティを自動的にプロビジョニングします。これはエンドポイントの作成、更新、スケーリング全体に適用されます。スケールダウン時には、SageMaker AIは優先度の最も低いインスタンスから先に削除し、フリートが縮小する際に希望するインフラストラクチャを保持します。この機能は、シングルモデルエンドポイント、InferenceComponentベースのエンドポイント、非同期推論エンドポイントで動作します。ゼロにスケールするエンドポイントも含まれ、スケールアップ時にSageMaker AIは最も優先度の高い利用可能なプールからプロビジョニングします。フォールバックインスタンスタイプはGPUメモリとコンピュート能力が異なるため、優先リスト内の各インスタンスタイプに対して異なる最適化モデルを指定できます。これらのアーティファクトを自分で準備するか、SageMaker AI推論レコメンデーションを使用して、インスタンスタイプごとにハードウェア固有の最適化構成を自動生成することができます。さらに、インスタンスタイプごとのCloudWatchメトリクスにより、単一のエンドポイント内でハードウェアタイプ別のレイテンシー、スループット、GPU使用率、インスタンス数を可視化できます。この機能は現在、米国東部（バージニア北部）、米国東部（オハイオ）、米国西部（オレゴン）、カナダ（中部）、南米（サンパウロ）、欧州（アイルランド）、欧州（ロンドン）、欧州（フランクフルト）、欧州（ストックホルム）、欧州（チューリッヒ）、アジアパシフィック（東京）、アジアパシフィック（ソウル）、アジアパシフィック（シンガポール）、アジアパシフィック（シドニー）、アジアパシフィック（ムンバイ）、アジアパシフィック（ジャカルタ）で利用可能です。詳細はAmazon SageMaker AIのドキュメントをご覧ください。
関連サービス	Amazon CloudWatch Amazon SageMaker AI
関連サービスの説明	Amazon CloudWatchは、AWSリソースやアプリケーションの監視サービスです。メトリクス（CPU使用率、レイテンシー、スループットなど）の収集・可視化、ログの管理、アラームの設定が可能で、システムの健全性をリアルタイムで把握できます。今回の記事では、SageMaker AIエンドポイント内のインスタンスタイプごとのレイテンシー、スループット、GPU使用率、インスタンス数などのメトリクスをCloudWatchで確認できることが紹介されています。 Amazon SageMaker AIは、機械学習モデルの構築、トレーニング、デプロイを包括的にサポートするAWSのフルマネージドサービスです。データサイエンティストや開発者が機械学習ワークフロー全体を効率的に管理できるように設計されており、推論エンドポイントの作成やオートスケーリング、モデルの最適化など、本番環境でのAI/MLモデル運用に必要な機能を提供します。今回の発表では、推論エンドポイントにおけるインスタンスの自動フォールバック機能が追加されました。
関連URL	https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints-heterogeneous.html