Amazon SageMaker Unified Studioがデータ品質ルールの作成と評価をサポート
ID 4919
GUID 87e8ea8e8161d0c8409c13fedb86511fa944cdec
発表日(JST)
要約生成日時(JST)
タイトル Amazon SageMaker Unified Studioがデータ品質ルールの作成と評価をサポート
詳細リンク https://aws.amazon.com/about-aws/whats-new/2026/05/smus-data-quality
カテゴリ
  • amazon-sagemaker
  • analytics
要点
  • Amazon SageMaker Unified StudioがAWS Glue Data Qualityを活用したデータ品質ルールの作成と評価をサポート
  • カタログテーブルの静止データとVisual ETLジョブの転送中データの両方に対応
  • Data Quality Definition Language(DQDL)を使用してルールを作成可能
  • 静止データ向けには専用Data Qualityタブでオンデマンドまたはスケジュール評価が可能
  • 転送中データ向けにはVisual ETLジョブにEvaluate Data Quality変換を追加可能
  • 完全性、一意性、鮮度、正確性などのデータ品質ディメンションをチェック可能
  • Amazon SageMaker Unified Studioが利用可能なすべてのAWSリージョンで利用可能
  • AWS IAM Identity CenterベースおよびIAMベースの両方のドメインで利用可能
アップデート内容要約

Amazon SageMaker Unified StudioがAWS Glue Data Qualityを活用したデータ品質ルールの作成と評価機能をサポートしました。データエンジニア、アナリスト、データサイエンティストは、カタログテーブルの静止データやVisual ETLジョブの転送中データに対して、データ品質ルールの定義、ルールセット評価の実行、結果の確認をSageMaker Unified Studio内で直接行えるようになりました。

アップデート内容全文

Amazon SageMaker Unified Studioは、AWS Glue Data Qualityを活用したデータ品質ルールの作成と評価をサポートするようになりました。
データエンジニア、アナリスト、データサイエンティストは、カタログテーブルの静止データおよびVisual ETLジョブの転送中データの両方に対して、データ品質ルールの定義、ルールセット評価の実行、結果の確認をSageMaker Unified Studio内で直接行うことができます。
これにより、不良データがデータレイクに入ったり、下流の分析や機械学習ワークロードに影響を与える前に、データ品質の問題を検出することができます。

このリリースにより、AWS Glue Data Qualityで使用されているのと同じData Quality Definition Language(DQDL)を使用してルールを作成し、SageMaker Unified Studio内で2つのワークフローにわたって評価を直接実行できます。
静止データについては、カタログアセットの専用Data Qualityタブでルールの作成、オンデマンドまたはスケジュール評価、ルールごとの合格/不合格の詳細結果を確認できます。
転送中データについては、任意のVisual ETLジョブにEvaluate Data Quality変換を追加し、実行詳細の一部としてデータ品質結果を確認できます。

完全性、一意性、鮮度、正確性、その他のデータ品質ディメンションをチェックするルールセットを作成できます。
この機能は、Amazon SageMaker Unified Studioが利用可能なすべてのAWSリージョンで、AWS IAM Identity CenterベースおよびIAMベースの両方のドメインで利用できます。
詳細については、Amazon SageMaker Unified Studioのドキュメントをご覧ください。

関連サービス
  • AWS Glue Data Quality
  • AWS IAM Identity Center
  • Amazon SageMaker Unified Studio
関連サービスの説明
  • AWS Glue Data Qualityは、AWS Glueの機能の一部で、データの品質を定義、監視、管理するためのサービスです。Data Quality Definition Language(DQDL)という専用の言語を使って、データの完全性(欠損値がないか)、一意性(重複がないか)、鮮度(データが最新か)、正確性(値が正しいか)などのルールを定義し、データが基準を満たしているかどうかを自動的に評価できます。不良データがシステムに混入するのを防ぐのに役立ちます。
  • AWS IAM Identity Center(旧AWS Single Sign-On)は、複数のAWSアカウントやビジネスアプリケーションへのアクセスを一元管理するサービスです。ユーザーは一度のサインインで複数のAWSアカウントやアプリケーションにアクセスでき、管理者はユーザーのアクセス権限を中央で管理できます。組織全体のアクセス管理を簡素化し、セキュリティを向上させます。
  • Amazon SageMaker Unified Studioは、データ分析、機械学習、ETL処理などのデータ関連ワークフローを統合的に行えるプラットフォームです。データエンジニア、アナリスト、データサイエンティストが一つの環境でデータの準備、分析、モデル構築などを効率的に行うことができます。カタログ管理やVisual ETLジョブの作成など、データライフサイクル全体をカバーする機能を提供します。
関連URL