AWS Glue Data catalogが新しいテーブルの統計情報生成を自動化

ID	192
GUID	b742084df760b74fce8e0201896d10dfbeb7e176
発表日(JST)	2024/12/4
要約生成日時(JST)	2024-12-04 20:29:43 +0900
タイトル	AWS Glue Data catalogが新しいテーブルの統計情報生成を自動化
詳細リンク	https://aws.amazon.com/about-aws/whats-new/2024/12/aws-glue-data-catalog-automates-generating-statistics-tables/
カテゴリ	analytics aws-glue
要点	AWS Glue Data Catalogが新しいテーブルの統計情報生成を自動化 Amazon RedshiftとAmazon AthenaのCBOと統合し、クエリパフォーマンスを向上 1回のカタログ設定で新しいテーブルの統計情報を自動生成可能 Apache Icebergテーブルでは個別値の数（NDV）を含む統計情報を生成 Parquetなどのファイル形式では追加の統計情報も収集複数のAWSリージョンで一般利用可能
アップデート内容要約	AWS Glue Data Catalogが新しいテーブルの統計情報生成を自動化し、Amazon RedshiftとAmazon Athenaのコストベースオプティマイザ（CBO）と統合することで、クエリパフォーマンスの向上とコスト削減の可能性を提供します。
アップデート内容全文	AWS Glue Data Catalogが新しいテーブルの統計情報生成を自動化しました。これらの統計情報はAmazon RedshiftとAmazon Athenaのコストベースオプティマイザ（CBO）と統合され、クエリパフォーマンスの向上と潜在的なコスト削減をもたらします。テーブル統計情報は、Amazon RedshiftやAmazon Athenaなどのクエリエンジンによって、クエリを最も効率的に実行する方法を決定するために使用されます。以前は、AWS Glue Data CatalogのApache Icebergテーブルの統計情報を作成するには、テーブルの構成を継続的に監視し更新する必要がありました。現在は、AWS Glue Data Catalogを使用して、1回のカタログ設定で新しいテーブルの統計情報を自動的に生成できます。 Lake Formationコンソールでデフォルトカタログを選択し、テーブル最適化設定タブでテーブル統計情報を有効にすることで開始できます。新しいテーブルが作成されたり、既存のテーブルが更新されたりすると、すべての列のサンプル行を使用して統計情報が生成され、定期的に更新されます。 Apache Icebergテーブルの場合、これらの統計情報には個別値の数（NDV）が含まれます。 Parquetなどのその他のファイル形式では、NULLの数、最大値と最小値、平均長などの追加統計情報が収集されます。 Amazon RedshiftとAmazon Athenaは、更新された統計情報を使用してクエリを最適化し、最適な結合順序やコストベースの集約プッシュダウンなどの最適化を行います。 Glue Catalogコンソールでは、更新された統計情報と統計情報生成の実行状況を確認できます。 AWS Glue Catalog統計情報の自動化サポートは、以下のAWSリージョンで一般に利用可能です：米国東部（バージニア北部、オハイオ）、米国西部（カリフォルニア北部、オレゴン）、ヨーロッパ（アイルランド）、アジアパシフィック（東京）。詳細については、ブログ記事を読み、AWS Glue Catalogのドキュメントをご覧ください。
関連サービス	AWS Glue Amazon Athena Amazon Redshift
関連サービスの説明	AWS Glueは、データの発見、準備、結合を簡単に行えるフルマネージド型の抽出、変換、ロード（ETL）サービスです。データカタログ機能を提供し、メタデータストアとしても機能します。データソースを自動的に検出し、スキーマを推論し、データカタログに保存します。これにより、データの検索、クエリ、変換が容易になります。 Amazon Athenaは、標準SQLを使用してAmazon S3に保存されたデータを直接分析できるインタラクティブなクエリサービスです。サーバーレスで、インフラストラクチャの管理が不要です。データを S3 に保存し、スキーマを定義するだけで、Athenaを使用してデータのクエリを開始できます。 Amazon Redshiftは、クラウドベースのデータウェアハウスサービスです。大規模なデータセットを高速に分析するために設計されており、SQLクエリを使用してデータを処理します。並列処理と列指向のデータ保存を利用して、複雑なクエリの実行を高速化します。
関連URL	https://docs.aws.amazon.com/glue/latest/dg/start-data-catalog.html https://aws.amazon.com/blogs/big-data/introducing-aws-glue-data-catalog-automation-for-table-statistics-collection-for-improved-query-performance-on-amazon-redshift-and-amazon-athena/ https://docs.aws.amazon.com/glue/latest/dg/column-statistics.html