近年、企業が扱うデータの量と種類は急速に増加しています。社内の基幹システムや顧客管理システム、ウェブサイトのアクセスログ、IoT デバイスからのセンサーデータなど、多種多様なデータソースから構造化および非構造化のデータが生成され続けています。これらの異なるソースからデータを効率的に収集し、分析に適した形に加工し、適切な場所に格納するというプロセスが ETL (Extract、Transform、Load) です。
AWS は、この ETL プロセスを効率的に実行するための多様なサービスを提供しています。このコースでは、AWS が提供する ETL サービスの使い分けについて紹介します。各サービスの主要な機能と特徴を説明し、データの規模や処理の複雑さに応じた最適なソリューションの選び方を探っていきます。
* このトレーニングは、builders.flash 内の記事「データを集めて、整えて、分析しよう! AWS の ETL サービスをグラレコで解説」を基に E ラーニング化したものです。
- コースレベル: 基礎
- 所要時間: 40 分
コースの概要
- ETL パイプラインの概要
- AWS が亭擁する ETL サービス
- 構成例 1 - シンプルなサーバーレス構成
- 構成例 2 – AWS Glueを中心とした構成
- 構成例 3 - Amazon EMR と Amazon Managed Workflows for Apache Airflow (MWAA) を活用した大規模構成
- モニタリングとリトライロジック
- Amazon SageMaker Unified Studio を使った ETL 構築
- まとめ