組織には、常に多くのソースからデータが流れ込んできます。そのデータからインサイトと価値を引き出すには、オーケストレーションされたパイプラインの取り込み、保存、処理、提供の各段階にデータを通す必要があります。このコースでは、スケーラブルかつ安全でコスト効率の高いバッチデータパイプラインを AWS で構築する方法について説明します。
データベースやデータレイクなどのソースからバッチデータを取り込むためのベストプラクティスを学習します。このコースでは、raw データを処理して分析可能なデータセットに変換するために使用する AWS Glue や Amazon EMR といったサービスについて調べます。また、AWS Glue データカタログを使ったデータのカタログ化について取り上げます。さらに、Amazon Athena や Amazon QuickSight などのサービスを使用して、処理済みデータを分析、機械学習、レポート作成に活用する方法についても学習します。
アクティビティ
このコースには、インタラクティブコンテンツ、動画、ナレッジチェック、評価テスト、ハンズオンラボが含まれます。
コースの目標
このコースでは、以下の内容を学習します。
- AWS でのバッチデータパイプラインソリューションの目的、アーキテクチャ、プロセスについて説明する。
- バッチデータパイプラインソリューションの構築に適した AWS のサービスと設定を特定する。
- バッチデータパイプラインでデータを取り込み、処理し、カタログ化し、提供して活用するプロセスについて説明する。
- バッチデータパイプラインソリューションにオートメーション、オーケストレーション、セキュリティ、ガバナンスのオプションを実装する。
- AWS でのバッチデータパイプラインソリューションをモニタリング、最適化、トラブルシューティングする。
- Amazon EMR、AWS Glue、Amazon S3、Amazon Athena などの AWS のサービスを使用して、バッチデータパイプラインソリューションを構築し、デプロイする。(ラボ 1、ラボ 2)
対象者
このコースは以下のような職務の方を対象としています。
- データエンジニア
- データサイエンティスト
- データアナリスト
- ビジネスインテリジェンスエンジニア
前提条件
このコースを受講するにあたって、以下の前提条件を満たしておくことをお勧めします。
- 2~3 年間のデータエンジニアリングの経験
- 1~2 年間の AWS のサービスの実務経験
- AWS Cloud Practitioner Essentials の修了
- Fundamentals of Analytics on AWS - Parts 1 および 2 の修了
- Data Engineering on AWS - Foundations の修了
コースの概要
モジュール 1 - バッチデータパイプラインを構築する (35 分)
このセクションでは、AWS でバッチデータパイプラインを構築するための基礎を学習します。設計上の重要な考慮事項とデータ取り込み方法について取り上げます。また、堅牢なバッチデータパイプラインソリューションの構築に関する理解度を評価するための評価テストがあります。
- レッスン 1: コースナビゲーション
- レッスン 2: はじめに
- レッスン 3: バッチデータパイプラインの設計
- レッスン 4: データ取り込む
- レッスン 5: 評価テスト
- レッスン 6: まとめ
- レッスン 7: お問い合わせ
モジュール 2 - バッチデータパイプラインを実装する (30 分)
バッチパイプラインを設計した後に、このセクションでは実装の詳細について説明します。データを処理して変換し、ガバナンスのためにカタログ化し、分析ツールで利用できるように提供する方法について学習します。評価テストによってその概念の理解をさらに深めることができます。
- レッスン 1: コースナビゲーション
- レッスン 2: はじめに
- レッスン 3: データを処理して変換する
- レッスン 4: データをカタログ化する
- レッスン 5: データを提供して活用する
- レッスン 6: 評価テスト
- レッスン 7: まとめ
モジュール 3: データエンジニアの業務 (ラボ) (45 分)
このラボでは、気温と降水量のメトリクスを使用して、企業が各都市で夏物と冬物のどちらを在庫すべきかを判断します。AWS Glue クローラーを作成し、IAM ポリシーを確認し、データカタログを表示し、Glue ジョブを実行してデータを変換し、Athena で処理済みデータをクエリします。
- タスク 1: AWS Glue クローラーを作成して実行する
- タスク 2: IAM ポリシーを確認する
- タスク 3: データカタログでテーブルを表示する
- タスク 4: AWS Glue Studio でジョブを実行してデータを変換する
- タスク 5: Amazon Athena で data parquet テーブルをクエリする
モジュール 4 - バッチデータパイプラインを最適化し、オーケストレーションし、保護する (40 分)
このセクションでは、バッチパイプラインのコストとパフォーマンスの最適化、AWS の複数のサービス間におけるワークフローのオーケストレーション、セキュリティのベストプラクティスとデータガバナンスの実装に関する高度なトピックを取り上げます。
- レッスン 1: コースナビゲーション
- レッスン 2: はじめに
- レッスン 3: バッチデータパイプラインの最適化
- レッスン 4: バッチデータパイプラインのオーケストレーション
- レッスン 5: バッチデータパイプラインの保護とガバナンス
- レッスン 6: 評価テスト
- レッスン 7: まとめ
モジュール 5: AWS Step Functions を使用して Spark のデータ処理をオーケストレーションする (ラボ) (30 分)
オーケストレーションについて学習したことを適用し、Apache Spark と Step Functions を使用して Amazon EMR で在庫分析ワークフローをオーケストレーションします。
- タスク 1: ラボ環境を確認する
- タスク 2: Step Functions ステートマシンのタスクを実行する
- タスク 3: Step Functions の実行を検証する