多くの企業や組織は、そのままの形式では使用できないデータを持っています。データを有用なものにするには、以下の段階を踏む必要があります。
- データの完全性と正確性を検証する必要がある。
- データを保存して整理する必要がある。
- 分析、可視化、機械学習にデータを利用できるように処理する必要がある。
- データの統制とセキュリティを確保する必要がある。
企業によっては、データの整理を始める際に、膨大な量の多種多様なデータを保存できる一元化されたリポジトリを作成しています。それがデータレイクです。
このコースでは、AWS でデータレイクを構築するためのコンポーネント、機能、ベストプラクティスについて学習します。
このコースには、2 つのセルフペースのデジタルコースと 2 つのハンズオンラボを含む 4 つのモジュールがあります。
アクティビティ
このコースには、インタラクティブコンテンツ、動画、ナレッジチェック、評価テスト、ハンズオンラボが含まれます。
コースの目標
このコースでは、以下の内容を学習します。
- AWS で基本的なデータレイクソリューションを構築するためのベストプラクティス、テクノロジー、考慮事項について調べる。
- スケーラブルかつ安全でコスト効率の高いデータレイクソリューションを AWS で構築するための一般的なプロセスについて理解する。
- 検討すべき関連する AWS のサービスと設定オプションを特定する。
- 関連する AWS リソース、ドキュメント、チュートリアルを確認する。
- 基本的なデータレイクソリューションの構築を演習する。(ラボ 1)
対象者
このコースは以下のような職務の方を対象としています。
- データエンジニア
- データサイエンティスト
- データアナリスト
- ビジネスインテリジェンスエンジニア
前提条件
このコースを受講するにあたって、以下の前提条件を満たしておくことをお勧めします。
- 2~3 年間のデータエンジニアリングの経験
- 1~2 年間の AWS のサービスの実務経験
- AWS Cloud Practitioner Essentials の修了または同等の経験
- Fundamentals of Analytics on AWS Part 1 および Part 2 の修了
- Data Engineering on AWS - Foundations の修了
コースの概要
モジュール 1: データレイクソリューションを構築する (75 分)
このコースでは、Amazon Web Services (AWS) で基本的なデータレイクソリューションを構築するためのプロセス、テクノロジー、ガイドラインについて学習します。
- はじめに
- ストレージをセットアップする
- データを取り込む
- データカタログを構築する
- データを変換する
- データを提供して活用する
- 評価テスト
- まとめ
モジュール 2: AWS でのデータエンジニアリング: データレイクソリューション - ラボ 1 (60 分)
このラボでは、データレイクのコンポーネントを確認し、データをレイヤー (ゾーン) に整理し、Amazon S3 をデータレイクのストレージレイヤーとして使用します。
- タスク 1: raw ゾーンと消費ゾーンの S3 バケットを確認する
- タスク 2: S3 イベント通知を作成し、Amazon EventBridge にイベントを送信する
- タスク 3: データレイクソリューションの取り込みレイヤーを確認する
- タスク 4: データレイクソリューションの処理レイヤーを確認する
- タスク 5: データレイクソリューションの消費レイヤーを確認する
モジュール 3: データレイクソリューションを最適化して保護する (60 分)
このコースでは、AWS のデータレイクのパフォーマンスを最適化する方法について学習します。また、セキュリティの考慮事項と基本的なトラブルシューティングについても学習します。
- はじめに
- オープンテーブルフォーマット
- AWS Lake Formation を使用したセキュリティ
- トラブルシューティング
- 評価テスト
- まとめ
モジュール 4: AWS でのデータエンジニアリング: データレイクソリューション - ラボ 2 (45 分)
このラボでは、AWS Lake Formation ブループリントとして提供されているワークフローを使用して、データレイクの作成とデータの取り込みを簡素化します。Lake Formation ブループリントは、既存の Lake Formation データレイクに適用できるワークフローです。また、新しいデータレイクの設定と作成のタスクとして適用することもできます。
- タスク 1: ラボ環境を確認する
- タスク 2: Lake Formation を設定する
- タスク 3: Lake Formation ブループリントを使用して AWS Glue ワークフローを作成する
- タスク 4: ワークフローを実行してモニタリングする
- タスク 5: データレイク設定の結果を検証する
終了