Overview
データ パイプラインは通常、Extract-Load(抽出、読み込み)、Extract-Load-Transform(抽出、読み込み、変換)、Extract-Transform-Load(抽出、変換、読み込み)のいずれかの方式に分類されます。このコースでは、どの方式をどのような場合にバッチデータに対して使用すべきかを説明します。また、Google Cloud Platform 上のデータ変換技術(BigQuery など)、Cloud Dataproc での Spark の実行、Cloud Data Fusion でのパイプライン グラフ、Cloud Dataflow によるサーバーレスのデータ処理についても取り上げます。Qwiklabs を使用して、Google Cloud Platform でデータ パイプライン コンポーネントを実際に構築できます。
Syllabus
- はじめに
- このモジュールでは、本コースの内容とアジェンダを紹介します
- バッチデータ パイプラインの概要
- このモジュールでは、EL、ELT、ETL というデータ読み込み方式と、各方式をどのような場合に使うべきかを確認します
- Cloud Dataproc での Spark の実行
- このモジュールでは、Cloud Dataproc で Hadoop を実行する方法、GCS の活用法、Dataproc ジョブを最適化する方法を説明します。
- Cloud Data Fusion と Cloud Composer によるデータ パイプライン管理
- このモジュールでは、Cloud Data Fusion と Cloud Composer を使ってデータ パイプラインを管理する方法を説明します。
- Cloud Dataflow によるサーバーレスのデータ処理
- このモジュールでは、Cloud Dataflow を使ったデータ処理パイプライン構築を取り上げます。
- まとめ
- このモジュールでは、本コースで学んだトピックを復習します
Taught by
Google Cloud Training