このコースでは、Google Cloud におけるデータ エンジニアリング、データ エンジニアの役割と責任、それらが Google Cloud の各サービスにどのように対応しているかについて学びます。また、データ エンジニアリングの課題に対処する方法も学習します。
Overview
Syllabus
- コースの概要
- このセクションでは、「Introduction to Data Engineering on Google Cloud」コースの前置きとして、コースの構成と目標の概要を説明します。
- データ エンジニアリングのタスクとコンポーネント
- このモジュールでは、データ エンジニアの役割について概説します。具体的には、データソースとシンク、データ形式、Google Cloud でのストレージ オプション、メタデータ管理、組織内外でのデータ共有のための Analytics Hub の使用など、主要なコンセプトを取り上げます。
- データのレプリケーションと移行
- このモジュールでは、Google Cloud におけるデータのレプリケーションと移行の概要について説明します。具体的には、基本的なアーキテクチャ、gcloud コマンドライン ツール、Storage Transfer Service、Transfer Appliance、Datastream について、それぞれの機能とユースケースとともに取り上げます。
- 抽出と読み込みのデータ パイプライン パターン
- このモジュールでは、Google Cloud でのデータの抽出プロセスと読み込みプロセス、特に BigQuery を使用したプロセスに焦点を当てます。具体的には、抽出と読み込みの基本的なアーキテクチャ、bq コマンドライン ツール、BigQuery Data Transfer Service、抽出と読み込みの従来のパターンの代替としての BigLake を取り上げます。
- 読み込み、変換のデータ パイプライン パターン
- このモジュールでは、Google Cloud での ELT(抽出、読み込み、変換)プロセスの概要について説明します。具体的には、基本的な ELT アーキテクチャ、一般的な ELT パイプラインの例、SQL のスクリプト作成とスケジュール設定を行う BigQuery の機能、Dataform の機能とユースケースを取り上げます。
- 抽出、変換、読み込みのデータ パイプライン パターン
- このモジュールでは、Google Cloud での ETL(抽出、変換、読み込み)プロセスの概要を説明します。具体的には、基本的な ETL アーキテクチャ、GUI ツール、バッチおよびストリーミング データ処理オプション(Dataproc、Dataproc Serverless)、データ パイプラインにおける Bigtable の役割を取り上げます。
- 自動化の手法
- このモジュールでは、Google Cloud のパイプラインに使用できる自動化のパターンとオプションに焦点を当てます。具体的には、Cloud Scheduler、Workflows、Cloud Composer、Cloud Run functions、Eventarc などのさまざまなツールやサービスについて、それらの機能と自動化におけるユースケースとともに取り上げます。
- コースのまとめ
- この最後のセクションでは、このコースで学習した内容を振り返り、クラウドの学習を継続するための次のステップについて説明します。
Taught by
Google Cloud Training