Overview

Class Central Tips

Dataflow コースシリーズの 2 回目である今回は、Beam SDK を使用したパイプラインの開発について詳しく説明します。まず、Apache Beam のコンセプトについて復習します。次に、ウィンドウ、ウォーターマーク、トリガーを使用したストリーミングデータの処理について説明します。さらに、パイプラインのソースとシンクのオプション、構造化データを表現するためのスキーマ、State API と Timer API を使用してステートフル変換を行う方法について説明します。続いて、パイプラインのパフォーマンスを最大化するためのベストプラクティスを再確認します。コースの終盤では、Beam でビジネスロジックを表現するための SQL と DataFrame、および Beam ノートブックを使用してパイプラインを反復的に開発する方法を説明します。

Syllabus

はじめに

このモジュールでは、コースとその概要を紹介します

Beam のコンセプトの復習

Apache Beam の主なコンセプトと、それを独自のデータ処理パイプラインを作成するために適用する方法を復習します。

ウィンドウ、ウォーターマーク、トリガー

このモジュールでは、Dataflow を使用してストリーミングでデータを処理する方法を学びます。そのためには、3 つの主要なコンセプトを知っておく必要があります。1 つ目はウィンドウでデータをグループ化する方法、2 つ目はウィンドウに結果を表示する準備ができたことを知らせるウォーターマークの重要性、3 つ目はウィンドウ出力のタイミングと回数を制御する方法です。

ソースとシンク

このモジュールでは、Google Cloud Dataflow でソースとシンクの役割を果たすシステムについて学びます。Text IO、File IO、BigQuery IO、PubSub IO、KafKa IO、BigTable IO、Avro IO、Splittable DoFn の例を紹介していきます。また、各 IO に関連する便利な機能についても説明します。

スキーマ

このモジュールでは、Beam パイプラインで構造化データを表現する方法を開発者に提供するスキーマを紹介します。

State と Timer

このモジュールでは、State と Timer について説明します。どちらも、ステートフル変換を実装するために DoFn で使用できる優れた機能です。

ベストプラクティス

このモジュールでは、ベストプラクティスについて説明し、Dataflow パイプラインのパフォーマンスを最大化する一般的なパターンについて復習します。

Dataflow SQL と DataFrame

このモジュールでは、Beam でビジネスロジックを表現するための 2 つの新しい API、SQL と DataFrame を紹介します。

Beam ノートブック

このモジュールでは、Beam ノートブックについて説明します。これは、Python 開発者が Beam SDK にオンボードし、Jupyter ノートブック環境でパイプラインの反復的な開発を行うためのインターフェースです。

概要

このモジュールでは、本コースで取り上げた内容を振り返ります

Taught by

Google Cloud Training

Reviews

Start your review of Serverless Data Processing with Dataflow: Pipelines - 日本語版

Udemy, Coursera, 2U/edX Face Lawsuits Over Meta Pixel Use

Most common

Popular subjects

Popular courses

Serverless Data Processing with Dataflow: Pipelines - 日本語版

Overview

Syllabus

Taught by

Reviews

Udemy, Coursera, 2U/edX Face Lawsuits Over Meta Pixel Use

Taught by

Serverless Data Processing with Dataflow: Foundations - 日本語版

ML Pipelines on Google Cloud - 日本語版

Building Batch Data Pipelines on GCP 日本語版

Machine Learning in the Enterprise - 日本語版

Google Cloud Big Data and Machine Learning Fundamentals 日本語版

Building Resilient Streaming Analytics Systems on GCP 日本語版

100+ Google Cloud Certification Training Courses

1700 Coursera Courses That Are Still Completely FREE

250 Top FREE Coursera Courses of All Time

Massive List of MOOC-based Microcredentials

Never Stop Learning.