Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Google Cloud

Serverless Data Processing with Dataflow: Develop Pipelines em Português Brasileiro

Google Cloud via Coursera

Overview

In this second installment of the Dataflow course series, we are going to be diving deeper on developing pipelines using the Beam SDK. We start with a review of Apache Beam concepts. Next, we discuss processing streaming data using windows, watermarks and triggers. We then cover options for sources and sinks in your pipelines, schemas to express your structured data, and how to do stateful transformations using State and Timer APIs. We move onto reviewing best practices that help maximize your pipeline performance. Towards the end of the course, we introduce SQL and Dataframes to represent your business logic in Beam and how to iteratively develop pipelines using Beam notebooks.

Syllabus

  • Introduçao
    • Este módulo é uma introdução ao curso e ao conteúdo dele.
  • Resumo dos conceitos do Beam
    • Confira os principais conceitos do Apache Beam e como aplicá-los na criação dos seus próprios pipelines de processamento de dados.
  • Janelas, gatilhos de marcas d'água
    • Neste módulo, você aprenderá a processar dados em streaming com o Dataflow. Para fazer isso, você precisa entender três conceitos principais: como agrupar dados em janelas, a importância das marcas d’água para saber quando a janela está pronta para oferecer resultados e como definir quantas vezes a janela emitirá respostas e a frequência desse processo.
  • Origens e coletores
    • Neste módulo, você aprenderá sobre as origens e os coletores no Google Cloud Dataflow. Mostraremos alguns exemplos de DoFn divisível e de E/S de texto, arquivos, BigQuery, Pub/Sub, Kafka, BigTable e Avro. Além disso, mostraremos alguns recursos úteis associados a cada E/S.
  • Esquemas
    • Neste módulo, apresentaremos esquemas que são usados por desenvolvedores para expressar dados estruturados nos pipelines do Beam.
  • Estado e Timers
    • Neste módulo, falaremos sobre estado e timers, dois recursos avançados que você pode usar na DoFn para implementar transformações com estado.
  • Práticas Recomendadas
    • Neste módulo, falaremos sobre práticas recomendadas e padrões comuns que maximizam o desempenho dos seus pipelines do Dataflow.
  • Dataflow SQL e DataFrames
    • Neste módulo, apresentaremos duas novas APIs que representam sua lógica de negócios no Beam: SQL e DataFrames.
  • Notebooks do Beam
    • Este módulo é sobre os notebooks do Beam, uma interface para que os desenvolvedores que usam Python comecem a adotar o SDK da plataforma. Isso pode ser feito para criar pipelines de forma iterativa em um ambiente de notebooks do Jupyter.
  • Resumo
    • Este módulo é uma recapitulação do curso.

Taught by

Google Cloud Training

Reviews

Start your review of Serverless Data Processing with Dataflow: Develop Pipelines em Português Brasileiro

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.