Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Google Cloud

Serverless Data Processing with Dataflow: Develop Pipelines en Español

Google Cloud via Coursera

Overview

En esta segunda parte de la serie de cursos sobre Dataflow, analizaremos en profundidad el desarrollo de canalizaciones con el SDK de Beam. Comenzaremos con un repaso de los conceptos de Apache Beam. A continuación, analizaremos el procesamiento de datos de transmisión con ventanas, marcas de agua y activadores. Luego, revisaremos las opciones de fuentes y receptores en sus canalizaciones, los esquemas para expresar datos estructurados y cómo realizar transformaciones con estado mediante las API de State y de Timer. Después, revisaremos las prácticas recomendadas que ayudan a maximizar el rendimiento de las canalizaciones. Al final del curso, presentaremos SQL y Dataframes para representar su lógica empresarial en Beam y cómo desarrollar canalizaciones de forma iterativa con notebooks de Beam.

Syllabus

  • Introducción
    • En este módulo, se presenta el curso y su descripción
  • Revisión de conceptos de Beam
    • Revise los conceptos principales de Apache Beam y cómo aplicarlos para escribir sus propias canalizaciones de procesamiento de datos.
  • Ventanas, marcas de agua y activadores
    • En este módulo, aprenderá a procesar datos en transmisiones con Dataflow. Para ello, debe conocer tres conceptos principales: cómo agrupar datos en ventanas, la importancia de las marcas de agua para saber cuándo la ventana está lista para producir resultados, y cómo puede controlar cuándo y cuántas veces los emitirá la ventana.
  • Fuentes y receptores
    • En este módulo, aprenderá acerca de las características de las fuentes y los receptores en Google Cloud Dataflow. En el módulo hay algunos ejemplos de E/S de Text, E/S de File, E/S de BigQuery, E/S de PubSub, E/S de KafKa, E/S de BigTable, E/S de Avro y DoFn divisible. En el módulo también se indican algunas funciones útiles asociadas a cada E/S.
  • Esquemas
    • En este módulo, se presentarán los esquemas, que les proporcionan a los desarrolladores una manera de expresar datos estructurados en sus canalizaciones de Beam.
  • Estado y Temporizadores
    • Este módulo abarca Estado y Temporizadores, dos funciones potentes que puede usar en su DoFn para implementar transformaciones con estado.
  • Prácticas Recomendadas
    • En este módulo, analizaremos las prácticas recomendadas y revisaremos patrones comunes que maximizan el rendimiento de sus canalizaciones de Dataflow.
  • Dataflow SQL y DataFrames
    • En este módulo, se mencionan dos API nuevas para representar su lógica empresarial en Beam: SQL y Dataframes.
  • Notebooks de Beam
    • Este módulo abarcará notebooks de Beam, una interfaz para desarrolladores de Python a fin de realizar incorporaciones en el SDK de Beam y desarrollar sus canalizaciones iterativamente en un entorno de notebooks Jupyter.
  • Resumen
    • En este módulo, se ofrece un resumen del curso.

Taught by

Google Cloud Training

Reviews

Start your review of Serverless Data Processing with Dataflow: Develop Pipelines en Español

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.