Overview
Class Central Tips
Les pipelines de données s'inscrivent généralement dans le paradigme EL (extraction et chargement), ELT (extraction, chargement et transformation) ou ETL (extraction, transformation et chargement). Ce cours vous indiquera quel paradigme utiliser pour le traitement de données par lot en fonction du contexte. Il vous présentera également plusieurs solutions Google Cloud de transformation des données, y compris BigQuery, l'exécution de Spark sur Dataproc, les graphiques de pipelines dans Cloud Data Fusion et le traitement des données sans serveur avec Dataflow. Les participants mettront en pratique les connaissances qu'ils auront acquises en créant des composants de pipelines de données sur Google Cloud à l'aide de Qwiklabs.
Syllabus
- Présentation
- Dans ce module, nous vous présentons le cours et son déroulement.
- Présentation de la création de pipelines de données par lot
- Ce module passe en revue différentes méthodes de chargement de données (EL, ELT et ETL) et vous indique quand les utiliser.
- Exécuter Spark sur Dataproc
- Ce module vous apprend à exécuter Hadoop sur Dataproc, à exploiter Cloud Storage et à optimiser vos tâches Dataproc.
- Traiter des données sans serveur avec Dataflow
- Ce module vous explique comment utiliser Dataflow pour créer vos pipelines de traitement de données.
- Gérer des pipelines de données avec Cloud Data Fusion
- Ce module vous montre comment gérer des pipelines de données avec Cloud Data Fusion et Cloud Composer.
- Résumé du cours
- Résumé du cours
Taught by
Google Cloud Training