Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

OpenClassrooms

Réalisez des calculs distribués sur des données massives

CentraleSupélec via OpenClassrooms

Overview

Que faire lorsque la complexité de vos applications dépasse votre capacité de calcul ? La solution consiste à distribuer les calculs sur un cluster constitué de plusieurs machines, mais faut-il pour cela avoir un supercalculateur dans son garage ? Non ! Aujourd'hui, le cluster computing est à la portée de tous grâce à MapReduce, qui permet de créer facilement des applications distribuées, et au cloud, qui fournit des ressources de calculs pratiquement infinies pour un coût modique.

C'est le rôle des Data Architects de déployer des clusters de calculs permettant de réaliser des analyses complexes sur des données massives. Pour cela, nous verrons ensemble comment écrire des applications distribuées avec Hadoop MapReduce et Spark, éléments essentiels de la boîte à outil des Data Architects. À l'issue de ce cours, vous serez en mesure de lancer des calculs distribués sur des clusters contenant des dizaines de machines à l'aide d'Amazon Web Services.

Vous voulez faire du Big Data sans blabla ? Alors on y va !

Prérequis :

Algorithmique

  • Estimation et optimisation de complexité en temps et espace, notation asymptotique
  • Structures de données (listes, piles, files, ensembles, tas, arbres binaires de recherche, tables de hachage)
  • Théorie des graphes (parcours, plus court chemin)
  • Conception d'algorithmes (diviser pour régner, force brute)

Programmation

  • Solides connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre)
  • Structures de données
  • Notions de parallélisation

Ingénierie informatique

  • Solides connaissances de l'environnement UNIX
  • Gestion de la mémoire et des transferts de données
  • Connaissances élémentaires des réseaux

Syllabus


Part #1 - Au fond, c’est quoi le Big Data ?
1. Prenez vos marques dans le monde du Big Data
2. Voyagez dans l’écosystème du Big Data
3. Initiez-vous au calcul distribué
Quiz: À la découverte des mégadonnées

Part #2 - Réalisez des calculs massivement parallèles avec MapReduce
1. Divisez (et distribuez) pour régner
2. Parcourez les principaux algorithmes MapReduce
3. Familiarisez-vous avec Hadoop
Activity: Recréez le cœur de Google avec Hadoop : la pondération tf-idf et le PageRank

Part #3 - Effectuez des calculs distribués sous forme de graphes avec Spark
1. Allez au-delà de MapReduce avec Spark
2. Prenez Spark en main
3. Domptez les Resilient Distributed Datasets
4. Mettez Spark au service des Data Scientists
5. Apprenez à débugger une application Spark
Activity: Réalisez des statistiques sur un texte avec Spark SQL

Part #4 - Passez à l'échelle dans le cloud
1. Découvrez Amazon Web Services
2. Stockez des données sur S3
3. Déployez un cluster de calculs distribués
4. Réalisez la maintenance d'un cluster
Quiz: Stockage et calculs distribués dans le cloud

Taught by

Céline Hudelot and Régis Behmo

Reviews

Start your review of Réalisez des calculs distribués sur des données massives

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.