Big data en pratique avec Hadoop

Mettez-vous au travail sur Linux avec Apache Hadoop (HDFS, Yarn, Pig et Hive) dans ce cours ABIS de deux journées.

Tout le monde semble être actif avec "big data" aujourd'hui, souvent dans le contexte d'analytics et "Data Science". Vous voulez sans doute aussi stocker puis interroger vos sources volumineuses de données (click streams, social media, données relationnelles, données capteurs, IoT, ...), et vous rencontrez des limitations avec les outils classiques. Dans ce cas, vous avez peut-être besoin de la puissance des dépôts de données distribués comme HDFS, et une infrastructure MapReduce comme celle de Hadoop.

Ce cours se fonde sur les sujets traités dans L'architecture et l'infrastructure Big Data. On se mettra au travail sur Linux avec Apache Hadoop: HDFS, Yarn, Pig et Hive.

Vous apprenez

  • comment implĂ©menter une analyse robuste des donnĂ©es, en utilisant une interface de style SQL qui gĂ©nère des jobs MapReduce;
  • comment travailler avec les outils graphiques qui vous montrent les jobs et workflows sur le cluster distribuĂ© Hadoop.

À la fin de ce cours, le participant aura acquis suffisamment d'expertise de base pour configurer un cluster Hadoop, importer des données en HDFS, et les interroger avec MapReduce.

Si vous voulez plutĂ´t utiliser Hadoop avec Spark, il vaut mieux suivre le cours Big data en pratique avec Spark.

Planifier une session?

Formation interactive en temps rĂ©el – disponible en personne ou en ligne ou dans un format hybride. La formation peut ĂŞtre effectuĂ©e en nĂ©erlandais, en anglais ou en français.

DEMANDER FORMATION EN ENTREPRISE

 

Calendrier publique des formations

Il n'y a pas de sessions publiques à ce moment. Nous organisons volontiers un cours en entreprise ou une session publique supplémentaire (en cas d'un nombre suffisant de participants). Intéressé? Contactez-nous.

Participants

Ce cours concerne toute personne qui veut commencer à utiliser "big data": développeurs, architectes de données, et tous ceux qui devront travailler avec la technologie big data.

Connaissances préalables

Être familier avec les concepts des data stores, et en particulier "big data"; voir notre cours L'architecture et l'infrastructure Big Data. Additionnellement, la connaissance minimale d'SQL, de UNIX/Linux, et de Java est un avantage. En tout cas, une expérience minimale d'une langue de programmation (p.ex. Java, PHP, Python, Perl, Scala, C++ ou C#) est nécessaire.

Contenu

  • Motivation pour Hadoop & concepts de base
    • Le projet Apache Hadoop et ses logiciels
    • HDFS: le "Hadoop Distributed File System"
    • MapReduce: quoi et comment
    • Fonctionnement d'un cluster Hadoop
  • Écrire un programme MapReduce
    • pilote MapReduce; implĂ©menter des Mappers et des Reducers en Java
    • Ă©crire des Mappers et des Reducers dans une autre langue de programmation (p.ex. Perl)
    • Unit testing
    • Écrire des Partitioners pour l'optimisation du load balancing
    • DĂ©boguer une programme MapReduce
  • Input / Output des donnĂ©es
    • Lire et Ă©crire des donnĂ©es sĂ©quentielles en venant d'une programme MapReduce
    • L'utilisation des donnĂ©es binaires
    • Compression des donnĂ©es
  • Quelques composants MapReduce souvent utilisĂ©s
    • Trier, rechercher, indexer des donnĂ©es
    • ÉnumĂ©rer des mots et des paires de mots
  • Travailler avec Hive et avec Pig
    • Pig comme interface de base high-level, pour la gĂ©nĂ©ration automatique d'une sĂ©quence de jobs MapReduce
    • Hive comme interface style SQL, pour la gĂ©nĂ©ration automatique d'une sĂ©quence de jobs MapReduce
  • Le format fichier "Parquet": structure et utilisation typique; avantages de compression de donnĂ©es; interopĂ©rabilitĂ©
  • Faire la connaissance avec HBase et Cassandra, comme alternatives de stockage de donnĂ©es

PĂ©dagogie

Enseignement classique agrémenté d'exemples pratiques, et assez de temps prévu pour pratiquer avec plusieurs exercices.

Certificat

À la fin du cours, le participant reçoit un «Certificat de réussite».

Durée

2 jours.

Formateur


INFO SESSION ET INSCRIPTION