Big data in de praktijk met Hadoop

Iedereen is tegenwoordig aan de slag met "big data", voornamelijk in de context van analytics en "Data Science". Ook u wilt ongetwijfeld zelf uw diverse databronnen (click streams, sociale media, relationele data, sensor-data, IoT, ...) opslaan en gericht kunnen ondervragen, en u merkt dat de klassieke data-tools hierbij tekort schieten. Dan hebt u wellicht behoefte aan distributed data stores zoals HDFS en een MapReduce-infrastructuur zoals die van Hadoop.

Deze cursus bouwt verder op de concepten die in Big data architectuur en infrastructuur aangebracht worden. We gaan tijdens de training zelf aan de slag met Apache Hadoop: HDFS, Yarn, Pig en Hive. U leert hoe u robuuste gedistribueerde data-processing implementeert met een SQL-achtige interface die MapReduce-jobs genereert. U leert ook werken met de grafische tools die de jobs en de workflows over de gedistribueerde Hadoop-cluster opvolgt.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om zelfstandig een Hadoop-cluster op te zetten, data te importeren in HDFS, en zinvol te ondervragen met MapReduce.

Wanneer u Hadoop wil gebruiken met Spark, verwijzen we u naar de cursus Big data in de praktijk met Spark.

Kalender

Momenteel zijn er voor deze cursus geen publieke sessies gepland. Graag organiseren we een bedrijfssessie voor u of een extra publieke sessie (bij voldoende belangstelling). Geïnteresseerd? Laat het ons weten.

Doelgroep

Iedereen die praktisch aan de slag wil met "big data": ontwikkelaars, data-architecten, en iedereen die met big data technologie moet kunnen werken.

Voorkennis

Vertrouwdheid met de concepten van data stores en i.h.b. "big data" is noodzakelijk; zie hiervoor onze cursus Big data architectuur en infrastructuur. Verder is minimale kennis van SQL, UNIX/Linux en Java een pluspunt. In elk geval is enige programmeerervaring (b.v. met Java, PHP, Python, Perl, C++ of C#) noodzakelijk.

Inhoud

  • Motivatie voor Hadoop & basisconcepten
  • Het Apache Hadoop-project en de Hadoop-componenten
  • HDFS: het Hadoop Distributed File System
  • MapReduce: wat en hoe
  • Werking van een Hadoop-cluster
  • Schrijven van een MapReduce-programma
  • MapReduce drivers, mappers en reducers implementeren in Java
  • Mappers en Reducers schrijven in een andere programmeer- of scriptingtaal (b.v. Perl)
  • Unit testing
  • Schrijven van partitioners voor het optimaliseren van load balancing
  • Het debuggen van een MapReduce-programma
  • Data Input / Output
  • Sequentiële data lezen en schrijven vanuit een MapReduce-programma
  • Het gebruik van binaire data
  • Datacompressie
  • Enkele veelgebruikte MapReduce-componenten
  • Sorteren, zoeken, indexeren van data
  • Tellen van woorden en woord-paren
  • Werken met Hive en Pig
  • Pig als high-level "basis"-interface voor het laten genereren van een reeks MapReduce-jobs
  • Hive als SQL-stijl high-level interface voor het laten genereren van een reeks MapReduce-jobs
  • Het Parquet file-formaat: structuur en typisch gebruik; voordelen van datacompressie; uitwisselbaarheid
  • Korte kennismaking met HBase en Cassandra als alternatieve data store

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, ondersteund door uitgebreide praktijkoefeningen.

Duur

2 dagen.

Docent

Peter Vanroose.


SESSIE-INFO EN INSCHRIJVEN