home 
 
 
 
enfr
 
Home
Over ABIS
Diensten
Cursussen
Resources
Contact
MyABIS
C
Alle CursussenbalkjeAlgemeen » Introductie HW & SW » Soft skills » TrajectenOperating Systems » MVS - z/OS » UNIX - Linux - AIX » Mac OS X » iPad en iPhone iOSDatabases en middleware » Relationele databases & SQL » DB2 for z/OS » DB2 for LUW » Oracle » SQL Server » MySQL & MariaDB » IMS » CICS » IBM MQ » WebSphere » Big data en analyticsApplicatieontwikkeling » Methoden en technieken » TOGAF » PRINCE2 » Agile en Scrum » Programmeertalen » Internet development » Object Oriented systems » Java » Development tools » SAS » XML » SOA & web servicesSysteembeheer » ITIL » SecuritybalkjePraktischInschrijven 
Big data in de praktijk met Hadoop

Doel

Iedereen is tegenwoordig aan de slag met "big data". Wil u zelf eveneens uw diverse databronnen (click streams, sociale media, relationele data, sensor-data, ...) gericht kunnen ondervragen en schieten de klassieke data-tools hierbij tekort? Dan hebt u misschien behoefte aan distributed data stores zoals HDFS en een MapReduce-infrastructuur zoals die van Hadoop.

Deze cursus bouwt verder op de concepten die in Big data concepten aangebracht worden. We gaan hier zelf aan de slag op linux met Apache Hadoop: HDFS, Yarn, Pig en Hive. U leert hoe u robuuste gedistribueerde data-processing implementeert met een SQL-achtige interface die MapReduce-jobs genereert. U leert ook werken met de grafische tools die de jobs en de workflows over de gedistribueerde Hadoop-cluster opvolgt.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om zelfstandig een Hadoop-cluster op te zetten, data te importeren in HDFS, en zinvol te ondervragen met MapReduce.

Wanneer u Hadoop wil gebruiken met Spark, verwijzen we u naar de cursus Big data in de praktijk met Spark.

Inhoud

  • Motivatie voor Hadoop & basisconcepten
  • Het Apache Hadoop-project en de Hadoop-componenten
  • HDFS: het Hadoop Distributed File System
  • MapReduce: wat en hoe
  • Werking van een Hadoop-cluster
  • Schrijven van een MapReduce-programma
  • MapReduce drivers, mappers en reducers implementeren in Java
  • Mappers en Reducers schrijven in een andere programmeer- of scriptingtaal (b.v. Perl)
  • Unit testing
  • Schrijven van partitioners voor het optimaliseren van load balancing
  • Het debuggen van een MapReduce-programma
  • Data Input / Output
  • Sequentiële data lezen en schrijven vanuit een MapReduce-programma
  • Het gebruik van binaire data
  • Datacompressie
  • Enkele veelgebruikte MapReduce-componenten
  • Sorteren, zoeken, indexeren van data
  • Tellen van woorden en woord-paren
  • Werken met Hive en Pig
  • Pig als high-level "basis"-interface voor het laten genereren van een reeks MapReduce-jobs
  • Hive als SQL-stijl high-level interface voor het laten genereren van een reeks MapReduce-jobs
  • Korte kennismaking met HBase en Cassandra als alternatieve data store
 

Doelgroep

Eenieder die praktisch aan de slag wil met "big data": ontwikkelaars, data-architecten, en iedereen die met big data technologie moet kunnen werken.

Voorkennis

Vertrouwdheid met de concepten van data stores en i.h.b. "big data" is noodzakelijk; zie hiervoor onze cursus Big data concepten. Verder is minimale kennis van SQL, UNIX en Java een pluspunt. In elk geval is enige programmeerervaring (b.v. met Java, PHP, Python, Perl, C++ of C#) noodzakelijk.

Verloop van de cursus

Klassikaal onderricht, waarbij de nadruk ligt op praktische voorbeelden, en ondersteund door uitgebreide praktijkoefeningen.

Docenten

Peter Vanroose.

Duur

2 dagen.

Kalender

U kunt zich inschrijven door te klikken op een datum
datumduurtaal  plaats  prijs
02 Nov2NWoerden  (NL)1000 EUR  (BTW-vrij) 
20 Nov2?Leuven  (BE)1000 EUR  (excl. BTW) 

Globale score

   
4.1/5 (gebaseerd op 26 evaluaties)

Reviews

     
Goed om een overzicht te krijgen (, )
     
redelijk veel uitleg, interessant (, )
     
Ik vond dit een zeer goede cursus. (, )
     
Een dag langer? (, )
     
De meeste belangrijke punten zijn behandeld in de cursus. (, )
     
Vrij veel om te behappen op korte tijd. (, )
     
Redelijk veel info voor de beschikbare periode (, )
     
goed overzicht van big data architectuur en de samenhang tussen producten en tools (, )
     
Wel ok, ik denk dat de algemene uitleg veel sneller kan. Soms veel focus op details die voor mij bijna irrelevant lijken. Kan ook aan mij liggen. (, )
     
Goede introductie (, )

Ververs deze pagina om andere commentaren te zien.