ABIS Infor - 2016-06

Big Data en Analytics - ABC (deel 1)

Arnout Veugelen (ABIS) – 13 juni 2016

Samenvatting

Big Data en Analytics zijn twee van dè modebegrippen van de laatste jaren. Nieuwe mode komt met nieuwe terminologie, en voor u het weet staat u met de mond vol tanden. Dankzij ons compacte Big Data-alfabet zal dat niet langer het geval zijn, en imponeert u voortaan baas en collega's tijdens vergaderingen en koffiepauzes.

In deze editie presenteren we deel 1 (A–K), volgende keer volgt de andere helft.

Aggregation – Het verzamelen en samenvatten van informatie, voorafgaand aan analyse.

Analytics – Het ontdekken, interpreteren en communiceren van relevante inzichten in data.

AWS – Amazon Web Services: een bundel cloud-diensten van Amazon, met onder meer relationele en NoSQL-databases (DynamoDB), een Hadoop-implementatie, machine learning-diensten etc.

Behavioural Analytics – Het met behulp van data verwerven van inzichten in menselijk gedrag.

BI – Business Intelligence: de technieken en theorieën die gebruikt kunnen worden voor het verwerven en verwerken van data tot waardevolle business informatie.

Big Data – Vaak gedefinieerd aan de hand van 3 V's: Volume, Variety en Velocity. Big Data omvat het werken met zeer grote hoeveelheden data van diverse pluimage, die aan een hoog tempo verworven worden en typisch razendsnel (vaak real-time) geanalyseerd moeten kunnen worden.

Cassandra – Een open source NoSQL-database, ontwikkeld door Facebook.

Cloud Computing – Het via het internet door een dienstverlener laten uitvoeren van een aantal taken, zoals bijvoorbeeld bestandsopslag of -verwerking.

Cloudera – Amerikaans bedrijf dat Hadoop-gerelateerde software maakt.

Cold Data Storage – Opslag van 'oude data' die zelden gebruikt moeten worden. Een dergelijk archief kan uitgaan van een compact opslagformaat op relatief goedkope servers, in ruil voor een lagere verwerkingssnelheid.

Column-oriented Database of Columnar Database – Een Database Management System dat zich baseert op kolommen. Traditionele relationele databases zijn meestal gebaseerd op rijen: zo zal in een tabel met persoonsgegevens elke persoon een eigen rij hebben, met daarin voornaam, familienaam, telefoonnummer ... Een kolomgebaseerde database gaat uit van die kolommen: alle voornamen, alle familienamen etc. Vaak kan de data op deze manier beter gecomprimeerd worden en verlopen bepaalde kolomoperaties (sommeren, gemiddeldes berekenen ... ) sneller. Deze opslagwijze kan zowel gebruikt worden voor relationele als NoSQL-databases.

Confabulation – Term uit de psychiatrie. In een data-context: een reeds gemaakte beslissing achteraf maskeren alsof ze gebaseerd is op data-analyse.

Data Exhaust – Data die geproduceerd worden als bijproduct van digitale activiteiten: log files, cookies, click streams, temporary files etc. Deze data vertellen soms erg veel over een persoon, en worden dan ook gretig gebruikt voor marketing-doeleinden.

Data Governance – Een geheel aan processen die de spelregels moeten waarborgen voor het correct beheren van data: beschikbaarheid, beveiliging, privacy ...

Data Science – Verzamelterm voor alle disciplines die nodig zijn om inzichten uit data te verwerven. Omvat onder andere statistiek, visualisatie, data mining, machine learning etc.

Data Scientist – Beoefenaar van data science. Titel die uitstekend staat op een visitekaartje, ook populair in jobadvertenties.

Data Virtualization – Het beschikbaar maken van data aan een toepassing, zonder dat deze alle technische details (zoals de fysieke locatie) moet kennen.

Data Warehouse – Een centrale verzamelplaats van gegevens van waaruit rapportage en analyse uitgevoerd kunnenworden. De data worden typisch opgeladen vanuit verschillende bronnen en voorverwerkt om te voldoen aan de vereiste structuur (ETL).

Database – Een georganiseerde verzameling gerelateerde data-elementen, die makkelijk verwerkt kunnen worden door een of meerdere applicaties.

DBMS – Database Management System: een applicatie die fungeert als doorgeefluik tussen de gebruiker en de database.

Document-oriented database of Document Store – Een type NoSQL-database, die uitgaat van semi-gestructureerde data, bijvoorbeeld XML- of JSON-documenten.

ETL – Extract, Transform and Load: de klassieke methode om data beschikbaar te maken voor bijvoorbeeld een database of data warehouse: de gegevens worden opgehaald vanuit de verschillende bronnen, vervolgens omgevormd tot het geschikte formaat, en vervolgens ingeladen. Veel Big Data- oplossingen vinden deze manier van werken te omslachtig.

Exabyte (een 1 met 18 nullen bytes), of een miljoen terabytes. In 2013 werd geschat dat Google over ongeveer 15 exabytes aan data zou beschikken.

Fog Computing – het decentraliseren van computerinfrastructuur om clouddiensten te optimaliseren. Zo kan een dienstverlener bijvoorbeeld servers inschakelen die zich in de buurt van de klant bevinden, om het transport sneller en efficiënter te maken.

Graph Database – Een database waarbij de verbanden tussen de verschillende elementen een essentieel onderdeel zijn van het datamodel. Hoewel sommige relationele databases deze mogelijkheid voorzien, is het eerder een typische eigenschap van bepaalde NoSQL-databases.

Grid Computing – Het verbinden van verschillende computers op verschillende locaties met een gezamenlijk doel.

Hadoop – Een open source framework van Apache om grote hoeveelheden data op te slaan en te verwerken, verspreid over clusters van verschillende computers. Door parallel op vele machines te werken, is er geen nood aan gespecialiseerde (dure) hardware. De kern van Hadoop wordt gevormd door het bestandssysteem HDFS en het verwerkingsmodel MapReduce.

HBase – Een NoSQL-database van het key-value type, die deel uitmaakt van het Hadoop-project.

HDFS – Hadoop Distributed File System: het centrale bestandsysteem van Hadoop. Zeer grote bestanden (typisch meerdere terabytes groot) worden verspreid over verschillende machines. Door de in het systeem voorziene redundantie vormt het geen probleem wanneer bepaalde machines onbeschikbaar zijn.

Hive – Software die bovenop Hadoop gedraaid kan worden en het mogelijk maakt queries te schrijven in HQL (Hive Query Language), een taal die verwant is met SQL. Oorspronkelijk ontwikkeld door Facebook, ondertussen onder andere gebruikt door Netflix.

Impala – Een query-engine van Cloudera die draait op Hadoop. In zekere zin een concurrent van Hive, met een focus op performantie.

In-database Analytics – Het uitvoeren van analytics in het DBMS of het data warehouse, in plaats van in een aparte analyse-omgeving.

In-memory Database – een databasemanagementsysteem dat primair gebruikt maakt van het geheugen voor dataopslag in plaats van de harde schijf.

IoT – Internet of Things: het koppelen van allerlei toestellen (van koelkasten tot windmolens) aan het internet. Sensoren verzamelen data (bijvoorbeeld over het energieverbruik van het toestel), die dan elders verwerkt kunnen worden.

JSON – JavaScript Object Notation: een gegevensformaat. Via semi-gestructureerde tekst worden data-objecten opgebouwd die bestaan uit een of meer attributen met bijbehorende waarde.

Key Value Store – Een type NoSQL-database waar aan elke record een aantal waarden gekoppeld kunnen worden, zonder nood aan een vooropgestelde vaste structuur.

Meer weten?

In onze volgende editie volgt de tweede helft van het alfabet, maar als u op zoek bent naar diepgaandere kennis, nodigen we u graag uit op een van onze cursussen. Voor het najaar van 2016 hebben we ons Big Data en Analytics aanbod grondig uitgebreid. Bekijk hier het volledige aanbod. En in het artikel van Peter Vanroose over Perl Text Analytics vindt u alvast een voorsmaakje van wat er zich in de Big Data wereld afspeelt.