ABIS Infor - 2016-11

Big Data en Analytics - ABC (deel 2)

Arnout Veugelen (ABIS) – 14 november 2016

Samenvatting

Big Data en Analytics zijn twee van dè modebegrippen van de laatste jaren. Nieuwe mode komt met nieuwe terminologie, en voor u het weet, staat u met de mond vol tanden. Dankzij ons compacte Big Data-alfabet zal dat niet langer het geval zijn, en imponeert u voortaan baas en collega's tijdens vergaderingen en koffiepauzes.

In ons vorige nummer publiceerden we de eerste helft, in deze editie vullen we ons alfabet aan met deel 2 (L–Z).

A

Aggregation – Het verzamelen en samenvatten van informatie, voorafgaand aan analyse.

Analytics – Het ontdekken, interpreteren en communiceren van relevante inzichten in data.

AWSAmazon Web Services: een bundel cloud-diensten van Amazon, met onder meer relationele en NoSQL-databases (DynamoDB), een Hadoop-implementatie, machine learning-diensten etc.

B

Behavioural Analytics – Het met behulp van data verwerven van inzichten in menselijk gedrag.

BIBusiness Intelligence: de technieken en theorieën die gebruikt kunnen worden voor het verwerven en verwerken van data tot waardevolle business informatie.

Big Data – Vaak gedefinieerd aan de hand van 3 V's: Volume, Variety en Velocity. Big Data omvat het werken met zeer grote hoeveelheden data van diverse pluimage, die aan een hoog tempo verworven worden en typisch razendsnel (vaak real-time) geanalyseerd moeten kunnen worden.

C

Cassandra – Een open source NoSQL-database, ontwikkeld door Facebook.

Cloud Computing – Het via het internet door een dienstverlener laten uitvoeren van een aantal taken, zoals bijvoorbeeld bestandsopslag of -verwerking.

Cloudera – Amerikaans bedrijf dat Hadoop-gerelateerde software maakt.

Cold Data Storage – Opslag van 'oude data' die zelden gebruikt moeten worden. Een dergelijk archief kan uitgaan van een compact opslagformaat op relatief goedkope servers, in ruil voor een lagere verwerkingssnelheid.

Column-oriented Database of Columnar Database – Een Database Management System dat zich baseert op kolommen. Traditionele relationele databases zijn meestal gebaseerd op rijen: zo zal in een tabel met persoonsgegevens elke persoon een eigen rij hebben, met daarin voornaam, familienaam, telefoonnummer ... Een kolomgebaseerde database gaat uit van die kolommen: alle voornamen, alle familienamen etc. Vaak kan de data op deze manier beter gecomprimeerd worden en verlopen bepaalde kolomoperaties (sommeren, gemiddeldes berekenen ...) sneller. Deze opslagwijze kan zowel gebruikt worden voor relationele als NoSQL-databases.

Confabulation – Term uit de psychiatrie. In een data-context: een reeds gemaakte beslissing achteraf maskeren alsof ze gebaseerd is op data-analyse.

D

Data Exhaust – Data die geproduceerd worden als bijproduct van digitale activiteiten: log files, cookies, click streams, temporary files etc. Deze data vertellen soms erg veel over een persoon, en worden dan ook gretig gebruikt voor marketing-doeleinden.

Data Governance – Een geheel aan processen die de spelregels moeten waarborgen voor het correct beheren van data: beschikbaarheid, beveiliging, privacy ...

Data Science – Verzamelterm voor alle disciplines die nodig zijn om inzichten uit data te verwerven. Omvat onder andere statistiek, visualisatie, data mining, machine learning etc.

Data Scientist – Beoefenaar van data science. Titel die uitstekend staat op een visitekaartje, ook populair in jobadvertenties.

Data Virtualization – Het beschikbaar maken van data aan een toepassing, zonder dat deze alle technische details (zoals de fysieke locatie) moet kennen.

Data Warehouse – Een centrale verzamelplaats van gegevens van waaruit rapportage en analyse uitgevoerd kunnenworden. De data worden typisch opgeladen vanuit verschillende bronnen en voorverwerkt om te voldoen aan de vereiste structuur (ETL).

Database – Een georganiseerde verzameling gerelateerde data-elementen, die makkelijk verwerkt kunnen worden door een of meerdere applicaties.

DBMSDatabase Management System: een applicatie die fungeert als doorgeefluik tussen de gebruiker en de database.

Document-oriented database of Document Store – Een type NoSQL-database, die uitgaat van semi-gestructureerde data, bijvoorbeeld XML- of JSON-documenten.

E

ETL – Extract, Transform and Load: de klassieke methode om data beschikbaar te maken voor bijvoorbeeld een database of data warehouse: de gegevens worden opgehaald vanuit de verschillende bronnen, vervolgens omgevormd tot het geschikte formaat, en vervolgens ingeladen. Veel Big Data- oplossingen vinden deze manier van werken te omslachtig.

Exabyte (een 1 met 18 nullen bytes), of een miljoen terabytes. In 2013 werd geschat dat Google over ongeveer 15 exabytes aan data zou beschikken.

F

Fog Computing – het decentraliseren van computerinfrastructuur om clouddiensten te optimaliseren. Zo kan een dienstverlener bijvoorbeeld servers inschakelen die zich in de buurt van de klant bevinden, om het transport sneller en efficiënter te maken.

G

Graph Database – Een database waarbij de verbanden tussen de verschillende elementen een essentieel onderdeel zijn van het datamodel. Hoewel sommige relationele databases deze mogelijkheid voorzien, is het eerder een typische eigenschap van bepaalde NoSQL-databases.

Grid Computing – Het verbinden van verschillende computers op verschillende locaties met een gezamenlijk doel.

H

Hadoop – Een open source framework van Apache om grote hoeveelheden data op te slaan en te verwerken, verspreid over clusters van verschillende computers. Door parallel op vele machines te werken, is er geen nood aan gespecialiseerde (dure) hardware. De kern van Hadoop wordt gevormd door het bestandssysteem HDFS en het verwerkingsmodel MapReduce.

HBase – Een NoSQL-database van het key-value type, die deel uitmaakt van het Hadoop-project.

HDFS – Hadoop Distributed File System: het centrale bestandsysteem van Hadoop. Zeer grote bestanden (typisch meerdere terabytes groot) worden verspreid over verschillende machines. Door de in het systeem voorziene redundantie vormt het geen probleem wanneer bepaalde machines onbeschikbaar zijn.

Hive – Software die bovenop Hadoop gedraaid kan worden en het mogelijk maakt queries te schrijven in HQL (Hive Query Language), een taal die verwant is met SQL. Oorspronkelijk ontwikkeld door Facebook, ondertussen onder andere gebruikt door Netflix.

I

Impala – Een query-engine van Cloudera die draait op Hadoop. In zekere zin een concurrent van Hive, met een focus op performantie.

In-database Analytics – Het uitvoeren van analytics in het DBMS of het data warehouse, in plaats van in een aparte analyse-omgeving.

In-memory Database – een databasemanagementsysteem dat primair gebruikt maakt van het geheugen voor dataopslag in plaats van de harde schijf.

IoT Internet of Things: het koppelen van allerlei toestellen (van koelkasten tot windmolens) aan het internet. Sensoren verzamelen data (bijvoorbeeld over het energieverbruik van het toestel), die dan elders verwerkt kunnen worden.

J

JSON – JavaScript Object Notation: een gegevensformaat. Via semi-gestructureerde tekst worden data-objecten opgebouwd die bestaan uit een of meer attributen met bijbehorende waarde.

K

Key Value Store – Een type NoSQL-database waar aan elke record een aantal waarden gekoppeld kunnen worden, zonder nood aan een vooropgestelde vaste structuur.

L

Load balancing – Het (zo optimaal mogelijk) verdelen van werk over meerdere computers.

Log files – Logboeken: bestanden waarin automatisch gegevens verzameld worden tijdens de werking van een systeem. Een typische bron van big data.

M

Machine Learning – Algoritmes en technieken die computers in staat stellen om tijdens hun werking bij te leren, zonder dat de nieuwe kennis of functionaliteit expliciet geprogrammeerd moet worden.

Mahout – Een framework en ontwikkelomgeving van Apache om machine learning-applicaties te bouwen die bruikbaar zijn in een big data-context.

MapReduce – De verwerkingscomponent van Hadoop: eerst wordt de input-data verdeeld over de verschillende beschikbare machines, en wordt een eerste deel van de operatie parallel uitgevoerd op al deze stukken (de Map-fase), vervolgens worden al deze individuele tussenresultaten samen verwerkt tot het uiteindelijke antwoord (de Reduce-fase).

Massively Parallel Processing (MPP) Het verwerken van complexe of omvangrijke problemen door verschillende processoren of verschillende computers gelijktijdig in te schakelen.

Matlab (Matrix Laboratory) – Een softwareomgeving en programmeertaal voor allerlei wiskundige toepassingen, met uitgebreide visualisatiemogelijkheden.

Metadata – Data die informatie biedt over andere data: bestandsgrootte, auteur, tijdstempels ...

MongoDB – Een open source document-oriented database, die vaak gebruikt wordt in een big data-context. De data wordt opgeslagen in de vorm van JSON-achtige documenten.

Multithreading – De mogelijkheid om één processor(kern) quasi-tegelijkertijd verschillende opdrachten te laten uitvoeren.

N

NoSQL – Vroeger verklaard als 'non-SQL', tegenwoordig meestal 'Not Only SQL': een term die gebruikt wordt om te verwijzen naar een brede groep databases die zich –in tegenstelling tot relationele (SQL-) databases– niet strikt aan de relationele theorie houden. Een soepelere opstelling met betrekking tot onder andere het permanent consistent zijn van alle gegevens, maakt het bijvoorbeeld makkelijker om een NoSQL database te verspreiden over meerdere machines. Enkele bekende voorbeelden zijn Cassandra, HBase, Couchbase en MongoDB.

O

Object (Oriented) Database – Een No-SQL-database die gegevens voorstelt als objecten, zoals object-georiënteerde programmeertalen dat doen. Dat laat een goede wisselwerking tussen programmeertaal en database toe.

Online Analytical Processing (OLAP) – Een term uit de Data Warehouse-wereld, die slaat op het verkrijgen en verwerken van informatie vanuit verschillende invalshoeken (multidimensionaal), bijvoorbeeld om verkoopsgegevens tegelijkertijd zowel per product, per periode als per regio te analyseren.

Outlier Detection – Outliers, in het Nederlands uitbijters of uitschieters, zijn waarnemingen die sterk afwijken van andere waarnemingen. De aanwezigheid van zo'n uitschieters kan erop wijzen dat er iets aan de hand is, dus is het belangrijk ze op te sporen.

P

Petabyte – (een 1 met 15 nullen bytes), of een miljoen gigabytes. Het menselijk brein zou ongeveer 2,5 petabytes aan herinneringen kunnen opslaan.

Pig – Een platform om Hadoop-programma's te ontwikkelen, met een eigen taal: Pig Latin.

Predictive Analytics – Het voorspellen van gebeurtenissen in de toekomst op basis van het verleden, met behulp van verschillende technieken uit de statistiek, (big) data-analyse, machine learning ...

Privacy – Een belangrijk (en vaak ondergesneeuwd) aandachtspunt in een wereld waar steeds meer (persoonsgebonden) gegevens verzameld worden.

Python – Een programmeertaal die begin jaren 1990 bedacht werd door de Nederlander Guido Van Rossum. De focus ligt op leesbaarheid en gebruiksgemak voor de programmeur. De beschikbaarheid van een aantal gespecialiseerde bibliotheken maakt Python onder andere een erg populaire taal voor data-analyse.

Q

Qlik – Software voor data-visualisatie. Met hun product QlikView kan je dashboards bouwen die door het hele bedrijf gebruikt worden, QlikSense biedt doe-het-zelf-visualisaties voor eindgebruikers.

Query – Een vraag om informatie aan bijvoorbeeld een database.

R

R – Een programmeertaal en software-tool die erg populair is voor statistische analyse en visualisatie.

Real-time Data – Gegevens die een fractie van een seconde nadat ze ontstaan zijn, verwerkt en geanalyseerd worden. Zo kan een systeem bijvoorbeeld live ingrijpen op basis van binnenkomende sensorgegevens.

Relational Database – Een database die georganiseerd is volgens het relationeel model; de data wordt bijgehouden in verschillende tabellen (relations): elke rij stelt een record voor, elke kolom een bepaalde eigenschap. Tussen deze tabellen zijn logische verbanden gedefinieerd die te allen tijde in stand gehouden worden. Zowat alle relationele databases laten zich ondervragen en onderhouden met SQL. De bekendste voorbeelden zijn Oracle, DB2, SQLServer en MySQL.

Radio Frequency Identification (RFID) – Een draadloze sensortechnologie die in steeds meer voorwerpen terug te vinden is, van toegangsbadges tot bibliotheekboeken. Samen met allerlei andere sensordata een typische big data-bron.

S

SAS (Statistical Analysis System) – Een softwareomgeving en programmeertaal gespecialiseerd in data-analytics, statistiek etc.

Sentimental Analysis – De gemoedstoestand van mensen proberen te achterhalen via allerlei algoritmes, vaak voor marketingdoeleinden, meestal op basis van teksten zoals e-mails. Ook wel opinion mining genoemd.

Smart Home, Smart Grid, Smart City etc. – Door het verzamelen en verwerken van grote hoeveelheden data allerhande, gaat men ervan uit huizen, electriciteitsnetwerken, steden ... efficiënter te kunnen beheren.

Spark – Net zoals Hadoop is Spark een open source framework van Apache om grote hoeveelheden data te verwerken, verspreid over clusters van verschillende computers. De nadruk ligt, meer dan bij Hadoop, op snelheid.

SQL – Structured Query Language: de de facto standaardtaal voor communicatie met relationele databases.

Statistics – Een basisvaardigheid voor elke Data Scientist in wording!

T

Tableau – Data-visualisatie-software; dankzij de drag-and-drop-interface hoef je geen IT-specialist te zijn om ermee aan de slag te gaan.

Terabyte – (een 1 met 12 nullen bytes). De harde schijf van een personal computer heeft tegenwoordig typisch een capaciteit van enkele terabytes.

Text Analytics (Text Mining) – Relevante informatie uit tekst halen met behulp van algoritmes.

U

Unstructured Data – Gegevens die niet op een vaste, vooropgestelde manier gestructureerd zijn, maar desalniettemin interessante informatie kunnen bevatten. Vaak gaat het om doorlopende tekst, zoals de inhoud van e-mails. Naast unstructured data en structured data, die gestandaardiseerd is voor een bepaald data(-base) model, wordt ook gesproken over semi-structured data, om bijvoorbeeld te verwijzen naar XML- en JSON-documenten.

V

Volume, Variety en Velocity – De 3 V's die over het algemeen gebruikt worden om big data te definiëren. Vaak worden ze nog aangevuld met een vierde V: Veracity, om het belang van de kwaliteit van de data te benadrukken. De vijfde V wordt dan soms Value (die genereer je dankzij al je data science-skills) en creatievelingen wagen zich regelmatig aan bijkomende V-woorden.

Visualisation – Grafische voorstelling van data en informatie. Uitstekende visualisatieskills zijn onontbeerlijk om data overtuigend te presenteren.

W

Wrangling – Het omzetten van onbewerkte ('ruwe') data tot een geschikt formaat voor een analyse-omgeving.

X

XML – Extensible Markup Language: een opmaaktaal (net als html) die toelaat om data op een gestructureerde manier in een leesbaar formaat op te slaan. Het universele tekstformaat maakt het zo mogelijk om data taal- en systeem-neutraal uit te wisselen. Vele klassieke databases ondersteunen XML-objecten, daarnaast bestaan er ook specifiek op XML gebaseerde document-oriented databases.

Y

Yarn (Yet Another Resource Negotiator) – De job scheduler van Hadoop: terwijl MapReduce algoritmes op een logisch niveau parallelliseert, zorgt Yarn voor de fysieke verdeling van het werk over de beschikbare machines.

Yottabyte – (een 1 met 24 nullen bytes), of 1000 zettabytes. De grootste courant gebruikte maat voor data-omvang.

Z

Zettabyte – (een 1 met 21 nullen bytes). Om 1 zettabyte aan data op te slaan, heb je een miljard harde schijven van een terabyte nodig.

Meer weten?

Als u op zoek bent naar diepgaandere kennis, nodigen we u graag uit op een van onze cursussen. Dit najaar hebben we ons Big Data en Analytics aanbod grondig uitgebreid, met onder andere nieuwe cursussen over Statistiek, Spark, MongoDB, R en Python! Bekijk hier het volledige aanbod.