R voor data-analyse

Data-analyse voor "business intelligence" begint met het verzamelen, opslaan, en zinvol samenvatten van enterprise data, die tegenwoordig gegenereerd worden door een diversiteit aan databronnen (click streams, sociale media, relationele data, sensor-data, ...)

Een populair tool voor dit soort analyse is R. Z'n populariteit wordt deels verklaard doordat R vrije open source software is, maar vooral eigenlijk doordat er steeds meer extensie-packages beschikbaar worden die zich richten op praktische "use cases" in dit breed "Data Science" en Big Data universum.

Deze cursus geeft u hands-on praktijk met R, zowel als een data-analyse en grafisch tool, en als een programmeer- en scripting-omgeving waarmee u het systeem kan vragen naar elk mogelijk inzicht in uw data.

Kalender

Momenteel zijn er voor deze cursus geen publieke sessies gepland. Graag organiseren we een bedrijfssessie voor u of een extra publieke sessie (bij voldoende belangstelling). Geïnteresseerd? Laat het ons weten.

Doelgroep

Eenieder die praktisch aan de slag wil met data-analyse in een "data science"-context: ontwikkelaars, data-architecten, marketeers, en iedereen die z'n bedrijfsdata wil manipuleren, visualiseren, of samenvatten. Deze cursus is terzelfdertijd een eerste introductie tot de programmeertaal R, dus is ook iedereen welkom die met R wil beginnen of één van z'n packages wil gebruiken.

Voorkennis

Dit is een beginnerscursus, er is dus geen technische voorkennis vereist. Vertrouwdheid met de concepten van data stores en i.h.b. "big data" is uiteraard aangewezen (zie b.v. Big data architectuur en infrastructuur). Verder verwachten we dat u vertrouwd bent met de concepten van een programmeertaal (zie b.v. Programmeren: basiscursus).

Inhoud

Deel I - R fundamentals

  • Getting started
  • installeren van R (Linux / Unix / Windows / MAC)
  • leren gebruiken van de command-line interface en de Rstudio GUI
  • eerste stappen met R: interactieve commando's; opvragen van on-line hulp
  • basisconcepten: expressies (numeriek, tekstueel); commando's & functies; variabelen & toekennen van waarde
  • R basics
  • "atomaire" datatypes en hoe constanten te noteren: double (numeric), character, integer, logical
  • operatoren voor numerieke en logische data
  • de speciale waarden Inf, NaN, NA en NULL
  • het "vector"-type; operator "c()"; zgn. coercing; vector-operatoren
  • het "package"-concept in R
  • CRAN en www.r-project.org
  • Meer "gestructureerde" datatypes
  • lijsten (hiërarchische data) en matrices
  • Functies en attributen
  • positionele parameters en naam-parameters
  • creëer uw eigen functies
  • R-scripts; het opstartscript; scope van variabelen; commentaar schrijven
  • dump, load, source en verwante commando's
  • dir, ls, getwd en setwd
  • package loading, of het gebruik van de "::" notatie
  • control flow: if, while, for
  • de expliciete "print"-functie; de "cat"-functie
  • andere nuttige functies: length, names, dimnames, unlist, cbind, rbind, c, as.<type>, is.<type>, order(vector), ...

Deel II -- Data analytics met R

  • Structuur-data
  • Objecten en attributen
  • lists, names(), dimnames(), factors
  • lezen / schrijven van (structuur)data van/naar bestanden: read.table; read.csv; readLines, write.csv, ...
  • hoe geheugen-efficiënt werken bij grote volumes aan gegevens
  • Data Frames
  • hoe een database gebruiken als "back store"
  • Packages
  • hoe een (third party) R package installeren
  • voorbeelden: het "stats"-package en het "ggplot2"-package
  • andere nuttige packages: foreign (lezen/schrijven van data uit o.a. SAS, SPSS, dBase); XML; AER; tm; vcd; DBI; RODBC
  • Statistische technieken
  • Random Number Generators
  • sampling, resumeren: basis statistische terminologie & technieken
  • voorbeelden van het "stats"-package; de lm-functies
  • plotten van statistische grafieken (spreidingsdiagrammen, histogrammen, trendlijnen, ...)

Verloop van de cursus

Klassikale training, waarbij de nadruk ligt op praktische voorbeelden, en ondersteund door uitgebreide oefeningen en individuele praktijk.

Duur

3 dagen.

Docent

Peter Vanroose.


SESSIE-INFO EN INSCHRIJVEN