R pour l'analyse de données

L'analyse de données pour "business intelligence" commence par collectionner, stocker, et judicieusement interpréter et résumer des données d'entreprise, comme elles sont générées aujourd'hui par une diversité de sources de données (click streams, social media, données relationnelles, données capteurs, ...)

Un outil populaire pour cette sorte d'analyse est R. Sa popularité est partiellement expliquée par le fait que R est un logiciel libre et de source ouverte (open source), mais aussi (et plutôt) à cause d'une liste croissante de packages d'extension, qui s'orientent aux "use cases" pratiques dans cet univers étendu du Data Science et Big Data.

Ce cours vous donne de la pratique hands-on avec R: aussi bien son aspect d'analyse de données que son aspect graphique. En outre, R est un environnement de programmation et de scripting, ce qui vous donne la possibilité de lui demander de vous donner n'importe quelle compréhension dans vos données.

Calendrier

Il n'y a pas de sessions publiques à ce moment. Nous organisons volontiers un cours en entreprise ou une session publique supplémentaire (en cas d'un nombre suffisant de participants). Intéressé? Contactez-nous.

Participants

Ce cours concerne toute personne qui veut commencer l'analyse de données dans un contexte "data science": développeurs, architectes de données. marketeurs, et tous ceux qui veulent manipuler, visualiser ou résumer ses données d'entreprise.
Ce cours est en même temps une introduction à la langue de programmation R, donc aussi intéressant pour ceux qui veulent commencer à utiliser R ou un de ses progiciels.

Connaissances préalables

Ce cours est construit pour des débutants, donc aucune connaissance préalable n'est requise. Il est bien sûr approprié d'être familier avec les concepts des data stores, et en particulier avec "big data" (voir p.ex. notre cours L'architecture et l'infrastructure Big Data). Finalement, nous attendons de vous d'être familiers avec les concepts d'une langue de programmation (voir p.ex. Introduction à la programmation).

Contenu

1ière Partie - R fundamentals

  • Getting started
  • installer R (Linux / Windows / MAC)
  • apprendre à utiliser l'interface ligne de commande et le GUI de Rstudio
  • premiers pas avec R: commandes interactives; utiliser le secours on-line
  • concepts de base: expressions (numériques, textuelles); commandes & fonctions; variables & leur assigner une valeur
  • R basics
  • types de données "atomaires" et comment écrire des expressions doubles (numériques), caractères, intégrales, logiques
  • opérateurs pour des données numériques et logiques
  • les valeurs spéciales Inf, NaN, NA et NULL
  • le type "vecteur"; l'opérateur "c()"; coercing; opérateurs pour des vecteurs
  • le concept "package" en R
  • CRAN et www.r-project.org
  • Types de données plus "structurées"
  • listes (données hiérarchiques) et matrices
  • Fonctions et attributs
  • paramètres positionnels, paramètres sous nom
  • créer ses propres fonctions
  • Scripts R; le script de démarrage; "scope" (portée) des variables; écrire du commentaire
  • dump, load, source et des commandes reliées
  • dir, ls, getwd et setwd
  • package loading, ou bien l'utilisation de la notation "::"
  • control flow: if, while, for
  • la fonction explicite "print"; la fonction "cat"
  • autres fonctions utiles: length, names, dimnames, unlist, cbind, rbind, c, as.<type>, is.<type>, order(vector), ...

2ième Partie -- Data analytics avec R

  • Données structurées
  • Objets et attributs
  • listes, names(), dimnames(), factors
  • lire / écrire de données (structurées) de/vers des fichiers: read.table; read.csv; readLines, write.csv, ...
  • comment travailler de façon efficace de mémoire dans le cas de larges volumes
  • Data Frames
  • comment utiliser une base de données comme "back store"
  • Packages
  • comment installer un package (third party) en R
  • exemples: le package "stats" et le package "ggplot2"
  • autres packages utiles: foreign (lire/écrire de données de e.o. SAS, SPSS, dBase); XML; AER; tm; vcd; DBI; RODBC
  • Techniques statistiques
  • Random Number Generators
  • sampling, résumer: terminologie statistique de base & techniques de base
  • exemples du package "stats"; la fonction "lm"
  • dessiner des graphiques statistiques (diagrammes de dispersion, histogrammes, courbes de tendance, ...)

Pédagogie

Enseignement classique agrémenté d'exemples pratiques, et assez de temps prévu pour pratiquer avec plusieurs exercices

Durée

3 jours.

Formateur

Peter Vanroose.


INFO SESSION ET INSCRIPTION