Big data in de praktijk: text analytics

Tijdens deze training gaat u aan de slag met text analytics: Big Data in de praktijk ... "Big data" heeft namelijk alles te maken met "analytics": grote hoeveelheden data analyseren om er "business intelligence", dus informatie uit te halen. Bij "data" denken we meestal aan getallen en tabellen, en de statistische analyses daarvan. Maar veel kennis valt te halen uit tekstuele data: gewone berichten, door mensen neergeschreven, al dan niet in volzinnen: b.v. e-mails, sollicitatiebrieven, Twitter- en Facebook-berichten, krantenartikelen, websites, noem maar op. De geëxtraheerde informatie kan dan gebruikt worden voor b.v. een "simpele" toepassing zoals het vinden van tekstfragmenten, gesorteerd op relevantie, op basis van een zoekterm. Een soort "Google Search" dus. Of een toepassing als sentiment-analyse.

Tijdens deze cursus worden eerst de belangrijkste concepten en terminologie aangebracht die bij tekstanalyse en "text mining" van belang zijn, zoals tokens, normalisatie, lemmatisatie, part-of-speech, taalmodellen, tekstclassificatie, ... Al snel blijkt dan dat geautomatiseerde tekstanalyse veel minder eenvoudig is dan het misschien lijkt: aspecten als taal, grammatica, spellingsfouten, synoniemen, negaties, woordvolgorde, leestekens ... maken de analyse complex. Tekst is namelijk in de eerste plaats bedoeld als communicatiemiddel tussen mensen, niet om door computers begrepen te worden! Zelfs de "simpele" Google Search-toepassing blijkt een hele "machine learning"-uitdaging.

Ondertussen zijn er verschillende software-pakketten en libraries ontwikkeld die de technische onderbouw van "natural language processing" (NLP) voor hun rekening nemen. We gaan tijdens de cursus praktisch aan de slag met enkele van deze pakketten zoals de NLTK toolkit, Apache OpenNLP en Standford's NLP Suite. Hierbij komt ook het gebruik van reguliere expressies aan bod.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om een specifieke toepassing op te zetten die gebruik maakt van een NLP-library en die een text mining-applicatie implementeert.

Kalender

datumduurtaalplaatsprijs 
18 dec1web based 500 EUR (excl. BTW)
SESSIE-INFO EN INSCHRIJVEN

Doelgroep

Deze training is bedoeld voor iedereen die praktisch aan de slag wil met "text analytics": ontwikkelaars, data-architecten, business-analisten and marketing-specialisten die een beter beeld willen krijgen van de onderliggende bouwstenen en technologieën van text analytics.

Voorkennis

Enige vertrouwdheid met statistische concepten (histogram, classificatie, hypothesetoetsen) is aangewezen, zie b.v. Statistiek basiskennis. Een minimale programmeer-achtergrond is een meerwaarde.

Inhoud

  • Wat is tekst?
  • Bouwblokken van tekst: letters en woorden; grammatica; leestekens; woordvolgorde; taal-afhankelijkheden
  • Tokenisatie: conceptueel en technisch; normalisatie, o.a. samengestelde woorden
  • Lemmatisatie; part-of-speech tagging
  • Gebruik van woordenlijsten en corpora
  • Syntax en parsing
  • Inleiding tot enkele populaire parsing-technieken
  • Reguliere expressies
  • Taalmodellen
  • Statistische modellen
  • "Bag of words"
  • TF-IDF (term frequency & inverse document frequency)
  • n-grammen en frequentieverdelingen
  • Natural language processing (NLP)
  • overzicht van aspecten die door NLP worden bestudeerd, o.a.: semantiek; context; similarity; sentiment-analyse
  • tekst-categorisatie; clustering-technieken; gelijkvormigheidsmaten
  • NLP-software
  • overzicht van de belangrijkste en vrij beschikbare software-toolkits die momenteel op de markt zijn
  • praktijkvoorbeelden en oefeningen met één van de toolkits

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, en ondersteund door uitgebreide praktijkoefeningen.

Duur

1 dag.

Docent

Peter Vanroose.


SESSIE-INFO EN INSCHRIJVEN