Big data in de praktijk: text analytics

Tijdens deze training gaat u aan de slag met text analytics: Big Data in de praktijk ... "Big data" heeft namelijk alles te maken met "analytics": grote hoeveelheden data analyseren om er "business intelligence", dus informatie uit te halen. Bij "data" denken we meestal aan getallen en tabellen, en de statistische analyses daarvan. Maar veel kennis valt te halen uit tekstuele data: gewone berichten, door mensen neergeschreven, al dan niet in volzinnen: b.v. e-mails, sollicitatiebrieven, Twitter- en Facebook-berichten, krantenartikelen, websites, noem maar op. De geëxtraheerde informatie kan dan gebruikt worden voor b.v. een "simpele" toepassing zoals het vinden van tekstfragmenten, gesorteerd op relevantie, op basis van een zoekterm. Een soort "Google Search" dus. Of een toepassing als sentiment-analyse.

Tijdens deze cursus worden eerst de belangrijkste concepten en terminologie aangebracht die bij tekstanalyse en "text mining" van belang zijn, zoals tokens, normalisatie, lemmatisatie, part-of-speech, taalmodellen, tekstclassificatie, ... Al snel blijkt dan dat geautomatiseerde tekstanalyse veel minder eenvoudig is dan het misschien lijkt: aspecten als taal, grammatica, spellingsfouten, synoniemen, negaties, woordvolgorde, leestekens ... maken de analyse complex. Tekst is namelijk in de eerste plaats bedoeld als communicatiemiddel tussen mensen, niet om door computers begrepen te worden! Zelfs de "simpele" Google Search-toepassing blijkt een hele "machine learning"-uitdaging.

Ondertussen zijn er verschillende software-pakketten en libraries ontwikkeld die de technische onderbouw van "natural language processing" (NLP) voor hun rekening nemen. We gaan tijdens de cursus praktisch aan de slag met enkele van deze pakketten zoals de NLTK toolkit, Apache OpenNLP en Standford's NLP Suite. Hierbij komt ook het gebruik van reguliere expressies aan bod.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om een specifieke toepassing op te zetten die gebruik maakt van een NLP-library en die een text mining-applicatie implementeert.

Kalender

Momenteel zijn er voor deze cursus geen publieke sessies gepland. Graag organiseren we een bedrijfssessie voor u of een extra publieke sessie (bij voldoende belangstelling). Geïnteresseerd? Laat het ons weten.

Doelgroep

Deze training is bedoeld voor iedereen die praktisch aan de slag wil met "text analytics": ontwikkelaars, data-architecten, business-analisten and marketing-specialisten die een beter beeld willen krijgen van de onderliggende bouwstenen en technologieën van text analytics.

Voorkennis

Enige vertrouwdheid met statistische concepten (histogram, classificatie, hypothesetoetsen) is aangewezen, zie b.v. Statistiek basiskennis. Een minimale programmeer-achtergrond is een meerwaarde.

Inhoud

  • Wat is tekst?
  • Bouwblokken van tekst: letters en woorden; grammatica; leestekens; woordvolgorde; taal-afhankelijkheden
  • Tokenisatie: conceptueel en technisch; normalisatie, o.a. samengestelde woorden
  • Lemmatisatie; part-of-speech tagging
  • Gebruik van woordenlijsten en corpora
  • Syntax en parsing
  • Inleiding tot enkele populaire parsing-technieken
  • Reguliere expressies
  • Taalmodellen
  • Statistische modellen
  • "Bag of words"
  • TF-IDF (term frequency & inverse document frequency)
  • n-grammen en frequentieverdelingen
  • Natural language processing (NLP)
  • overzicht van aspecten die door NLP worden bestudeerd, o.a.: semantiek; context; similarity; sentiment-analyse
  • tekst-categorisatie; clustering-technieken; gelijkvormigheidsmaten
  • NLP-software
  • overzicht van de belangrijkste en vrij beschikbare software-toolkits die momenteel op de markt zijn
  • praktijkvoorbeelden en oefeningen met één van de toolkits

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, en ondersteund door uitgebreide praktijkoefeningen.

Duur

1 dag.

Docent

Peter Vanroose.

Reviews

Viel wat tegen, was te veel aandacht en goede labs voor scraping van text van het internet. Maar dat is data collectie en geen text analytics.

 
  (, )

Helder en interessant. Begrijpelijk gegeven door een bevlogen docent met veel kennis van zaken

 
  (, )

Thank you for the very nice training Peter. I found it very informative and useful, and I feel you gave me an excellent overview of the main topics within text analytics and inspired me to delve further into this area.

 
  (, )

SESSIE-INFO EN INSCHRIJVEN