Big data in de praktijk: text analytics

Leer hoe "text mining" werkt in deze ééndaagse ABIS-opleiding.

"Big data" heeft alles te maken met "analytics": grote hoeveelheden data analyseren om er "business intelligence", dus informatie uit te halen. Bij "data" denken we meestal aan getallen en tabellen, en de statistische analyses daarvan. Maar veel kennis valt te halen uit tekstuele data: gewone berichten, door mensen neergeschreven, al dan niet in volzinnen: b.v. e-mails, sollicitatiebrieven, Twitter- en Facebook-berichten, krantenartikelen, websites, noem maar op. De geëxtraheerde informatie kan dan gebruikt worden voor b.v. een "simpele" toepassing zoals het vinden van tekstfragmenten, gesorteerd op relevantie, op basis van een zoekterm. Een soort "Google Search" dus. Of een toepassing als sentiment-analyse.

Al snel blijkt dat geautomatiseerde tekstanalyse veel minder eenvoudig is dan het misschien lijkt: aspecten als taal, grammatica, spellingsfouten, synoniemen, negaties, woordvolgorde, leestekens ... maken de analyse complex. Tekst is namelijk in de eerste plaats bedoeld als communicatiemiddel tussen mensen, niet om door computers begrepen te worden! Zelfs de "simpele" Google Search-toepassing blijkt een hele "machine learning"-uitdaging.

Tijdens deze cursus

worden eerst de belangrijkste concepten en terminologie aangebracht die bij tekstanalyse en "text mining" van belang zijn, zoals tokens, normalisatie, lemmatisatie, part-of-speech, taalmodellen, tekstclassificatie, ...
gaan we aan de slag met enkele software-pakketten en libraries (in Python en in R) die ontwikkeld werden om de technische onderbouw van "natural language processing" (NLP) voor hun rekening te nemen, i.h.b. de NLTK toolkit.
Hierbij komt ook het gebruik van reguliere expressies aan bod.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om een specifieke toepassing op te zetten die gebruik maakt van een NLP-library en die een text mining-applicatie implementeert.

Opleiding inplannen?

Een interactieve, live training – gegeven in een fysiek klaslokaal of online, of in een hybride vorm. De cursus kan gegeven worden in het Nederlands, Engels of Frans.

BEDRIJFSOPLEIDING AANVRAGEN

Publieke opleidingskalender

Momenteel zijn er voor deze cursus geen publieke sessies gepland. Graag organiseren we een bedrijfssessie voor u of een extra publieke sessie (bij voldoende belangstelling). Geïnteresseerd? Laat het ons weten.

Doelgroep

Deze training is bedoeld voor iedereen die praktisch aan de slag wil met "text analytics": ontwikkelaars, data-architecten, business-analisten and marketing-specialisten die een beter beeld willen krijgen van de onderliggende bouwstenen en technologieën van text analytics.

Voorkennis

Enige vertrouwdheid met statistische concepten (histogram, classificatie, hypothesetoetsen) is aangewezen, zie b.v. Statistiek basiskennis. Een minimale programmeer-achtergrond is een meerwaarde.

Inhoud

Wat is tekst?
- Bouwblokken van tekst: letters en woorden; grammatica; leestekens; woordvolgorde; taal-afhankelijkheden
- Tokenisatie: conceptueel en technisch; normalisatie, o.a. samengestelde woorden
- Lemmatisatie; part-of-speech tagging
- Gebruik van woordenlijsten en corpora
Syntax en parsing
- Inleiding tot enkele populaire parsing-technieken
- Reguliere expressies
Taalmodellen
- Statistische modellen
- "Bag of words"
- TF-IDF (term frequency & inverse document frequency)
- n-grammen en frequentieverdelingen
Natural language processing (NLP)
- overzicht van aspecten die door NLP worden bestudeerd, o.a.: semantiek; context; similarity; sentiment-analyse
- tekst-categorisatie; clustering-technieken; gelijkvormigheidsmaten
NLP-software
- overzicht van de belangrijkste en vrij beschikbare software-toolkits die momenteel op de markt zijn
- praktijkvoorbeelden en oefeningen met één van de toolkits

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, en ondersteund door uitgebreide praktijkoefeningen.

Certificaat

Na afloop van de sessie ontvangt de deelnemer een “Certificaat van deelname”.

Duur

1 dag.

Docent

Peter Vanroose (ABIS).

Reviews

Uitstekende training, goed tempo en prachtige diepgang

(N.N., May 2025)

Viel wat tegen, was te veel aandacht en goede labs voor scraping van text van het internet. Maar dat is data collectie en geen text analytics.

(Maarten van der Steen, KPN, Jan 2022)

Thank you for the very nice training Peter. I found it very informative and useful, and I feel you gave me an excellent overview of the main topics within text analytics and inspired me to delve further into this area.

(Brian Turley, Odido Netherlands BV, Jan 2022)

SESSIE-INFO EN INSCHRIJVEN