Wellicht niet altijd bewust, maar dagelijks kom je met Natural Language Processing (NLP) in aanraking. Denk bijvoorbeeld aan de spellingscorrectie in je Microsoft Word editor, aan de spam filters in je mailbox, of aan een chatbot op de website van je favoriete e-tailer. Al deze voorbeelden berusten op NLP gedreven applicaties en technieken. Maar wat is NLP precies? Hoe kunnen de toepassingen op het gebied van NLP, in combinatie met Machine Learning (ML), van meerwaarde zijn voor een organisatie? En wat zijn Magnus’ bewezen use cases? Je leest het in dit artikel.

Wat kan het mijn organisatie opleveren?

Gesproken en geschreven tekst vind je overal en in elke organisatie. Continu worden teksten door medewerkers gelezen en verwerkt. Als slimme computermodellen deze teksten zouden kunnen verwerken, bespaart je dat als organisatie niet alleen tijd, maar dus ook geld. Met name voor repeterende en relatief simpele stukken tekst die veel voorkomen, kan dit tot substantiële besparingen leiden. Immers, dergelijke modellen presteren vooral optimaal bij simpele teksten en automatiseren doe je het liefst op grote schaal. Buiten de tijdsbesparing haal je door het gebruik van computermodellen ook alle subjectiviteit uit de classificatie van teksten. Lezen en beoordelen zal niet meer worden beïnvloed door eigen meningen, wat in bepaalde bedrijfsprocessen (zoals bijvoorbeeld het toewijzen van e-mails aan de meest relevante afdeling) kan leiden tot continuïteit en waarborging van definities.

NLP binnen jouw organisatie: drie bewezen use cases

Optimalisatie van het facturatieproces via Optical Character Recognition

Een veelgebruikte toepassing van NLP is het verwerken van factuurregels in combinatie met Optical Character Recognition (OCR). Door het scannen van de factuur met een OCR model worden de leverancier, bedrag en datum gevonden op de factuur. Wat niet op de factuur staat, zijn bijvoorbeeld een grootboekrekening of kostenplaats waarop geboekt moet worden. Deze worden door de administratie vaak bepaald op basis van factuurelementen, zoals de omschrijving van de factuur. Als we hier NLP, in combinatie met Machine Learning, toepassen, kunnen we automatisch de juiste interne factuurlabels (zoals een grootboekrekening of kostenplaats) koppelen. Zo draagt OCR in combinatie met NLP en Machine Learning binnen Magnus al bij aan de automatisering en optimalisatie van het facturatieproces. De tijdsbesparing en verminderde hoeveelheid administratieve taken in het facturatieproces als gevolg van deze implementatie wordt geschat op ongeveer 25%.

Optimalisatie van inkomend berichtenverkeer via classificatie

In tal van bedrijfsscenario’s zijn werknemers dagelijks bezig met het classificeren van tekst. Denk hierbij bijvoorbeeld aan het doorsturen van e-mails naar specifieke afdelingen, of aan ziekenhuizen die geschreven doorverwijzingen van huisartsen toewijzen aan de juiste specialist. Om dergelijke bedrijfsprocessen te optimaliseren, kunnen we wederom NLP met Machine Learning modellen combineren om de teksten te verwerken en classificeren. Hoe meer voorbeelden uit het verleden het model heeft gezien, hoe beter het vaak is in deze classificatie. Over tijd zullen deze modellen dus steeds beter worden. Zo heeft één van onze collega’s een slim computermodel ontwikkeld dat automatisch medische berichten in een ziekenhuis leest en classificeert. Naast het feit dat het model tijdsbesparing oplevert, haalt het ook de subjectiviteit uit de classificaties.

Optimalisatie van de (e-commerce) supply chain

E-commerce was één van de eerste sectoren die NLP adopteerde ter verbetering van haar productaanbevelingen en klantinteractie. Tegenwoordig wordt zo’n 35% van Amazon’s omzet gegenereerd uit product aanbevelingen, waarbij NLP van grote meerwaarde kan zijn. De mogelijkheden van NLP beperken zich echter niet alleen tot de voorkant van het orderproces, oftewel de webshop. NLP kan ook van grote meerwaarde zijn voor supply chain optimalisatie. Zo kunnen klantrecensies en onderhoudsrapporten geanalyseerd worden om verbeterpunten in het order- en verwerkingsproces aan het licht te brengen.

Een standaard Magnus NLP + Machine Learning aanpak

NLP refereert naar het domein binnen de kunstmatige intelligentie dat zich richt op het verwerken, begrijpen, en bovenal exploiteren van de menselijke taal door computers. Een standaard aanpak start dan ook vaak met het normaliseren van de geschreven of gesproken tekst. Hierbij worden woorden teruggebracht naar hun ‘stam’. Zo dient dezelfde interpretatie te worden gegeven aan bijvoorbeeld het woord ‘gepraat’ als aan zijn stam ‘praten’. Vanwege het feit dat computers enkel met cijfers kunnen werken, wordt de genormaliseerde tekst in stap twee omgevormd tot numerieke waardes. Waar dit op het eerste oog wellicht ingewikkeld klinkt, is de intuïtie hierachter vrij gemakkelijk te begrijpen. Bij het schrijven van een samenvatting of het maken van notities, zoek ook jij kernwoorden die de tekst karakteriseren. Vaak zijn dit woorden die niet alleen vaak voorkomen, maar ook relatief uniek zijn voor die specifieke tekst. Dit is precies wat de computer nabootst. Onderaan dit artikel vind je meer uitleg over hoe dit principe werkt.

In stap drie dienen de numerieke waardes vervolgens als input voor een slim Machine Learning model, die bijvoorbeeld één van de drie eerdergenoemde use cases verwezenlijkt. Dit model leert relaties te vinden tussen de nummers (de tekst dus eigenlijk) en de labels behorende bij de tekst (classificaties). Tot slot kan het model daadwerkelijk tot leven gebracht worden in de vorm van een bruikbare applicatie. Zo blijft het niet alleen bij een rapport of resultatentabel, maar wordt het een bruikbare applicatie in het bedrijfsproces van jouw organisatie. Training en kennisdeling staan hierbij centraal.

Van tekst naar cijfers? Hoe werkt dat?

Als voorbeeld is de term frequency – inverse document frequency (TF-IDF) een methode om natuurlijke tekst te transformeren naar relevante getallen. Om een woord, of combinatie van woorden (n-gram), te converteren naar een relevant getal, tel je bij deze methode de frequentie van dat woord in de tekst en relativeer je dat aan de frequentie van datzelfde woord in alle teksten die er bekend zijn. Zo krijgt een woord dat veel voorkomt in een tekst en zelden in alle andere teksten, een hogere score dan woorden die in alle teksten regelmatig voorkomen. Het woord ‘NLP’ in dit blog bijvoorbeeld komt niet alleen vaak voor, maar ook relatief veel meer dan in de meeste andere artikelen. Ditzelfde geldt voor ‘techniek’ en ‘technieken’, twee begrippen die na ‘stemming’ en ‘lemmatization’ behoren tot dezelfde stam. Hier focust de eerste techniek (stemming) vooral op het weghalen van voor- en achtervoegsels, bijv. ‘talking’ -> ‘talk’, en de tweede op meer exceptionele relaties, bijvoorbeeld ‘sent’ -> ‘send’. De woordgroepen ‘NLP’ en ‘techniek’ kenmerken dus dit artikel, krijgen een hoge TF-IDF score, en kunnen als relevante indicator worden gezien ten behoeve van classificatie van dit artikel.

Benieuwd naar meer?

Ben je na het lezen van bovenstaand artikel benieuwd naar de mogelijkheden van NLP binnen jouw organisatie? Of zie je aan de hand van genoemde voorbeelden direct mogelijke toepassingen? Wij denken graag met je mee!

Neem contact op met Thomas Heeneman

6 + 3 =