Is data de olie van de 21e eeuw?

Niels Hoogeveen | We horen vaak dat we in de ‘Information Age’ leven en dat data de nieuwe olie is. 90% van de data vandaag de dag is gegenereerd in de laatste twee jaar. Experts voorspellen dat vanaf nu ieder jaar de data minstens verdubbeld zal worden.
Data gegenereerd door mensen (bijvoorbeeld data van ons gedrag op mobiele apparaten en het web) en machines groeit gezamenlijk tien keer sneller dan traditionele business data. Echter groeit de machine gegenereerde data an sich, door de komst van Internet of Things (IoT), ten opzichte van business data maar liefst 50 keer zo hard!

In tegenstelling tot olie, raakt data niet op en blijft het alleen maar groeien, exponentieel groeien. Fantastisch! Maar wist je dat slechts 0,5 procent (je leest het goed: een half procent) van al die data daadwerkelijk geanalyseerd wordt voor besluitvorming? 99,5 procent van alle data is op dit moment onbenut en heeft enorme potentie. Hier moeten we iets mee doen.

Data is kennis; Kennis is wijsheid

Maar wat kunnen we nou eigenlijk met al die data en wat zorgt ervoor dat die data zo waardevol is?
De giganten als Facebook, Google en Netflix weten aan de hand van enorme hoeveelheden data meer van jou dan jijzelf.

Netflix weet op basis van gebruikersdata (bijna) exact welke films en series jij graag wilt zien, zodat je zelf niet hoeft te zoeken. Google geeft op basis van data suggesties voor jouw zoektermen. Facebook gebruikt onze data om te voorspellen wat voor een persoonlijkheid en interesses iemand heeft op basis van zijn ‘likes’ om zo advertenties te tonen die voor die persoon relevant zijn.
Ook Walmart, de Amerikaanse retail gigant is ons voor aan de hand van hun data. Walmart ontwikkelde een algoritme waarmee ze aan de hand van koopgedrag konden voorspellen of een vrouw in een vroeg stadium in verwachting is, om zo coupons te sturen voor babyartikelen. Eén van deze klanten, een tiener, ontving deze coupons ook in haar mailbox. De vader van het meisje was woedend, omdat hij Walmart er van verdacht tieners aan te moedigen zwanger te worden. Walmart bood vervolgens zijn excuses aan. Echter kwam de vader hier op terug, toen hij erachter kwam dat zijn dochter inderdaad zwanger was. Ja, die algoritmes zijn zo gek nog niet.

Google, Facebook en Walmart gebruiken data science voor gerichte advertenties. Netflix stelt films en series aan je voor op basis van je kijkhistorie. Maar anno 2018 is data science niet alleen meer het gebied van giganten als Google en Facebook. De wereld van data science is nooit toegankelijker geweest dan vandaag de dag. Met alle beschikbare tools kunnen ook kleine en middelgrote bedrijven hun data omzetten in kennis.

Waarom maken kleinere bedrijven nog niet (volledig) gebruik van hun data?
Eén van de redenen is dat bedrijven niet precies weten wat de mogelijkheden van data science/machine learning zijn. We horen elke dag termen als data mining, machine learning en artificial intelligence (AI). Termen die op elkaar lijken, maar toch anders zijn. Wat houden ze nou exact in? Daar gaan we in dit blog dieper op in.

Eén term, één taak

De eerste stap voor bedrijven is om te begrijpen wat data science is.

Data science is het domein waarbinnen ruwe (big) data omgezet wordt in waardevolle kennis. Dit begint bij data logistiek, het ‘schoonmaken’ en prepareren van de ruwe data. Daarna wordt er data mining uitgevoerd, waarbij machine learning algoritmes worden toegepast, om de zowel gestructureerde als ongestructureerde data te begrijpen, kennis eruit te onttrekken en mogelijke acties te formuleren voor een oplossing.

magnus-blue-datascience-machinelearning

Data science is dus een breed begrip en omvat data mining én machine learning. Wat deze termen precies inhouden en hoe het verschilt van artificial intelligence, zullen in de volgende secties duidelijk worden.

Data mining & machine learning

Data science is dus het gebied van (big) data logistiek, inclusief data cleansing, data preparatie en data mining om kennis te onttrekken uit ruwe data. Doordat datasets vaak onvolledig of ongestructureerd zijn, heeft een data scientist een grote taak aan het voorbereidende werk. Denk aan missende data opvullen of data in het juiste formaat omzetten. Dit neemt soms wel 90% van de totale werkzaamheden in. Zoals je ziet zijn data mining en machine learning slechts twee van de onderdelen waar een data scientist mee bezig is.

Maar wat is dan precies data mining en machine learning?

Data mining is het onttrekken van (impliciete) kennis uit data. Tijdens het data minen maakt men gebruik van traditionele statistiek, data visualisatie en machine learning algoritmes, wat de technische basis vormt van data minen[1].

Machine learning is het vakgebied van het ontwikkelen van modellen zodanig dat ze kunnen ‘leren’ van data en zich dus verbeteren aan de hand van nieuwe data, voor bepaalde taken zoals voorspellingen maken, zonder expliciet geprogrammeerd te zijn.[2] Aan de hand van feedback voor het verschil tussen de voorspelde en de daadwerkelijke output past het algoritme zijn parameters aan onderstaand figuur. Dit is het essentiële leerproces van machine learning. In de wereld van machine learning heet dit het ‘trainen’ van een model.

magnus-blue-machinelearning-process

Je kunt dit vergelijken met hoe een baby leert praten. In het begin is het kindje blanco en weet nog niet hoe iets heet en hoe je het correct uitspreekt. Als het kindje iets ziet en het geeft een verkeerde benaming of spreekt het woord verkeert uit, krijgt het ‘feedback’ van ouderen wat dat ‘iets’ is en hoe het goed uitgesproken moet worden. Op den duur begrijpt het kindje dat het ‘iets’ een hond is en je het dus niet een ‘woef’ noemt. Hierbij geldt doorgaans bij machine learning: hoe meer data, hoe meer voorbeelden het model te zien krijgt en hoe accurater de voorspelling.

Machine learning en Artificial Intelligence?

Vaak lezen we dat machine learning artificial intelligence (AI), ofwel kunstmatige intelligentie is. Machine learning is echter een onderdeel van AI. AI houdt zich bezig met het ontwikkelen van intelligente machines, bijvoorbeeld een zelfrijdende auto. AI maakt gebruik van machine learning technieken, maar ook andere technieken, zoals reasoning systems waarbij de logica op voorhand is geprogrammeerd. AI is breder dan alleen machine learning en valt gedeeltelijk buiten het vakgebied van data science, waarbij machine learning gezien kan worden als het raakvlak tussen data science en artificial intelligence.

magnus-blue-machinelearning-datascience-artificialintelligence

A life full of learning

Grofweg zijn er drie leermethodes te onderscheiden binnen het domein van machine learning: supervised learning, unsupervised learning en reinforcement learning.

magnus-blue-machinelearning

Supervised learning kun je omschrijven als machine learning algoritmes waarbij een set van inputvariabelen (features) en verwachte output (labels) is gegeven in de dataset, waarbij het algoritme de output voorspelt op basis van nieuwe input. Bij supervised learning algoritmes zijn dus de output of correcte labels een gegeven in de dataset. Het algoritme wordt getraind door een relatie te vinden tussen de features en de labels.

Unsupervised learning zijn algoritmes die zoeken naar patronen binnen een dataset, waarbij de features bekend zijn, maar geen output. Het algoritme gaat dus op zoek naar verbanden tussen de inputvariabelen, ofwel features. Unsupervised learning is fundamenteel anders dan supervised learning. Bij unsupervised learning is er geen label gegeven. Het doel is dan ook niet het voorspellen of classificeren, maar het vinden van patronen, structuren en relaties tussen de features. Dus waar supervised learning een relatie probeert te zoeken tussen de features en de labels, gaan unsupervised learning algoritmes op zoek naar relaties tussen verschillende features, om deze vervolgens zelf te groeperen.

Altijd al afgevraagd hoe de computertegenstanders in moderne computerspellen werken? Dat is de wereld van reinforcement learning.
Reinforcement learning
is significant anders dan supervised– en unsupervised learning; er is namelijk geen bestaande trainingsdata. Het idee van reinforcement learning is dat een zogenaamde agent (bijvoorbeeld een robot of virtuele tegenstander in een computerspel) leert van de omgeving waarin het interacteert en beloond of bestraft wordt op basis van de uitgevoerde acties (‘deze actie was goed, deze actie was fout’). Bij de afwezigheid van bestaande trainingsdata, leert de agent van ervaring. De verschillende acties worden verzameld, en door middel van trial-and-error wordt geprobeerd de lange termijn beloning te maximaliseren (bijvoorbeeld het verslaan van een menselijke tegenstander in een computerspel).
Reinforcement learning komt het meest in de buurt van hoe een mens leert en wordt daarom gezien als de meest pure vorm van artificial intelligence.

Wat voor soort algoritmes gebruikt worden voor deze drie leermethodes en waarvoor ze gebruikt kunnen worden, zullen we in het volgende blog uitgebreid toelichten.

De Magnus data science definitie

Zoals je ziet is er dus geen eenduidig verschil tussen traditionele statistiek, data mining en machine learning. Er is een sterke overlap tussen deze termen. Sommige experts claimen zelfs dat er geen verschil is en dat de essentie hetzelfde is: hoe kunnen we leren van data?
Voor de eenvoud kun je samenvattend stellen dat:

  • Statistiek is het kwantificeren van data en analyseren van het verleden.
  • Data mining is het overkoepelende vakgebied van traditionele statistiek, data visualisatie en het toepassen van machine learning algoritmes om kennis uit data te onttrekken.
  • Machine learning is het instrueren van computers zodat ze zelf kunnen ‘leren’ op basis van data zonder expliciet geprogrammeerd te worden.

En data science? Dat is het overkoepelende vak van data logistiek, data cleansing, data preparatie en data mining, statistiek en machine learning.

What’s it in for me?

Je zult je waarschijnlijk afvragen: ik heb nu een definitie van data science en snap de verschillen tussen de termen binnen data science, maar nu? Hoe kan ik als bedrijf leren van mijn data door data science toe te passen?

De eerste stap is een duidelijk beeld vormen wat je als business wilt bereiken: welke processen bestaan er binnen mijn organisatie en hoe kunnen we deze ondersteunen met data? Wat wil je gaan voorspellen of waar wil je inzicht in krijgen en waarom maakt dat jouw business efficiënter, slimmer en beter?

In het volgende blog zullen we je alle stappen uitleggen om een data science project aan te pakken en hoe wij bij Magnus daar mee om gaan. Blijf ons volgen voor alle info op het gebied van data science.

Magnus data science team

Het Magnus data science team is een snelgroeiend team van wiskundigen, econometristen en informatietechnologen dat de nieuwste ontwikkelingen op het gebied van data science kent. Deze innovatieve kennis combineren we met uitgebreide ervaring van bedrijfsprocessen binnen verschillende disciplines als retail, logistiek, en finance. Zo zorgen we ervoor dat onze machine learning modellen altijd bruikbaar zijn en een antwoord geven op vragen die er binnen uw organisatie spelen.

Wekelijks wordt er dóór en vóór het data science team een Magnus college gegeven waarin we verschillende theoretische en praktische elementen van data science gezamenlijk behandelen. Daarnaast werken we tijdens de colleges aan real-life cases van bestaande klanten.

Heb je als bedrijf een interessant data science vraagstuk en wil je weten wat het Magnus data science team voor jou kan betekenen? Neem dan contact op met Alain Streppel en wellicht behandelen wij jouw business case in het volgende college.

 


[1] Witten, I.H., Frank, E., Hall, M.A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann Publishers

[2] Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow. O’Reilly Media