Stel je voor: Je hebt zojuist een album geluisterd van je favoriete band via een streamingsdienst. Vervolgens krijg je een album van een andere band aanbevolen en dit blijkt een schot in de roos! Een band die je nog niet kende, maar wel eentje die perfect in jouw straatje past. Fijn die behulpzame techniek in het dagelijks leven. Niet alleen voor ons als consument, maar ook voor de streamingdienst, want door goede aanbevelingen breng jij veel meer uren door op het platform.

Heb je er echter weleens bij stilgestaan dat clustering voor veel meer business doeleinden geschikt is en jouw organisatie dus ook voordelen kan opleveren? In dit artikel leggen we uit wat clustering precies is en laten we zien hoe het ingezet kan worden om waarde te creëren in de praktijk.

Wat is clustering?

Eerst nog even terug naar de streamingdienst. Hoe kom jij nu aan je favoriete nieuwe nummer of band door clustering? Deze aanbeveling komt voort uit een recommendation engine waarmee moderne platforms zijn uitgerust. Een recommendation engine is een systeem dat producten aanbeveelt op basis van verschillende kunstmatige intelligentie technieken. Een recommendation engine maakt vaak gebruik van clustering.

Clustering is een techniek waarin een algoritme soortgelijke objecten probeert te vinden en deze vervolgens classificeert en categoriseert. Dit gebeurt op basis van alle beschikbare data van de objecten. Hoe vertaalt zich dit in het voorbeeld van de muzikale aanbeveling? Als elk nummer een object is, zijn alle nummers te categoriseren op basis van bepaalde features.

Groeperen en categoriseren door classificatie

In onderstaand plaatje is te zien hoe nummers geclassificeerd worden op basis van bepaalde eigenschappen. Je kunt bijvoorbeeld denken aan de energie en de muzikale bezetting van een nummer. Hier is met behulp van Principal Component Analysis het aantal features teruggebracht naar twee, zodat de clustering goed gevisualiseerd kan worden. In de afbeelding is te zien dat alle datapunten die bij elkaar in de buurt liggen gegroepeerd en gecategoriseerd kunnen worden.

Source: github.com

In het voorbeeld van de streamingsdienst zou er dus een aanbeveling voor een volgend liedje gedaan kunnen worden door een nummer te kiezen in hetzelfde cluster.

Voorbeelden van clustering

Met het principe van de streamingsdienst in gedachten is het interessant om eens verder te denken hoe clustering relevant kan zijn voor jouw organisatie. Het clusteren en classificeren van datapunten kan namelijk voor heel veel doeleinden gebruikt worden. Denk aan:

Markt segmentatie

Clustering kan worden ingezet om klanten te groeperen en categoriseren aan de hand van klantgegevens. Op deze manier kan er gefocust worden op het aanspreken van bepaalde groepen in plaats van individuen binnen de klantenkring. Dit draagt bij aan een gericht marketingbeleid. Neem het koppelen van bepaalde promoties aan speciale doelgroepen. Zodra er een nieuwe klant bij komt, kan deze heel snel geclusterd worden in een van de bestaande doelgroepen.

Product segmentatie

In een markt met soms wel duizenden verschillende producten is het lastig om aan te geven met welke producten je nou daadwerkelijk concurreert. Met behulp van clustering is het mogelijk om de verschillende productgroepen binnen een markt te identificeren om zo je prijs en je acties op de juiste manier te bepalen.

Dit wordt gedaan door het evalueren van features. Voorbeelden van deze features kunnen prijs, afzet of productkenmerken zijn.

Spam detectie

Elke e-mail die je ontvangt is feitelijk spam of geen spam. Om dit onderscheid te kunnen maken zijn er spam detectie algoritmes die op basis van K-means clustering Spam en Non-Spam clusters bepalen.

Met behulp van deze clusters kunnen nieuwe inkomende e-mails eenvoudig geclassificeerd worden.

Dit zijn slechts een paar voorbeelden die laten zien wat clustering kan opleveren. Dat het ook in de praktijk echt werkt, laten we je graag zien aan de hand van onderstaande use case bij één van onze opdrachtgevers.

Clusteringsmethodes in de praktijk – Hoe product segmentatie concurrenten identificeert

Voor een internationale drankenretailer bedachten we een slimme manier om een financiële forecast te maken. Dit hebben we gedaan door het opstellen van een machine learning model. Met behulp van dit model krijgen de planners een accurate initiële forecast die ze kunnen gebruiken om hun planning te optimaliseren. Dit levert flinke tijdswinst op, evenals een accuratere planning.   

Onderdeel van dit machine learning model was een clustering algoritme voor product segmentatie. Het doel hiervan was om producten te vinden waar de producten van onze opdrachtgever echt mee concurreerden. Uiteindelijk hebben we deze met behulp van de K—means clustering methode kunnen identificeren. De concurrerende producten en hun eigenschappen zijn vervolgens opgenomen in het model als features om de voorspellingen te kunnen optimaliseren.

Clustering in jouw organisatie?

Bij Magnus werken wiskundigen en software engineers die een rijke ervaring hebben met het oplossen van Advanced Analytics problemen. In combinatie met de typische Magnus Shoulder-to-shoulder aanpak zorgt dit ervoor dat we altijd toegevoegde waarde leveren en een tevreden klant overhouden.

Benieuwd hoe jouw organisatie de vruchten kan plukken van clustering of andere Advanced Analytics technieken? Neem dan contact op met Maurice Chin Ten Fung

9 + 7 =

Van ongeclassificeerde naar geclusterde data? Hoe werkt dat?

Een veel gebruikte methode voor clustering is de K-means clustering methode. Zoals de naam al doet vermoeden is het doel van dit algoritme om de data op te delen in K (hoeveelheid) clusters.

Stappen voor het K-means clustering algoritme:

  1. Kies K willekeurige datapunten als begincluster.
  2. Wijs de andere datapunten toe aan een van de beginclusters op basis van de kleinste afstand naar de K datapunten.
  3. Bereken de gemiddelde positie van elk cluster.
  4. Bereken voor elk punt de afstand naar de gemiddeldes van de clusters. Als er nu een ander cluster dichterbij ligt dan wijs je het punt aan het nieuwe cluster toe.
  5. Herhaal stap 3 en 4 totdat je geen punten meer aan andere clusters toewijst.

Een ander soort clustering algoritme is distribution-based clustering. In deze methode is het uitgangspunt dat de datapunten verschillende verdelingen volgen. In distribution-based clustering probeer je zo goed mogelijk deze verdelingen te schatten, zodat je de datapunten aan de desbetreffende verdeling kan toekennen.