Vandaag de dag zien organisaties een groeiende behoefte om snel data uit meerdere systemen te kunnen ontsluiten en die data ook nog eens op goede manier in te zetten. Zowel intern, door het optimaliseren van backend processen, als ook het extern aanbieden van dataproducten aan klanten. Bedrijven hebben tegenwoordig de noodzaak om steeds meer databronnen en systemen aan te sluiten op een centraal platform, deze verschillende datapunten te harmoniseren en daar vervolgens voordeel mee te behalen. Daarom is een volwassen data–architectuur één van de key drivers in de strategie geworden.

Struikelblokken richting volwassen data-architectuur

Hoewel veel organisaties wel weten dat een dergelijke data-architectuur doorslaggevend kan zijn in het behalen van hun ambities, kunnen verouderde data warehouse oplossingen een struikelblok vormen in de transformatie naar een robuust, schaalbaar en agile platform. Daarbij is de opgebouwde historie van de afgelopen decennia in on-premise data warehouse oplossingen niet geschikt om het hoofd te bieden aan de uitdagingen waar organisaties tegenwoordig mee worden geconfronteerd.

 Soepele transitie naar cloud oplossing in AWS bij Aldipress

Ondanks de behoefte aan een moderne visie op data en bijbehorende inrichting zijn organisaties nog terughoudend om hiermee te starten. Meestal vanwege de perceptie dat dergelijke trajecten een lange doorlooptijd hebben en hoge kosten met zich meebrengen. Zeker wanneer een desinvestering op het huidige systeem nodig is. Een dergelijke onderneming moet ook niet onderschat worden, maar met een goede planning en door gebruik te maken van best practices kan een soepele transitie in gang gezet worden.

Ook Aldipress stond voor deze uitdaging. Zij maakten al gebruik van Power BI voor het delen van rapportages met externe partijen (uitgevers en retailers). Maar de behoefte aan een nieuw data warehouse met meer mogelijkheden groeide. Met Magnus als implementatiepartner hebben zij hun BI systeem succesvol gemigreerd naar een moderne cloud oplossing in AWS. In dit artikel leggen we uit hoe we te werk zijn gegaan.

Projectaanpak naar future-proof cloud oplossing bij Aldipress 

Aldipress, onderdeel van DPG Media, verzorgt alles op het gebied van distributie en trade marketing van met name tijdschriften, maar ook stripalbums, romans en puzzels bestemd voor de losse verkoop. Om inzicht te geven in de performance van hun product biedt Aldipress al jaren Power BI rapportages aan, zowel voor intern als extern gebruik (bijvoorbeeld uitgevers).

 Kun je de omvang van deze opdracht wat proberen te schetsen, door uit te leggen waar Aldipress vandaan kwam?

Begin 2000 is er bij Aldipress een, destijds state of the art, datawarehouse neergezet dat goed aansloot bij de behoeften van die tijd. Dit SAP landschap is later aangevuld met een SAS-omgeving. Door de jaren heen is deze verder door ontwikkeld waarbij er een organisch gegroeide BI-architectuur is ontstaan. Deze sloot uiteindelijk niet meer volledig aan op de huidige vraag en technologische mogelijkheden. Daarom was er behoefte aan een gestructureerde aanpak om het bestaande landschap onder de loep te nemen en Aldipress’ strategie te vertalen naar een robuuste oplossing die klaar is voor de toekomst.

Bij Magnus werken we bij dit soort projecten altijd vanuit dezelfde visie en aanpak:

Bij de hierboven beschreven stappen is de business zoveel mogelijk betrokken. Dit hebben we gedaan aan de hand van een workshopsgewijze aanpak. Hierdoor is de business zelf eigenaar van de oplossing geworden.

Bij het iteratieve proces tussen stap 5 en 6 is steeds per rapport de informatiebehoefte opgehaald. Aan de hand van de informatie en het logisch datamodel is een vertaling gemaakt naar het technisch datamodel, waarbij het data warehouse stapsgewijs uitgebreid kon worden. Door in een zo vroeg mogelijk stadium het BI-team bij dit proces te betrekken, zijn ze nu in staat het data warehouse zélf te gebruiken en door te ontwikkelen.

De nieuwe data warehouse omgeving is op een AWS stack gebouwd. kun je uitleggen welke applicaties hiervoor allemaal zijn gebruikt en hoe de keuze voor deze architectuur tot stand is gekomen?

In het ontwerp hebben we gebruik gemaakt van de nieuwste AWS-tools. Naast gangbare services zoals bijvoorbeeld S3 voor dataopslag, is gebruik gemaakt van Athena om rechtstreeks analyses te kunnen maken op deze data. Daarnaast is Glue in het ontwerp opgenomen om de ETL-processen mee in te regelen. Met behulp van deze componenten is er een modern, file-based data warehouse gebouwd. Een bewuste keuze, om zo naast het voldoen aan de standaard BI behoeften ook met het oog op mogelijke data science toepassingen voorbereid te zijn op de toekomst. Het mooie aan de oplossing is daarbij ook dat deze volledig serverless opereert. Hierdoor betaal je niet voor wat je niet gebruikt en blijven de kosten erg laag.

Hebben jullie veel gebruik moeten maken van scripting?

Ja, zo is het gros van de ETL-processen vastgelegd in Python code. In het begin liepen we bijvoorbeeld aan tegen het feit dat de data werd aangeleverd in CSV-bestanden in verschillende atypische formats. Daarom hebben we een script ontwikkeld dat deze data standaardiseert én omzet naar Parquet formaat. De opslag van data wordt hiermee met een factor tien verminderd. Hiermee worden niet alleen de kosten gedrukt, maar worden analyses op deze data vele malen sneller gedaan.

Naast andere door ons zelf ontwikkelde scripts, waarmee we bijvoorbeeld delta processen mogelijk hebben gemaakt, hebben we voor het inrichten van de AWS-omgeving gebruik gemaakt van CloudFormation. Deze tool dwingt je ertoe de volledige infrastructuur vast te leggen in code. Hiermee hebben we een geharmoniseerd landschap met een test en productie omgeving. Door alles vast te leggen in scripts, kun je in theorie met één druk op de knop een volledig nieuwe omgeving optuigen.

Hoe zorg je in een dergelijk landschap voor succesvol versiebeheer/life cycle management?

Om deze scripts, en daarmee het volledige landschap, goed te kunnen beheren hebben we gebruik gemaakt van Bitbucket. Hiermee kunnen verschillende ontwikkelaars tegelijk werken aan de scripts die ten grondslag liggen aan het data warehouse. De code wordt dan centraal beheerd, waarbij er altijd terug kan worden gegaan naar een eerdere versie.

Conclusie

Met het realiseren van deze moderne oplossing bezit Aldipress nu een data warehouse dat klaar is voor de toekomst. Het succes van dit project is terug te herleiden tot de volgende twee speerpunten:

Een gestructureerd projectplan

  • Betrekken business door workshopsgewijze aanpak
  • Iteratieve (agile) aanpak met continu (tussentijds) resultaat
  • Opleiden van eigen mensen

Het gebruik van moderne tools

  • Robuuste oplossing door versiebeheer met CloudFormation en BitBucket
  • Snelle analyses door het opslaan van data in Parquet files
  • Lage kosten door de serverless oplossing
  • Data science mogelijkheden door de gekozen file-based opzet

Speelt dit onderwerp ook binnen jouw bedrijf en ben je benieuwd wat de impact van een dergelijk traject op de organisatie kan zijn? Neem dan contact op met Ward van Santen. Magnus ondersteunt organisaties bij alle stappen van een dergelijk traject. 

14 + 3 =