Mijn eerste Big Data analytics ervaring

Ongeveer anderhalf jaar geleden vroeg een collega mij of ik wist wat Hadoop was. Dat was ongeveer de start van mijn Big Data duikvlucht. Ik kreeg hetzelfde gevoel als zo’n 13 jaar geleden, toen ik voor het eerst hoorde wat data warehousing inhield. Sindsdien houd ik me met niets anders meer bezig. Dezelfde vlinders kreeg ik in mijn buik toen ik me verdiepte in het onderwerp Big Data. TwitterNestSherlock

Nu, anderhalf jaar later en veel artikelen gelezen te hebben verder, werd het wel tijd om nu zelf de handen uit te mouwen te steken. Gelukkig heeft Ordina, mijn werkgever, Big Data hoog op de agenda staan dus dan zijn er ook resources om het aan te pakken. Nu zijn we niet de eersten binnen Ordina die aan de slag gaan. Zo heeft Ordina Clockwork al succesvolle projecten gedaan met onder andere een crowd management aanpak voor de Gay Pride. Een half jaar geleden stelden we een plan op voor het inrichten van servers in de cloud waarop twitterberichten zouden worden ingelezen en verwerkt om vervolgens weer uit te lezen met Oracle’s Endeca. Het plan werd onlangs goedgekeurd.

Van Clockwork ontvingen we een uitgeklede werkversie van Pulse, het in Java door Clockwork collega’s geschreven tool, waarmee we twitterberichten konden inlezen. Als voorbereiding hadden we een Linuxserver ingericht en hier mongoDB op geïnstalleerd. Parallel werd Endeca op de Windowsserver geïnstalleerd. Op het moment van dit bericht zijn we in staat op basis van een zoekargument twitterberichten uit Nederland op te vangen in mongoDB en te exporteren naar een .CSV bestand.

En hoe leuk is het dan om een zoekopdracht op te stellen en de twitterberichtjes binnen te zien stromen? De query “Korea” leverde, na de aankondiging eventueel de Verenigde Staten met kernwapens aan te vallen, al snel zo’n 800 berichtjes op. Alleen in Nederland wel te verstaan.

Met behulp van queries op mongoDB kunnen we analyses uitvoeren en dat is ook precies wat de volgende stap is. Dan gaan we het tekstbestand uit mongoDB inlezen in Endeca en dan kunnen de analisten aan de slag met de data.

Zelf zal ik nog aan de slag moeten met het gescheduled wegschrijven van de data naar tekstbestanden waarna het wederom gescheduled ingelezen kan worden. Ook een leuke uitdaging.

Martin Jesterhoudt

Weer een blogger erbij!

Nederland is een blogger rijker. Martin Jesterhoudt is de naam. Geboren in Amsterdam op 2 april 1969 en vanaf 1992 werkzaam in de ICT. De eerste vijf jaar heb ik me bezig gehouden met databasemarketing waarbij ik een database onderhield en selecties maakte voor Marketingdoeleinden. Vanaf 1997 ben ik voor Ordina gaan werken. De werkzaamheden startten gevarieerd maar werden al snel gedomineerd door werkzaamheden waarbij gegevens bulkgewijs worden verwerkt met Oracle. De afgelopen 15 jaar heb ik voor ministeries, retailers, telecommaatschappijen, energieleveranciers en banken gewerkt. Allen in meervoud. Voor details verwijs ik graag naar mijn LinkedIn account waar alles tot in detail beschreven staat.

De meeste ervaring heb ik met Business Intelligence in het algemeen en met data warehousing in het bijzonder. Sinds 2012 richt ik me ook op Big Data. Vanuit deze brede invalshoek wil ik deze blog gaan onderhouden. Ik hoop op veel lezers en inhoudelijke discussies.

Met vriendelijke groet,
Martin Jesterhoudt

Email: JesterhoudtM@gmail.com
Twitter: @JesterhoudtM