Wat ik geleerd heb van mijn gesprekken met data science sollicitanten

De laatste tijd ben ik geregeld gevraagd om voor Ordina sollicitanten te spreken die willen komen werken als data scientist. De eerste keren vond ik dat allemaal best spannend – wie ben ik nou, om met mijn 25 lentes een oordeel te vellen over de carrière van een ander? Uiteindelijk bedacht ik me dat er in feite niet veel anders gebeurt dan een uur koffie drinken met een onbekende, waarna ik de vraag probeer te beantwoorden of ik diegene als collega zou willen. Dat moet ik toch wel kunnen, dacht ik, en inmiddels ben ik een flink aantal sollicitanten verder en vond ik het tijd om iets op te schrijven over wat ik daarvan heb geleerd.

Data science heeft een zeer specifiek probleem als het aankomt op de arbeidsmarkt, en dat is hoe jong het veld is. Dit merk je op twee manieren: ten eerste is voor veel mensen nog onduidelijk wat het precies betekent om jezelf data scientist te noemen, en ten tweede is er een gebrek aan mensen met ervaring.

Eenhoorns

Toen ik drie jaar geleden begon als data scientist had iedereen het over de mysterieuze eenhoorns waar elk bedrijf naar op zoek zou zijn. Eenhoorns omdat de ideale data scientist super goed zou moeten zijn in zo ongeveer alles: programmeren, statistiek, visualisatie, presentatie, en dan het liefst met nog een flinke dosis domeinkennis.

Hoewel er nog steeds veel wordt gepraat over zulke eenhoorns heb ik het gevoel dat de meeste bedrijven inmiddels een gezonder beeld hebben van waar ze precies naar op zoek zijn. Niet langer is het ideaalbeeld iemand die super geavanceerde modellen traint en dan ook nog de Hadoop-clusters aanlegt waarin ze worden opgeslagen; in plaats daarvan realiseren bedrijven zich dat dit taken zijn die je beter aan twee verschillende specialisten kunt overlaten.

De belangrijkste manier waarop ik nog wel eens het eenhoorn-denken tegenkom, is als ik gevraagd wordt naar mijn mening over iets wat ik eigenlijk een data engineering-onderwerp vind. Zo krijg ik bijvoorbeeld nog wel eens inhoudelijke vragen over het onderscheid tussen AWS en Azure. Persoonlijk vind ik dat een onderwerp waar ik slechts oppervlakkig iets van af hoef te weten en laat ik het inhoudelijk specialisme met liefde over aan een collega in data engineering.

Overigens is big data in mijn mening ook een data engineering-term in plaats van een data science-term, maar gezien hoe vaak big data en data science jarenlang in dezelfde zin zijn gebruikt, kan ik het mensen nog snel vergeven dat ze mij willen zien als big data-expert.

Waarnaar ben je op zoek?

Wat betekent dit voor sollicitatiegesprekken? Het betekent dat je als bedrijf goed moet weten waar je naar op zoek bent. Ik zie nog vaak vacatures langskomen die niet alleen vragen naar ervaring met Python en R, maar ook met Pig, Hive, Cassandra, Redshift, en S3.

Als bedrijf snijd je jezelf hiermee in de vingers, want je verkleint nodeloos de groep met geschikte potentiële sollicitanten. Niet iedereen hoeft alles te kunnen en je zult merken dat een data scientist pas echt meerwaarde gaat leveren als je hem of haar ondersteunt met een goed data engineering team. We hebben geprobeerd om dit ook te laten zien in onze Ordina-vacature voor data scientist.

Dit betekent voor (potentiële) data scientists dat je bij vacatures goed moet opletten of het bedrijf lijkt te weten wat ze zoeken. De kans dat je gelukkig wordt in een data science-baan is veel groter als je werkt voor een bedrijf dat weet wat ze van je verwachten. Het beste recept voor een mislukking (en helaas heb ik dit vaak genoeg gezien) is te werken voor een bedrijf dat niet weet waar ze aan beginnen en waar het onmogelijke van je wordt verwacht.

Gebrek aan ervaring

De tweede eigenschap van de jonge markt is iets waar we op het moment bij Ordina veel meer van merken. Data science is namelijk niet alleen jong, maar ook nog eens hip. Dit heeft geleid tot een grote groep mensen die hartstikke benieuwd zijn of een carrière als data scientist iets voor hen zou kunnen zijn.

Vaak zijn dit afstudeerders uit de sociale of exacte wetenschappen die tijdens hun studie ervaring hebben opgedaan met SPSS of Matlab en nu hopen die kennis te kunnen toepassen in een baan. Soms zijn het PhD’ers die net klaar zijn met hun promotieonderzoek en die graag door willen gaan met het doen van onderzoek, maar dan niet in een academische omgeving. En soms zijn het mensen die al een tijd in de IT of als business analist werken en zich nu graag willen laten omscholen tot data scientist. Met een aantal Coursera-certificaten op zak kloppen veel van hen vervolgens aan bij Ordina. We bieden veel van hen een baan aan als junior of young professional bij Ordina TalentPower.

De groep die ondervertegenwoordigd is, zijn de mensen met een paar jaar werkervaring. Dit zijn de sollicitanten die niet alleen weten hoe je de aannames van een regressiemodel controleert, maar die ook aanvoelen dat de eerste analysevraag die je krijgt bijna nooit de vraag is die je uiteindelijk echt moet beantwoorden. Het zijn mensen die niet alleen kunnen uitleggen wat het verschil is tussen supervised en unsupervised modeling, maar die ook uit ervaring weten hoe belangrijk het is om code te schrijven die je collega’s ook kunnen lezen en begrijpen. Kortom, die de vaardigheden bezitten waardoor ze zelfstandig en efficiënt aan de slag kunnen in een nieuwe omgeving – iets wat voor een detacheerder als Ordina erg belangrijk is.

Vaardigheden

Dit betekent dat we goed hebben moeten nadenken wat we precies verwachten van een data scientist op elk niveau: junior, medior, en senior. Welke vaardigheden moet je hebben als je komt solliciteren en welke vaardigheden kun je nog wel leren als je eenmaal begonnen bent? Sommige bedrijven zullen zeggen dat het vooral belangrijk is dat je analytisch en creatief bent, maar daar ben ik het niet helemaal mee eens.

Als een sollicitant geen gedegen kennis van statistiek heeft is dat volgens mij wel degelijk een groot probleem, want ik geloof niet dat je iemand in korte tijd genoeg kunt uitleggen om een halve bacheloropleiding in te halen. Het betekent wel dat we werkervaring veel belangrijker vinden dan theoretische kennis – leuk dat je het onderscheid tussen twintig verschillende regressiemethoden kunt uitleggen, maar ik ben pas echt geïnteresseerd in de twee daarvan die je daadwerkelijk hebt toegepast.

Als sollicitant ligt hier ook een kans om je te onderscheiden van de concurrentie. Je kunt dat eenvoudig doen door je kennis toe te passen in hobbyprojectjes, waarmee je in één klap meer hebt gedaan dan 95% van de andere sollicitanten. Heb je een cursus gedaan op DataCamp of op Coursera over clusteringtechnieken? Super! Download nu een openbaar beschikbare dataset en pas je geleerde kennis eens toe en schrijf bijvoorbeeld een blogpost over je resultaten.

Het wordt nog beter als je een toepassing kunt verzinnen die ook direct meerwaarde heeft voor jezelf of een ander.  Zo ken ik iemand die een webscraper had gebouwd om de prijs van een treinreis bij te houden, zodat hij kon bepalen op welk moment hij het goedkoopst kon boeken, of iemand die een algoritme had geschreven dat de gescande antwoorden van meerkeuzeopgaven automatisch kon herkennen.

Vervolg

Ik wil nog meer schrijven over dit onderwerp, maar dit artikel wordt al veel te lang. Binnenkort zal ik een deel twee schrijven, waarin ik wil bespreken hoe je een sollicitant beoordeelt. Is een gesprek voldoende of wil je ook een test afnemen en wat wil je dan testen? Al die vragen hoop ik in mijn tweede post te beantwoorden.

Lees ook meer over intelligente datagedreven organisaties.

Anton Stam
Data scientist
06-12810323
anton.stam.@ordina.nl