Data Science Summit

In het centrum van Eindhoven vond dinsdag 28 november 2018 de jaarlijks terugkerende Data Science Summit plaats. Het evenement werd georganiseerd door TU/e in het Muziekgebouw Frits Philips. Deze locatie heeft een moderne uitstraling en past daardoor uitstekend bij een Data Science summit. De dag is gevuld met een dozijn aan sprekers, waarbij elke presentatie een vraagstuk zowel vanuit praktisch als academisch perspectief wordt belicht. Elk onderwerp heeft zowel een presentator vanuit de organisatie of het bedrijfsleven waarbij een probleem speelt of ontstaat, alsmede een academicus die hier met een team aan werkt. In de zaal bouwen rijen met zitplaatsen trapsgewijs omhoog, wat zorgt voor perfect zicht vanuit elke rij en in deze setting een beetje doet denken aan collegebanken. Als datagedreven organisatie zijn wij namens Adeptiv met zijn drieën gaan luisteren naar de probleemstukken en voorgestelde oplossingen. Het belooft een dag te worden vol nieuwe inspiratie op gebied van Data Science methodes, Visual Analytics en Machine Learning. Een aantal presentaties zijn hieronder toegelicht.
 

Visual Analytics

De dag begon met een presentatie over Visual Analytics van keynote spreker Professor Daniel Keim. De professor argumenteerde dat visualisatie een sleutel-element is van een goed werkende feedback loop tussen analyse en conclusies. Als ware kenner binnen het onderwerp gaf hij ontzettend veel voorbeelden hiervoor, onder andere binnen Natural Language Processing (NLP) en feedback van klanten op social media. Beginnend bij authorship attribution (Een onderwerp binnen NLP), waarbij het doel is de auteur van een tekst te kunnen identificeren. Met een simpele visualisatie van tekst-statistieken opgesplitst per boek en hoofdstuk zorgde hij voor urenlange discussie onder kenners. Dit omdat een specifiek boek in een oogopslag buiten de boot viel en dus niet van dezelfde schrijver kon zijn, aldus de kenners. In een ander voorbeeld liet hij met behulp van een op social media data gebaseerde sentiment analyse zien. Deze is gevisualiseerd over tijd en laat van een bedrijf zien wanneer zij fouten hebben gemaakt. Hieruit bleek dat de meeste fouten bekend waren bij het bedrijf, maar dat sommige fouten onder de radar zijn gebleven.
 
De professor eindigde met een prachtige visualisatie van een real-time voetbalwedstrijd analyse. Hierin zijn Deep Neural Networks gebruikt die in staat zijn om voetbalspelers en hun armen en benen te identificeren. Deze kennis is vervolgens gebruikt om onder andere speelruimte, passruimte en actieradius uit te kunnen lichten door ontelbaar veel voetbalwedstrijden te analyseren. Uiteindelijk heeft dit onderzoek de gebruikers van de software in staat gesteld om real-time deze elementen op een beeld van een voetbalwedstrijd te plakken. Voetbal analyse van de toekomst!
 

Quantified Self

De volgende presentatie ging over een ‘Quantified Self’, waarbij data science en gezondheid bijeen zijn gebracht. Hier werd dieper in gegaan op de vraag hoe mensen bewegen en wat dit met het menselijk lichaam doet. Echter staan niet veel mensen, o.a. om privacy redenen, in de rij om voor een langere periode met sensoren op hun lichaam rond te lopen. Om toch meer onderzoek hiernaar te kunnen doen hebben de onderzoekers een andere doelgroep aangeboord; namelijk topsporters. Voor deze groep is het namelijk in de eerste plaats belangrijk om zo hoog mogelijk te kunnen presteren, wat maakt dat zij wel wat privacy op willen geven voor onderzoek. Leuke manier om je product aan de juiste doelgroep te koppelen! Met uitvoerige analyses over bewegingsintensiteit, rust en voeding waren de onderzoekers in staat om efficiëntere en meer gepersonaliseerde trainingsprogramma’s samen te stellen.
 
De dag vervolgde met een door statistische theorie gedreven presentatie over het herkennen van hartafwijkingen, lunch (ook heel belangrijk), veelbelovende onderzoeken van PhD studenten, duizelingwekkende dataverwerkingen van Thermo Fisher en een pragmatische aanpak in het voorspellen van printeronderdelen die aan vervanging toe zijn eindigden we met het onderwerp responsible data science. Een presentatie van Rabobank legde uit dat door intensief digitaal bankieren er een goed systeem moest worden opgezet om witwassen of frauduleuze transacties te kunnen signaleren. Gemarkeerde transacties gaan vervolgens naar een menselijke beoordelaar die er zijn deskundige blik op werpt. Naast dat Rabobank zo goed als real-time deze voorspelling moet kunnen maken enkel op basis van transactiegegevens, moeten zij met de huidige regelgeving ook in staat zijn om hun gemaakte voorspellingen te verantwoorden. Naast de (voor machine learning) traditionele trade-offs die worden gemaakt zoals bias-variance, moeten er nu ook trade-offs worden gemaakt in accuraatheid versus eerlijkheid, privacy en transparantie. Een voorbeeld hiervan is om te kijken naar of alle bevolkingsgroepen binnen de data van Rabobank op gelijke wijze ‘behandeld’ worden tijdens het voorspellen.
 
Privacy refereert in deze context naar dat Rabobank geen data gebruikt die inbreuk doet op de privacy van de betrokken personen, zoals bijvoorbeeld social media data. Daarnaast moet het model ook transparant zijn in het maken van zijn beslissingen, iets wat met de nu meest succesvolle diepe neurale netwerken vaak knap lastig blijkt. Een flinke klus voor Rabobank en daarnaast een bevestiging dat de menselijke hand nog altijd hard nodig is bij de voorspellingen van een computer.

Wil je meer weten over dit onderwerp?
Neem contact met me op, ik vertel er graag meer over!

Coen Van Duijnhoven

Data Analist

c.vanduijnhoven@yourzine.nl