Data Science in Utrecht: Een Kennismaking met de Nieuwe Thematische Community
Data Science is vervlochten in vrijwel al het levenswetenschappelijke onderzoek in Utrecht. Vanuit verschillende invalshoeken werken Utrechtse onderzoekers aan een beter begrip van beschikbaarheid, bruikbaarheid en toepassingsgebieden van data. Zij verenigen zich in de thematische community Data Science and Cohorts. Vlak voor de eerste bijeenkomst van de community board spreken we met Professor Carl Moons en Universitair Hoofddocent Miel Hostens, voorzitter en vicevoorzitter van de nieuw opgerichte community over hun wederzijdse ambities.

Het gesprek is verkennend van aard. “De leden van deze community board hebben elkaar nog niet eerder gesproken, we gaan er open in” begint Moons, die een achtergrond heeft in epidemiologie en methodologie en data science in het medisch onderzoek. Hostens, die zichzelf omschrijft als 'een vreemde eend in de bijt', komt uit de hoek van diergeneeskunde: “Mijn volledige lab doet eigenlijk niets anders dan data gedreven oplossingen maken voor de landbouw.”
Beiden zijn het erover eens dat data science een verbindende factor is tussen diverse wetenschappelijke disciplines. Zoals Moons het treffend verwoordt: “Vrijwel alle wetenschappelijke disciplines zijn met data bezig. Dat maakt data science een echte verbinder.”
Een van de uitdagingen in data science is het beheer en gebruik van data. Hier draait het om FAIR data, wat staat voor Vindbaar, Toegankelijk, Interoperabel en Herbruikbaar. Hostens licht toe: “Als data scientists experts zijn op het gebied van datastructuren en FAIR data, dan is de uitdaging om iedereen hierin mee te nemen.” Verschillende clusters rondom data science ontstaan bottom-up, vanuit de faculteiten. Moons ziet een analogie met de Utrechtse AI labs (waaronder 5 met als focus de gezondheidszorg) die zijn recent ingericht rond specifieke thema’s: “De deliverables zijn niet helemaal hetzelfde maar daar maken we ook het soort verbinding dat de datawetenschappen verder gaat vormen”.
Reflecterend op de rol van data scientists zegt Hostens: “Vroeger bracht je een statisticus en iemand met een dataset samen. Tegenwoordig heten die twee samen een data scientist.” Moons vult aan, wijzend op de brede toepassingsgebieden van data science en de samenkomst van diverse experts binnen hun community in het Utrechtse Life Science domein.
Toegepast en fundamenteel

“De toegepaste kant van data science is zichtbaar in veel onderzoek” zegt Hostens. “De fundamentelere kant, die verder gaat dan de methoden en technieken voor het maken van AI algoritmes en waar ook vragen over de ethiek, provenance en governance van data en de jurisprudentie eromheen ter sprake komen, is vaak minder zichtbaar” vult Moons aan. Met de oprichting van deze community hopen Moons en Hostens de kloof tussen fundamenteel en toegepast onderzoek nog verder te overbruggen en de kracht van gezamenlijke expertise te benutten.
Cohorten
Over de term Cohorten in de titel van de community is ook nog geen consensus. “Dat zijn groepen mensen met een gemene deler waardoor ze met elkaar te vergelijken zijn, en vaak gevolgd worden over de tijd. Bijvoorbeeld dat ze een bepaalde aandoening hebben dat ze een bepaalde wijk wonen dat ze een bepaalde leeftijdscategorie horen. Dat is wel een onderzoeksmiddel, maar wat tegenwoordig ook in opkomst is zijn de minder gecontroleerde ‘Real World data’ en als gevolg daarvan ‘Real World Evidence’, dat zijn geen cohorten maar wel een steeds belangrijkere bron voor data science, ook in het life science domein. Een van de verrassende voordelen van geavanceerde AI is het vermogen om patronen te vinden in ongestructureerde en onverwachte databronnen, zoals patiëntenfora. In traditionele onderzoeksbenaderingen werden dergelijke forums vaak over het hoofd gezien of als anekdotisch beschouwd. Met AI kunnen onderzoekers echter ook waardevolle inzichten verkrijgen uit deze gegevens, zoals het identificeren van niet-gemelde bijwerkingen van geneesmiddelen, implantaten of andere interventies. Het gebruik van AI op dergelijke databronnen kan een rijker, meer genuanceerd beeld geven van patiënt- en burgerervaringen en resultaten.
Het autonoom snappen van data
Hoewel AI geavanceerde analyses kan uitvoeren, heeft het nog steeds menselijke input nodig, vooral bij het voorbereiden en structureren van data. Het FAIR maken van data vereist een menselijke hand. “Menselijke input helpt niet alleen om de data te organiseren, maar ook om context en interpretatie te bieden aan de ontwikkelde AI algoritmen die anders echt gemist worden of leidt tot verkeerde conclusies en toepassingen” zegt Moons.
De toekomst van datawetenschap is helder
Met 13 AI-labs die zich richten op Utrechtse onderzoeksgebieden, waarvan vijf specifiek afgestemd op de Life Sciences en gezondheid(szorg), staat Utrecht aan de voorhoede van data-innovatie. "We hebben duidelijke thema's gekozen, gebieden waar we sterk in zijn, en dat is waar we onze community rond willen opbouwen," stelt Hostens.
Hoewel de rol van de data scientist steeds belangrijker wordt, zijn er nog onduidelijkheden, zoals de exacte invulling van hun profiel en opleidingsbehoeften. "De toekomst van datawetenschap is helder, maar de verdeling van middelen kan beter," merkt Hostens op. Moons reflecteert: "Vroeger waren statistici, epidemiologen en later bioinformatici bruggenbouwers in de life sciences . Nu komen daar de datawetenschappers bij die deze cruciale rol mede gaan vervullen, zowel op fundamenteel als toegepast niveau."
Kortom, de vorming van deze community is niet alleen gewenst, maar essentieel voor de toekomst van datagestuurde wetenschap in Utrecht.