Promotie: Unlocking patterns in limited omics data Machine learning-based diagnostics from small and sparse cancer omics dataset

Promotie van Alexandra Danyi

tot

Betrouwbare diagnostische tests zijn essentieel voor een effectieve kankerbehandeling. Machine learning (ML) kan helpen door biologische data van patiënten te analyseren, maar deze data heeft vaak beperkingen.

Weefselbiopsie is nog steeds de standaard voor het onderzoeken van tumoren, maar vloeistofbiopsie wint aan populariteit omdat het minder ingrijpend is. Toch is data uit vloeistofbiopsie vaak schaars en verschilt het van weefselbiopsie-data, waardoor ML-modellen die op weefseldata zijn getraind, niet zomaar bruikbaar zijn voor vloeistofbiopsie.
Daarnaast kunnen datasets uit verschillende bronnen sterk verschillen door afwijkende proefprotocollen of patiëntengroepen. Deze verschillen, ook wel ‘domain shift’ genoemd, kunnen de prestaties van ML-modellen verminderen als ze worden toegepast op nieuwe data. Ook kleine patiëntengroepen in studies maken het moeilijk om voldoende data te verzamelen, vooral bij genexpressie data, wat vaak leidt tot ‘overfitting’ van modellen. Bovendien kunnen datasets onevenwichtig zijn, waarbij bepaalde kankertypes veel vaker voorkomen dan andere, wat de nauwkeurigheid van modellen aantast.
Dit onderzoek richt zich op het verbeteren van ML-modellen voor kankerdiagnostiek, ondanks deze uitdagingen. Zo wordt in hoofdstuk 2 een model aangepast om de oorsprong van kanker in vloeistofbiopsie setting te voorspellen, met behulp van synthetische data. In hoofdstuk 3 worden methoden getest om ‘domain shift’ en klasse-onbalans te verminderen. Hoofdstuk 4 presenteert een ML-model dat de reactie op behandelingen bij prostaatkankerpatiënten voorspelt, zelfs met beperkte data. Door behandelgeschiedenis te combineren met genetische en moleculaire gegevens, kan het model helpen bij het kiezen van de beste therapie.

Begindatum en -tijd
Einddatum en -tijd
Locatie
Promovendus
Alexandra Danyi
Proefschrift
Unlocking patterns in limited omics data Machine learning-based diagnostics from small and sparse cancer omics datasets
Promotor(es)
prof. dr. ir. J. de Ridder
Co-promotor(es)
dr. M. Jager