Promotie: Knowledge Discovery in High Content Screening

Proefschrift van drs. ing. W.A. Omta

tot

In dit proefschrift worden het proces en de technieken van data-analyse bij High Content Screening (HCS) onderzocht. HCS, een onderdeel van High Throughput Screening (HTS), past robotica toe voor het analyseren van biochemische experimenten, op een deels geautomatiseerde manier. HTS combineert het gebruik van robotica, het automatisch verwerken van vloeistoffen en microplates. HTS wordt toegepast binnen de biomedische genetica en bij vooronderzoek van geneesmiddelen. Met behulp van HTS kan de morfologie van grote hoeveelheden bio-chemische stoffen gemeten worden. Dit wordt gedaan met behulp van fluorescerende eiwitten, chemicaliën en antilichamen. Een belangrijke eigenschap van HTS-technieken is dat numerieke data kan worden afgeleid die de biochemische activiteit beschrijft.

HCS is een onderzoekstechniek waarbij afbeeldingen worden gegenereerd door middel van automatische microscopie. Van oudsher ondersteunt HTS geen afbeelding analyse. HCS combineert het gebruik van robotica, automatische fluorescentiemicroscopie, het verwerken van vloeistoffen, het genereren van afbeeldingen en het analyseren van afbeeldingen en numerieke data. Binnen HCS wordt multivariate data berekend en opgeslagen. Deze data wordt verkregen door het segmenteren en analyseren van afbeeldingen. Deze datasets, verkregen door HCS, geven meer informatie over de fenotypische eigenschappen van de biochemische activiteit dan traditionele HTS-methoden. Door fluorescerende stoffen, die binden met eiwitten, worden metingen verkregen die informatie verschaffen over het fenotype van cellen. Metingen kunnen bijvoorbeeld iets zeggen over de intensiteit, vorm, afmeting en textuur. Deze metingen geven informatie over duizenden fenotypische eigenschappen van individuele cellen. Biologen kunnen met behulp van deze data het fenotypische effect van biochemische stoffen op cellen onderzoeken. Door HCS-technologieën kunnen grote hoeveelheden data worden gegenereerd. Deze data kan inzicht verschaffen in de werking van biochemische stoffen. Met de resultaten van HCS kunnen opvallende metingen worden gedetecteerd. HCS wordt toegepast binnen verschillende gebieden, zoals geneesmiddelenonderzoek en toxicologie. Met de resultaten van HCS-onderzoek kunnen klinische onderzoeken worden uitgevoerd ten behoeve van de ontwikkeling van nieuwe geneesmiddelen.In dit onderzoek is eerst gekeken naar het globale proces dat nodig is bij HCS. Wat opviel is dat een groot deel van de onderzoeksinstellingen geen gebruik maakt van de juiste software en niet alle bruikbare data in het data-analyse proces gebruikt. Er zijn zeer krachtige HCS-methoden voorhanden, deze methoden ontbreken echter in de beschikbare software. Hierdoor zijn deze methoden voor eindgebruikers niet toegankelijk. Onderzoeksinstellingen huren daarom vaak, op projectbasis, een bio-informaticus in. Dit heeft een nadelig effect op de efficiëntie, omdat de ingehuurde krachten steeds opnieuw ingewerkt moeten worden. De programmacode die wordt ontwikkeld kan vaak slecht worden hergebruikt.

Met name het voorbereiden van data brengt vele uitdagingen met zich mee. Tijdens dit onderzoek is daarom een standaard data-analyse protocol ontworpen. Dit protocol optimaliseert het HCS-data analyse proces. Zo wordt data gesplitst om parallel verwerkt te kunnen worden. Het protocol draagt zorg voor de consistentie van de data. Hierdoor kan verdere verwerking van de data probleemloos verlopen. Daarnaast worden met het protocol ook andere problemen voorkomen, zoals non-normaliteit, singulariteit en multicollineariteit. De oplossing is een gebruiksvriendelijk softwarepakket dat biologen in staat stelt hun eigen data te analyseren. HC StratoMineR is ontworpen, ontwikkeld, getest en gevalideerd aan de hand van twee casestudies. Dit toont de waarde van deze, eerder onbeschikbare, methodes aan.

In 2012 groeide de wereldwijde interesse in data science en machine learning en daarmee de interesse in supervised learning in het HCS-domein. Supervised learning is een onderdeel van machine learning dat delen van een dataset labelt. Een label, ook wel een klasse, representeert een gedeelte van een populatie. Met behulp van een model kan onderscheid worden gemaakt tussen verschillende klassen. Nieuwe data (data zonder label) kan zo geclassificeerd worden. Unsupervised learning maakt alleen gebruik van de waarden van data om deze te onderscheiden. In dit proefschrift wordt het toepassen van supervised learning binnen HCS onderzocht. De resultaten tonen aan dat Random Forest een snelle en eenvoudige manier is om supervised learning toe te passen wanneer er voldoende gelabelde data beschikbaar is. Om zo effectief mogelijk te onderzoeken wordt aangeraden om unsupervised learning te combineren met supervised learning. Met behulp van unsupervised learning kunnen bruikbare delen van de data worden geïdentificeerd om data van labels te voorzien. Het visualiseren van data is een belangrijke tool om patronen te herkennen. Zo kunnen uitschieters, systematische patronen, correlaties en groepen in data worden geïdentificeerd. HCS levert veel metingen op, dit resulteert in data met veel variabelen. Deze data is vaak heterogeen en lastig te interpreteren. Dit maakt het onderzoeken van HCS-data uitdagend.

In dit proefschrift is aandacht besteed aan het inzetten van interactieve visualisaties tegenover het gebruik van statische visualisaties. Door gebruik van interactieve visualisaties is Visual Data Mining binnen handbereik. Visual Data Mining bestaat uit vier stappen: overzicht, inzoomen, filteren en details op verzoek. De primaire hypothese was dat gebruikers sneller en efficiënter konden werken door het gebruik van interactieve visualisaties. Deze hypothese is getest door middel van een experiment onder 79 studenten. De resultaten laten zien dat de groep die gebruik maakte van interactieve visualisaties sneller en accurater de analyse opdrachten konden voltooien.Het voorbereiden van data is een uitdagende, tijdrovende en foutgevoelige taak. Bioinformatici werken vaak met specifiek inzetbare software, ontwikkeld voor specifieke experimenten en het voorbereiden van data. Deze software kan lastig worden hergebruikt, terwijl het voorbereiden van data tot 80% van de tijd in beslag neemt. Om het voorbereiden van data te vereenvoudigen is er, als onderdeel van dit proefschrift, software ontwikkeld in de vorm van een R-package. Deze software biedt de gebruiker de mogelijkheid om automatisch data voor te bereiden. Het ondersteunt de gebruiker bij ETL, variabele selectie, transformatie, normalisatie, standaardiseren en het verwerken van missende gegevens. Zo kan een dataset volledig worden voorbereid om machine learning toe te passen. De software heeft ingebouwde standaardwaarden die eenvoudig aangepast kunnen worden.

Het in dit proefschrift voorgestelde proces is tevens toegepast bij een low-content onderzoek naar geneesmiddelen. De voorgestelde methoden binnen het proces zijn gevalideerd door middel van een onderzoek naar geneesmiddelen die NF-κB activiteit onderdrukken. Bij dit onderzoek zijn een aantal fasen uit het voorgestelde proces achterwege gelaten, vanwege het lage aantal variabelen (low content) in dit onderzoek. De data bevatte twee belangrijke variabelen: Renilla en Luciferase. Er zijn 34 potentiële kandidaten gevonden die NF-κB activiteit onderdrukken. Geneesmiddelen die cytotoxische activiteit laten zien zijn buiten beschouwing gelaten. De uiteindelijke lijst resulteerde daardoor in vijf kandidaten die NF-κB activiteit significant onderdrukken.

Begindatum en -tijd
Einddatum en -tijd
Locatie
Promovendus
drs. ing. W.A. Omta
Proefschrift
Knowledge Discovery in High Content Screening
Promotor(es)
prof. dr. S. Brinkkemper
prof. dr. J. Klumperman
Co-promotor(es)
dr. M.R. Spruit