Ik ben universitair docent Informatica aan de Universiteit Utrecht en lid van de Data Intensive Systems-groep. Mijn expertise ligt op het gebied van natuurlijke taalverwerking, met name in het identificeren en modelleren van informatie uit geschreven teksten.
Ik vind menselijke taal fascinerend in al zijn verschijningsvormen, als communicatiemedium in een culturele en maatschappelijke context, en als complex informatie- en kennisrepresentatiesysteem. Mijn onderzoeksinteresse ligt vooral op de analyse van tekst voor het verwerven en beheren van informatie, met behulp van information retrieval, indexeren, domeinspecifieke terminologie-extractie, documentclassificatie, topic modeling, identificeren van entiteiten, relatie-extractie, distributionele semantiek en grote taalmodellen.
Mijn onderzoek richt zich op operationele praktijkdata om inzichten te verkrijgen en strategische beslissingen mogelijk te maken in verschillende domeinen, zoals het bedrijfsleven, gezondheidszorg, sociale wetenschap en digitale geesteswetenschappen. Beschikbare gegevens zijn meestal zeer divers en omvatten grote verzamelingen numerieke data en metingen, domeinspecifieke gestructureerde gegevens in schema's en procesregels, en grote hoeveelheden ongestructureerde tekst. In taaltechnologische toepassingen in de praktijk zijn belangrijke bronnen zoals geannoteerde trainingsgegevens vaak niet beschikbaar en hebben we te maken met taalvarianten die bijzondere uitdagingen met zich meebrengen (OCR-fouten, meertaligheid, beschikbaarheid, bescherming van persoonlijke gegevens), zoals historisch, technisch en medisch taalgebruik.
Mijn eerdere onderzoek richtte zich vooral op regel- en kennisgebaseerde systemen voor de verwerking van teksten, al snel gevolgd door onderzoek naar unsupervised en data-driven methoden waarbij ik ook rekening moet houden met kwesties rondom datacuratie en datanormalisatie, (meta-)dataverrijking, koppeling en integratie, en modelleren van tekst in kennisbronnen.
Recentelijk richt mijn onderzoek zich op het tekstminen van elektronische patiëntendossiers voor het identificeren, classificeren en voorspellen van informatie.