Promotie: Say the Same but Differently: Computational Approaches to Stylistic Variation and Paraphrasing

tot

LET OP: Als een kandidaat een lekenpraatje houdt, start de livestream een kwartier eerder.

“Ik ben een Utrechter” en “Ik ben een Utrechtenaar” zijn twee Nederlandse zinnen. Ze worden allebei door een tool zoals Google Translate vertaald als “I am an Utrecht resident”. Toch maakt de woordkeuze uit. “Utrechter” is de modernere, gangbare term, terwijl “Utrechtenaar” de historische standaardbenaming is voor een inwoner van Utrecht. In de jaren 1730, tijdens een golf van vervolgingen van homoseksuele mannen die in Utrecht begon, raakte “Utrechtenaar” nauw verbonden met homoseksualiteit. Die geschiedenis werkt nog steeds door. Wanneer iemand zich vandaag de dag een “Utrechtenaar” noemt in plaats van een “Utrechter”, kunnen we daardoor iets meer over diegene weten — bijvoorbeeld dat diegene waarschijnlijk deel uitmaakt van de lokale queer gemeenschap. Taaltechnologie zoals Google Translate verliest deze nuance echter.

Dit proefschrift onderzoekt hoe taaltechnologie beter kan omgaan met variatie in taal. Ik laat zien dat zowel mensen als taalmodellen moeite hebben om verschillende manieren van zeggen in de context van gesprekken te herkennen. Ook ontdek ik dat interne representaties van taalmodellen weliswaar de inhoud weergeven, maar vaak geen verschillen in stijl vastleggen. Om dit aan te pakken heb ik een nieuw model ontwikkeld dat variatie herkent – en dat al in gebruik is bij onderzoekers en praktijkmensen. Ten slotte toon ik aan dat taalvariatie relevant is in elke fase van het ontwerp van taalmodellen, inclusief de basisbouwstenen zoals tokenizers.

Al met al moedigt mijn werk het vakgebied van de natuurlijke taalverwerking aan om taalvariatie grondiger mee te nemen in de ontwikkeling van taaltechnologie.

Begindatum en -tijd
Einddatum en -tijd
Locatie
Promovendus
A.M. Wegman
Proefschrift
Say the Same but Differently: Computational Approaches to Stylistic Variation and Paraphrasing
Promotor(es)
prof. dr. C.J. van Deemter
Co-promotor(es)
dr. D.P. Nguyen
Meer informatie