De rol van panl in de geesteswetenschappen: in gesprek met Antske Fokkens

Voor twee eerdere blogposts heb ik de oprichters van panl, Martin Tanis en Ivar Vermeulen, geïnterviewd (beide communicatiewetenschappers). Nu is het de beurt aan Antske Fokkens. Naast medeoprichter van panl is Antske een computerlinguïst: een taalkundige die zich bezighoudt met het computationeel modelleren van taal. Antske zorgt ervoor dat het platform – en de ingebouwde functionaliteiten – niet alleen bijdragen aan de sociale wetenschappen, maar ook op maat gemaakt worden voor geesteswetenschappers. Waar doet Antske onderzoek naar? Waarom is ze betrokken geraakt bij panl? En hoe kan panl bijdragen aan de geesteswetenschap in Nederland? Lees snel verder voor antwoorden op deze vragen!

Antske, waar richt je je onderzoek op?

Ik ben geïnteresseerd in hoe taal werkt en hoe we dit met computers kunnen modelleren. Met name bij taalmodellen die tegenwoordig veel gebruikt worden, is het belangrijk om te begrijpen wat ze precies leren. Welke informatie absorberen ze en hoe gebruiken ze die?

Interessant! En je doet dit onderzoek voornamelijk in een interdisciplinaire context, toch?

Ja, dat klopt! Onderzoekers die taaltechnologie willen gebruiken, moeten goed begrijpen wat deze modellen wel en niet goed kunnen, en welke systematische fouten ze maken. Een interdisciplinaire context is dus essentieel voor mijn onderzoek.

Hoe ben je eigenlijk in dit onderzoeksveld beland?

Ik ben begonnen met de opleiding Science du Language (algemene taalwetenschappen) in Frankrijk en ontdekte dat keuzevakken in computerlinguïstiek mij erg lagen. Aangezien ik altijd van wiskunde heb gehouden, was dit eigenlijk geen verrassing. Na de afronding van mijn studie in Frankrijk ben ik begonnen aan een MSc in Language Science and Technology in Saarbruecken, waar ik ook mijn promotieonderzoek heb gedaan. Ik was al vroeg geïnteresseerd in de methodologische vraag: “Hoe kunnen we echt weten wat het beste werkt?” Maar het onderwerp was toen nog zeer theoretisch, namelijk het implementeren van taalkundig gemotiveerde grammatica’s. In 2012 ben ik als postdoc aan de Vrije Universiteit gaan werken, waar mijn taak was om taaltechnologie te ontwikkelen voor historisch onderzoek. Dit was het begin van mijn interdisciplinaire samenwerking: begrijpen wat de historicus nodig had voor het project, kijken hoe we dat het beste konden bereiken en uitleggen welke mogelijke problemen de resultaten konden hebben. Sindsdien heb ik op een vergelijkbare manier naar taaltechnologie gekeken, niet alleen met historici, maar ook met communicatiewetenschappers, filosofen en juristen. En uiteraard met linguïsten en computerwetenschappers!

Wat drijft je het meest om je in deze onderwerpen te verdiepen en deze samenwerkingen aan te gaan?

Taal is fascinerend. Voor mij biedt de computationele benadering een interessant kader om naar taal te kijken, van het nauwkeurig modelleren bij het implementeren van grammatica’s tot het onderzoeken wat statistische modellen precies oppikken. Dankzij de interdisciplinaire aanpak krijg ik de kans om ook van andere vakgebieden te leren en groeit de impact van mijn onderzoek. Ook leidt dit weer tot nieuwe vragen.

Heb je een voorbeeld van zo’n nieuwe vraag?

Absoluut. Bijvoorbeeld: wat is de invloed van de definitie van hate speech op de data en modellen die worden getraind om dit te detecteren?

Interessant! En ook uitdagend lijkt me. Wat zijn de knelpunten bij het verkrijgen van inzicht in zo een vraag?

In ons onderzoek stuiten we vaak op het probleem dat we informatie nodig hebben over hoe mensen taal interpreteren: wat staat er precies? Welke namen worden genoemd? Is deze tweet hate speech of gewoon een kritische opmerking? Voor goede taaltechnologie hebben we mensen nodig die tekst kunnen annoteren, oftewel expliciet de informatie in de tekst kunnen markeren. Bijvoorbeeld ‘dit is een eigennaam’ of ‘deze tweet is hate speech en deze niet’. Het is echter erg moeilijk om genoeg Nederlandstalige mensen te vinden die deze input kunnen leveren.

Daarom was ik meteen enthousiast toen Ivar en Martin mij over het voorstel voor een platform als panl vertelden (lees hier: hoe het initiatief van panl bij Martin was begonnen en hoe Ivar bij panl betrokken raakte). Via panl kunnen we deelnemers werven voor crowd annotaties, waardoor het makkelijker wordt om voldoende Nederlandstalige mensen te vinden die de benodigde input kunnen leveren en datasets voor het Nederlands kunnen maken.

Dus je raakte betrokken bij panl omdat je de behoefte aan zo’n platform in je eigen onderzoeksveld zag. Maar hoe zit het met geesteswetenschappen in het algemeen? Wat denk je dat panl kan bijdragen?

Geesteswetenschappen zijn divers, dus ik kan alleen spreken voor een deel van de geesteswetenschappen. De gebieden waarmee ik te maken heb, gaan vaak over interpretatie, en er zijn veel scenario’s waarbij deze interpretatie moet komen van mensen die de Nederlandse taal en/of cultuur begrijpen. Er is ook onderzoek naar het leren van Nederlands als vreemde taal en naar culturele verschillen waarvoor toegang tot mensen die naar Nederland zijn gekomen noodzakelijk is. Kortom, er is onderzoek waarbij we mensen nodig hebben die in Nederland wonen en/of Nederlands spreken.

Zijn er ook mogelijke risico’s of nadelen voor geesteswetenschappers bij het gebruik van een platform zoals panl?

Voor sommige vormen van onderzoek zijn de risico’s laag. Bij veel taken waarbij we bijvoorbeeld tekst annoteren, hebben we mensen nodig die kunnen lezen wat er staat, en de kwaliteit kunnen we controleren. Net zoals bij sociale wetenschappen kunnen er ook studies zijn waarbij het belangrijk is dat mensen een bepaalde achtergrond hebben (bijvoorbeeld voor onderzoek naar dialecten kan het belangrijk zijn dat de ouders het dialect ook als eerste taal hebben). Dan is het natuurlijk cruciaal dat de deelnemers aan het onderzoek inderdaad deze achtergrond hebben, om datakwaliteit te garanderen.

**Hoe gaat panl hiermee om?**

Er is een controlemechanisme dat ervoor zorgt dat we alleen deelnemers uit Nederland hebben. Bovendien is het deels mogelijk om deelnemers te filteren op basis van de kwaliteit van hun annotaties of door middel van controlevragen. Door ons te richten op een beperkt gebied, is de kans groter dat de controlevragen goed werken.

**Duidelijk! En tot slot, welk onderzoek zou je graag op panl willen uitvoeren zodra het platform live gaat?**

Ik zou graag onderzoek doen dat sociaalwetenschappelijk en taalkundig onderzoek met elkaar verbindt. Bijvoorbeeld, onderzoeken hoe verschillende groepen (verschillende leeftijden, opleidingsniveaus, regio’s, in-group of out-group) berichten interpreteren als het gaat om het identificeren van hate speech, het bepalen of een tekst een standpunt ondersteunt of bekritiseert, of iets als positief of negatief wordt beschouwd. Het zou fantastisch zijn om hier samen met sociale wetenschappers aan te werken en voldoende deelnemers te hebben om te onderzoeken of er significante verschillen zijn in interpretaties van tekst op basis van dergelijke verschillen.

De rol van panl in de geesteswetenschappen: in gesprek met Antske Fokkens