*Scroll down for English*
Voor twee eerdere blogposts heb ik de oprichters van panl, Martin Tanis en Ivar Vermeulen, geïnterviewd (beide communicatiewetenschappers). Nu is het de beurt aan Antske Fokkens. Naast medeoprichter van panl is Antske een computerlinguïst: een taalkundige die zich bezighoudt met het computationeel modelleren van taal. Antske zorgt ervoor dat het platform – en de ingebouwde functionaliteiten – niet alleen bijdragen aan de sociale wetenschappen, maar ook op maat gemaakt worden voor geesteswetenschappers. Waar doet Antske onderzoek naar? Waarom is ze betrokken geraakt bij panl? En hoe kan panl bijdragen aan de geesteswetenschap in Nederland? Lees snel verder voor antwoorden op deze vragen!
Antske, waar richt je je onderzoek op?
Ik ben geïnteresseerd in hoe taal werkt en hoe we dit met computers kunnen modelleren. Met name bij taalmodellen die tegenwoordig veel gebruikt worden, is het belangrijk om te begrijpen wat ze precies leren. Welke informatie absorberen ze en hoe gebruiken ze die?
Interessant! En je doet dit onderzoek voornamelijk in een interdisciplinaire context, toch?
Ja, dat klopt! Onderzoekers die taaltechnologie willen gebruiken, moeten goed begrijpen wat deze modellen wel en niet goed kunnen, en welke systematische fouten ze maken. Een interdisciplinaire context is dus essentieel voor mijn onderzoek.
Hoe ben je eigenlijk in dit onderzoeksveld beland?
Ik ben begonnen met de opleiding Science du Language (algemene taalwetenschappen) in Frankrijk en ontdekte dat keuzevakken in computerlinguïstiek mij erg lagen. Aangezien ik altijd van wiskunde heb gehouden, was dit eigenlijk geen verrassing. Na de afronding van mijn studie in Frankrijk ben ik begonnen aan een MSc in Language Science and Technology in Saarbruecken, waar ik ook mijn promotieonderzoek heb gedaan. Ik was al vroeg geïnteresseerd in de methodologische vraag: “Hoe kunnen we echt weten wat het beste werkt?” Maar het onderwerp was toen nog zeer theoretisch, namelijk het implementeren van taalkundig gemotiveerde grammatica’s. In 2012 ben ik als postdoc aan de Vrije Universiteit gaan werken, waar mijn taak was om taaltechnologie te ontwikkelen voor historisch onderzoek. Dit was het begin van mijn interdisciplinaire samenwerking: begrijpen wat de historicus nodig had voor het project, kijken hoe we dat het beste konden bereiken en uitleggen welke mogelijke problemen de resultaten konden hebben. Sindsdien heb ik op een vergelijkbare manier naar taaltechnologie gekeken, niet alleen met historici, maar ook met communicatiewetenschappers, filosofen en juristen. En uiteraard met linguïsten en computerwetenschappers!
Wat drijft je het meest om je in deze onderwerpen te verdiepen en deze samenwerkingen aan te gaan?
Taal is fascinerend. Voor mij biedt de computationele benadering een interessant kader om naar taal te kijken, van het nauwkeurig modelleren bij het implementeren van grammatica’s tot het onderzoeken wat statistische modellen precies oppikken. Dankzij de interdisciplinaire aanpak krijg ik de kans om ook van andere vakgebieden te leren en groeit de impact van mijn onderzoek. Ook leidt dit weer tot nieuwe vragen.
Heb je een voorbeeld van zo’n nieuwe vraag?
Absoluut. Bijvoorbeeld: wat is de invloed van de definitie van hate speech op de data en modellen die worden getraind om dit te detecteren?
Interessant! En ook uitdagend lijkt me. Wat zijn de knelpunten bij het verkrijgen van inzicht in zo een vraag?
In ons onderzoek stuiten we vaak op het probleem dat we informatie nodig hebben over hoe mensen taal interpreteren: wat staat er precies? Welke namen worden genoemd? Is deze tweet hate speech of gewoon een kritische opmerking? Voor goede taaltechnologie hebben we mensen nodig die tekst kunnen annoteren, oftewel expliciet de informatie in de tekst kunnen markeren. Bijvoorbeeld ‘dit is een eigennaam’ of ‘deze tweet is hate speech en deze niet’. Het is echter erg moeilijk om genoeg Nederlandstalige mensen te vinden die deze input kunnen leveren.
Daarom was ik meteen enthousiast toen Ivar en Martin mij over het voorstel voor een platform als panl vertelden (lees hier: hoe het initiatief van panl bij Martin was begonnen en hoe Ivar bij panl betrokken raakte). Via panl kunnen we deelnemers werven voor crowd annotaties, waardoor het makkelijker wordt om voldoende Nederlandstalige mensen te vinden die de benodigde input kunnen leveren en datasets voor het Nederlands kunnen maken.
Dus je raakte betrokken bij panl omdat je de behoefte aan zo’n platform in je eigen onderzoeksveld zag. Maar hoe zit het met geesteswetenschappen in het algemeen? Wat denk je dat panl kan bijdragen?
Geesteswetenschappen zijn divers, dus ik kan alleen spreken voor een deel van de geesteswetenschappen. De gebieden waarmee ik te maken heb, gaan vaak over interpretatie, en er zijn veel scenario’s waarbij deze interpretatie moet komen van mensen die de Nederlandse taal en/of cultuur begrijpen. Er is ook onderzoek naar het leren van Nederlands als vreemde taal en naar culturele verschillen waarvoor toegang tot mensen die naar Nederland zijn gekomen noodzakelijk is. Kortom, er is onderzoek waarbij we mensen nodig hebben die in Nederland wonen en/of Nederlands spreken.
Zijn er ook mogelijke risico’s of nadelen voor geesteswetenschappers bij het gebruik van een platform zoals panl?
Voor sommige vormen van onderzoek zijn de risico’s laag. Bij veel taken waarbij we bijvoorbeeld tekst annoteren, hebben we mensen nodig die kunnen lezen wat er staat, en de kwaliteit kunnen we controleren. Net zoals bij sociale wetenschappen kunnen er ook studies zijn waarbij het belangrijk is dat mensen een bepaalde achtergrond hebben (bijvoorbeeld voor onderzoek naar dialecten kan het belangrijk zijn dat de ouders het dialect ook als eerste taal hebben). Dan is het natuurlijk cruciaal dat de deelnemers aan het onderzoek inderdaad deze achtergrond hebben, om datakwaliteit te garanderen.
Hoe gaat panl hiermee om?
Er is een controlemechanisme dat ervoor zorgt dat we alleen deelnemers uit Nederland hebben. Bovendien is het deels mogelijk om deelnemers te filteren op basis van de kwaliteit van hun annotaties of door middel van controlevragen. Door ons te richten op een beperkt gebied, is de kans groter dat de controlevragen goed werken.
Duidelijk! En tot slot, welk onderzoek zou je graag op panl willen uitvoeren zodra het platform live gaat?
Ik zou graag onderzoek doen dat sociaalwetenschappelijk en taalkundig onderzoek met elkaar verbindt. Bijvoorbeeld, onderzoeken hoe verschillende groepen (verschillende leeftijden, opleidingsniveaus, regio’s, in-group of out-group) berichten interpreteren als het gaat om het identificeren van hate speech, het bepalen of een tekst een standpunt ondersteunt of bekritiseert, of iets als positief of negatief wordt beschouwd. Het zou fantastisch zijn om hier samen met sociale wetenschappers aan te werken en voldoende deelnemers te hebben om te onderzoeken of er significante verschillen zijn in interpretaties van tekst op basis van dergelijke verschillen.
Ontzettend interessant! Ik kijk ernaar uit!

Empowering humanities with panl: a conversation with Antske Fokkens
For two previous blog posts, I interviewed the founders of panl, Martin Tanis and Ivar Vermeulen, both communication scientists. Now it’s time to turn our attention to Antske Fokkens. In addition to being a co-founder of panl, Antske is a computational linguist, a linguist who specializes in the computational modeling of language. Antske ensures that the platform – and its built-in functionalities – not only contribute to the social sciences but are also tailored for humanities scholars. What is Antske’s research focus? Why did she become involved with panl? And how can panl contribute to the humanities in the Netherlands? Read on for answers to these questions!
Antske, what is the focus of your research?
I’m interested in how language works and how we can model it using computers. Particularly with the language models that are widely used today, it’s important to understand what they’re actually learning. What kind of information do they absorb, and how do they utilize it?
Fascinating! And you conduct this research mainly in an interdisciplinary context, right?
That’s correct! Researchers who want to utilize language technology need to have a good understanding of what these models can and cannot do well, as well as the systematic errors they make. An interdisciplinary context is essential for my research.
How did you find yourself in this research field in the first place?
I started with a program in Science du Language (general linguistics) in France and discovered that elective courses in computational linguistics resonated with me. Given my love for mathematics, it wasn’t much of a surprise. After completing my education in France, I pursued an MSc in Language Science and Technology in Saarbruecken, where I also conducted my doctoral research. I was interested early on in the methodological question: “How can we truly know what works best?” However, the topic at that time was highly theoretical, involving the implementation of linguistically motivated grammars. In 2012, I started working as a postdoc at the Vrije Universiteit, where my task was to develop language technology for historical research. That marked the beginning of my interdisciplinary collaborations: understanding what the historian needed for the project, figuring out the best way to achieve it, and explaining the potential issues that the results could present. Since then, I have approached language technology in a similar way, collaborating not only with historians but also with communication scientists, philosophers, and jurists. And, of course, with linguists and computer scientists!
What motivates you the most to delve into these subjects and engage in these collaborations?
Language is fascinating. For me, the computational approach provides an interesting framework for examining language, from accurately modeling it when implementing grammars to investigating what statistical models actually capture. Thanks to the interdisciplinary approach, I have the opportunity to learn from other fields and expand the impact of my research. This, in turn, leads to new questions.
Do you have an example of such a new question?
Absolutely. For instance, what is the influence of the definition of hate speech on the data and models used to detect it?
Interesting! And it seems challenging as well. What are the challenges in gaining insights into such a question?
In our research, we often encounter the challenge of needing information on how people interpret language: what exactly does it say? Which names are mentioned? Is this tweet hate speech or simply a critical comment? For effective language technology, we require people who can annotate text, explicitly marking the information within it. For example, indicating “this is a proper name” or “this tweet is hate speech, but this one is not.” However, it is difficult to find enough Dutch speakers who can provide this input.
That’s also why I was immediately excited when Ivar and Martin told me about their proposal for a platform like panl (read here how panl’s initiative started with Martin and how Ivar became involved with panl early on). Through panl, we can recruit participants for crowd annotations, making it easier to find enough Dutch speakers who can provide the necessary input and create datasets for the Dutch language.
So you became involved with panl because you recognized the need for such a platform in your own research field. But what about the humanities in general? What do you think panl can contribute?
The humanities encompass a wide range of disciplines, so I can only speak for a portion of the humanities. The areas I deal with often revolve around interpretation, and there are many scenarios where this interpretation needs to come from individuals who understand the Dutch language and/or culture. There is also research on learning Dutch as a foreign language and on cultural differences that require access to people who have migrated to the Netherlands. In short, there is research in which we need people who reside in the Netherlands and/or speak Dutch.
Are there any potential risks or disadvantages for humanities scholars when using a platform like panl?
For some forms of research, the risks are low. In many tasks that involve annotating text, for example, we need people who can read the content, and we can control the quality. Similar to social sciences, there can also be studies where it’s important for participants to have a certain background (e.g., for researching dialects, it may be crucial for the participants’ parents to have the dialect as their first language). In such cases, it’s essential that the research participants indeed possess that background to ensure data quality.
How does panl address this?
There is a control mechanism in place to ensure that we only have participants from the Netherlands. Additionally, it’s partially possible to filter participants based on the quality of their annotations or through control questions. By focusing on a specific area, there is a higher likelihood of control questions working effectively.
Understood! And finally, what kind of research would you like to conduct on panl once the platform goes live?
I would love to conduct research that bridges social sciences and linguistics. For example, exploring how different groups (varying in age, educational levels, regions, in-group or out-group) interpret messages when it comes to identifying hate speech, determining whether a text supports or criticizes a standpoint, or assessing whether something is considered positive or negative. It would be fantastic to work on this together with social scientists and have enough participants to investigate if there are significant differences in text interpretations based on such variations.
Leave a Reply