Waarom we meer statistical power (en dus panl) nodig hebben

Een van de redenen waarom wij denken dat de Nederlandse onderzoeksgemeenschap een platform zoals panl nodig heeft, is omdat de eisen die we (terecht) stellen aan statistical power steeds strenger worden. Met andere woorden: om op een gedegen manier onderzoek te kunnen doen bij proefpersonen, hebben we veel participanten nodig—vaak veel meer dan we via onze eigen kanalen (bijvoorbeeld met behulp van onze studenten of sociale media) kunnen werven. En zeker als die participanten kennis moeten hebben van de Nederlandse taal, cultuur of maatschappij kan dat wel eens een heel lastige opgave zijn.

Voor wie geen zin heeft om de beschouwingen over effect sizes en sample sizes hieronder te lezen, een samenvatting:

Voor een experiment met twee condities heb je al gauw 172 deelnemers nodig!
Voor een 2×2 (between-subject) experiment heb je al gauw 623 deelnemers nodig!
Voor een correlationele studie heb je al gauw 181 deelnemers nodig!
panl maakt het makkelijker om veel deelnemers voor je onderzoek te werven.

Als ik het over statistical power heb, voel ik me altijd een beetje als Christopher Walken uit de “More Cowbell” sketch van Saturday Night Live. Hoe hard Will Ferrell ook op de koebel ramt in de opnamestudio, Walken komt steeds weer binnenstormen: “We need more cowbell!” Zo is het ook met power. Elke paar jaar realiseren we ons dat we nog meer power (en dus nog meer proefpersonen) nodig hebben dan we eerst dachten.

Ik doe zelf veel experimenteel onderzoek. Vóór pakweg 2011 waren “wij” experimentele onderzoekers al tevreden over onszelf als we 30 proefpersonen per conditie verzamelden. Een 2×2 experiment met N=120 leek zo’n beetje de standaard voor gedegen onderzoek, en zelfs zeer kritische papers noemden N=20 per conditie als het (zij het absolute) minimum.

Daarna gingen de normen snel omhoog: na een paar jaar (tenminste op mijn afdeling) een “vinger in de lucht” aantal van N=50 per conditie te hebben gebruikt, gingen veel onderzoekers over op a priori power analyse met behulp van G*Power. G*Power gaf (en geeft nog steeds) N=64 per conditie aan voor een experiment met twee condities, als alle standaardopties zijn aangevinkt (voor de liefhebber: d=.5, α=.05, power=.8 bij tweezijdige toetsing). Maar zijn die standaardopties wel realistisch?

Een gemiddelde effectgrootte in psychologisch onderzoek is waarschijnlijk een stuk lager dan d=.5 (hier bijvoorbeeld geschat op d=.43). Dan zou je volgens G*Power al 86 proefpersonen per conditie nodig zou hebben, dus 172 in totaal. Voor wat meer zekerheid (power = .95) verschuift de norm naar 142 proefpersonen per conditie. En dan moet je je natuurlijk afvragen of het effect dat jij onderzoekt wel “gemiddeld” van sterkte is. Ben je niet toevallig op zoek naar een wat subtieler effect? Met d=.3 heb je N=176 nodig, met d=.2 wordt het N=394—opnieuw: per conditie, dus keer twee!

Voor ingewikkelder onderzoeksdesigns is het nog veel erger: neem het welbekende 2×2 design. Ook hierbij geven de standaardinstellingen van G*Power in eerste instantie een geruststellend resultaat: bij de standaard d=.5 (in G*Power vertaald naar f=.25) heb je voor een 2×2 experiment maar 128 mensen nodig; 32 per conditie, en precies evenveel als voor een experiment met twee condities en d=.5. Maar klopt dat wel?

Het addertje onder het gras is dat een effectgrootte van d=.5 voor een interactie-effect eigenlijk heel onwaarschijnlijk is. Veel aannemelijker is het dat jij verwacht dat bijvoorbeeld een “gemiddeld” effect van d=.43 zich in de ene conditie wel voordoet, en in de andere conditie niet (i.e., d=0) of minder sterk (i.e., d=.1). In het eerste geval wordt de grootte van het interactie-effect d=.215 (de helft van het verschil) en heb je volgens G*Power 623 proefpersonen nodig voor een power van .8. In het tweede geval wordt de grootte van het interactie-effect d=.165, en heb je 1170 deelnemers nodig. Voor een simpele 2×2. Ai.

Voor correlationele onderzoeksdesigns is de situatie wel wat beter. Ik gebruik meestal de “Corridor of stability” benadering van Schönbrodt en Perugini (2013), die laat zien dat als je een gemiddeld effect (rho = .4) met een redelijke precisie (w=.1) wil meten, je bijvoorbeeld 181 respondenten in totaal nodig hebt. Dat is misschien nog te doen. Maar als de effecten waarin je geïnteresseerd bent kleiner zijn, worden hier de aantallen ook al snel wat hoger.

Er zijn wel wat oplossingen voorhanden die het aantal benodigde deelnemers omlaag kunnen brengen: in sommige gevallen is het mogelijk om experimenten uit te voeren met within-subject designs, waarin je respondenten verschillende keren aan stimuli blootstelt. Het aantal benodigde proefpersonen neemt dan enorm af (bijvoorbeeld N=45 voor een gemiddelde effect size van d=.43 en een power van .8!). Maar deze experimenten zijn soms voor deelnemers nogal doorzichtig (“en wat vind je van dezelfde reclame mét achtergrondmuziek?”) en dus niet altijd geschikt. In andere gevallen kan je proberen je stimuli zo vorm te geven dat ze grote effecten hebben: opvallende, expliciete, in-your-face stimuli dus. Vaak zullen zulke stimuli echter weinig overeenkomsten vertonen met het dagelijks leven (= lage externe validiteit), en daarom minder wenselijk zijn. In veel gevallen zul je de power van je onderzoek dus echt moeten halen uit een groot aantal deelnemers.

Om deze reden zijn veel onderzoekers in Nederland overgestapt op het gebruik van platforms zoals Prolific en MTurk om efficiënt deelnemers voor hun onderzoek te werven. Een groot nadeel is natuurlijk dat zulk onderzoek dan niet over de Nederlandse taal kan gaan, of over de Nederlandse cultuur of maatschappij. Deelnemers die daar kennis van hebben zijn op beide Engelstalige platforms niet veel aanwezig. En daarom alleen al hebben we dus een Nederlands platform nodig om deelnemers aan onderzoek te werven.