Waarom we meer statistical power (en dus panl) nodig hebben

*Scroll down for English*

Een van de redenen waarom wij denken dat de Nederlandse onderzoeksgemeenschap een platform zoals panl nodig heeft, is omdat de eisen die we (terecht) stellen aan statistical power steeds strenger worden. Met andere woorden: om op een gedegen manier onderzoek te kunnen doen bij proefpersonen, hebben we veel participanten nodig—vaak veel meer dan we via onze eigen kanalen (bijvoorbeeld met behulp van onze studenten of sociale media) kunnen werven. En zeker als die participanten kennis moeten hebben van de Nederlandse taal, cultuur of maatschappij kan dat wel eens een heel lastige opgave zijn. 

Voor wie geen zin heeft om de beschouwingen over effect sizes en sample sizes hieronder te lezen, een samenvatting:

  • Voor een experiment met twee condities heb je al gauw 172 deelnemers nodig!
  • Voor een 2×2 (between-subject) experiment heb je al gauw 623 deelnemers nodig!
  • Voor een correlationele studie heb je al gauw 181 deelnemers nodig!
  • panl maakt het makkelijker om veel deelnemers voor je onderzoek te werven.

Als ik het over statistical power heb, voel ik me altijd een beetje als Christopher Walken uit de “More Cowbell” sketch van Saturday Night Live. Hoe hard Will Ferrell ook op de koebel ramt in de opnamestudio, Walken komt steeds weer binnenstormen: “We need more cowbell!” Zo is het ook met power. Elke paar jaar realiseren we ons dat we nog meer power (en dus nog meer proefpersonen) nodig hebben dan we eerst dachten.

Ik doe zelf veel experimenteel onderzoek. Vóór pakweg 2011 waren “wij” experimentele onderzoekers al tevreden over onszelf als we 30 proefpersonen per conditie verzamelden. Een 2×2 experiment met N=120 leek zo’n beetje de standaard voor gedegen onderzoek, en zelfs zeer kritische papers noemden N=20 per conditie als het (zij het absolute) minimum. 

Daarna gingen de normen snel omhoog: na een paar jaar (tenminste op mijn afdeling) een “vinger in de lucht” aantal van N=50 per conditie te hebben gebruikt, gingen veel onderzoekers over op a priori power analyse met behulp van G*Power. G*Power gaf (en geeft nog steeds) N=64 per conditie aan voor een experiment met twee condities, als alle standaardopties zijn aangevinkt (voor de liefhebber: d=.5, α=.05, power=.8 bij tweezijdige toetsing). Maar zijn die standaardopties wel realistisch? 

Een gemiddelde effectgrootte in psychologisch onderzoek is waarschijnlijk een stuk lager dan d=.5 (hier bijvoorbeeld geschat op d=.43). Dan zou je volgens G*Power al 86 proefpersonen per conditie nodig zou hebben, dus 172 in totaal. Voor wat meer zekerheid (power = .95) verschuift de norm naar 142 proefpersonen per conditie. En dan moet je je natuurlijk afvragen of het effect dat jij onderzoekt wel “gemiddeld” van sterkte is. Ben je niet toevallig op zoek naar een wat subtieler effect? Met d=.3 heb je N=176 nodig, met d=.2 wordt het N=394—opnieuw: per conditie, dus keer twee!

Voor ingewikkelder onderzoeksdesigns is het nog veel erger: neem het welbekende 2×2 design. Ook hierbij geven de standaardinstellingen van G*Power in eerste instantie een geruststellend resultaat: bij de standaard d=.5 (in G*Power vertaald naar f=.25) heb je voor een 2×2 experiment maar 128 mensen nodig; 32 per conditie, en precies evenveel als voor een experiment met twee condities en d=.5. Maar klopt dat wel?

Het addertje onder het gras is dat een effectgrootte van d=.5 voor een interactie-effect eigenlijk heel onwaarschijnlijk is. Veel aannemelijker is het dat jij verwacht dat bijvoorbeeld een “gemiddeld” effect van d=.43 zich in de ene conditie wel voordoet, en in de andere conditie niet (i.e., d=0) of minder sterk (i.e., d=.1). In het eerste geval wordt de grootte van het interactie-effect d=.215 (de helft van het verschil) en heb je volgens G*Power 623 proefpersonen nodig voor een power van .8. In het tweede geval wordt de grootte van het interactie-effect d=.165, en heb je 1170 deelnemers nodig. Voor een simpele 2×2. Ai.

Voor correlationele onderzoeksdesigns is de situatie wel wat beter. Ik gebruik meestal de “Corridor of stability” benadering van Schönbrodt en Perugini (2013), die laat zien dat als je een gemiddeld effect (rho = .4) met een redelijke precisie (w=.1)  wil meten, je bijvoorbeeld 181 respondenten in totaal nodig hebt. Dat is misschien nog te doen. Maar als de effecten waarin je geïnteresseerd bent kleiner zijn, worden hier de aantallen ook al snel wat hoger.

Er zijn wel wat oplossingen voorhanden die het aantal benodigde deelnemers omlaag kunnen brengen: in sommige gevallen is het mogelijk om experimenten uit te voeren met within-subject designs, waarin je respondenten verschillende keren aan stimuli blootstelt. Het aantal benodigde proefpersonen neemt dan enorm af (bijvoorbeeld N=45 voor een gemiddelde effect size van d=.43 en een power van .8!). Maar deze experimenten zijn soms voor deelnemers nogal doorzichtig (“en wat vind je van dezelfde reclame mét achtergrondmuziek?”) en dus niet altijd geschikt. In andere gevallen kan je proberen je stimuli zo vorm te geven dat ze grote effecten hebben: opvallende, expliciete, in-your-face stimuli dus. Vaak zullen zulke stimuli echter weinig overeenkomsten vertonen met het dagelijks leven (= lage externe validiteit), en daarom minder wenselijk zijn. In veel gevallen zul je de power van je onderzoek dus echt moeten halen uit een groot aantal deelnemers.

Om deze reden zijn veel onderzoekers in Nederland overgestapt op het gebruik van platforms zoals Prolific en MTurk om efficiënt deelnemers voor hun onderzoek te werven. Een groot nadeel is natuurlijk dat zulk onderzoek dan niet over de Nederlandse taal kan gaan, of over de Nederlandse cultuur of maatschappij. Deelnemers die daar kennis van hebben zijn op beide Engelstalige platforms niet veel aanwezig. En daarom alleen al hebben we dus een Nederlands platform nodig om deelnemers aan onderzoek te werven.

Why we need more statistical power (and therefore panl)

One of the reasons we think the Dutch research community needs a platform like panl is because the requirements we apply to statistical power are getting higher. In other words, to study subjects in a reliable way, we need a lot of participants—often much more than we are able to recruit through our own channels (for example, with the help of our students or social media). Especially if those participants are required to know the Dutch language, culture or society, that can be a very difficult task.

For those who do not feel like reading the musings on  effect sizes and sample sizes below, a summary:

  • For an experiment with two conditions you easily need 172 participants!
  • For a 2×2 (between subject) experiment you easily need 623 participants!
  • For a correlation study you easily need 181 participants!
  • panl makes it easier to recruit a lot of participants for your research.

When I talk about statistical power, I always feel a bit like Christopher Walken from Saturday Night Live’s “More Cowbell” sketch. No matter how hard Will Ferrell bangs on the cowbell in the recording studio, Walken keeps crashing in: “We need more cowbell!” It is the same with power. Every few years, we realize that we need even more power (and therefore even more research subjects) than we initially thought.

I do a lot of experimental research myself. Before, say, 2011, “we” experimental researchers were already satisfied with ourselves if we collected 30 subjects per condition. A 2×2 experiment with N=120 seemed pretty much the standard for solid research, and even highly critical papers mention N=20 per condition as the (be it the absolute) minimum.

Soon after, standards started to  rise rapidly: After a few years of using a random ballpark  number of N=50 per condition (at least in my department) , many researchers started to employ a priori power analysis using G*Power. G*Power suggested (and still suggests) to use N=64 per condition for a two-condition experiment, in case all default options are checked (for the stats enthusiast: d=.5, α=.05, power=.8 for two-tailed test). But are those standard options realistic?

An average effect size in psychological research is probably much lower than d=.5 (here for example estimated at d=.43). This means, according to G*Power, that you would need 86 test subjects per condition, or 172 in total. For a bit more certainty (power = .95), the standard would shift to 142 subjects per condition. And then of course you have to ask yourself whether the effect you are investigating is indeed “average” in strength. Aren’t you by any chance looking for a more subtle effect? With d=.3 you would already need N=176, and with d=.2 N=394 participants—again: per condition, so times two!

For more complicated designs it is even worse: take the well-known 2×2 design. The standard settings of G*Power may also initially yield a reassuring estimate: with the standard d=.5 (translated to f=.25 in G*Power) you would only need 128 people for a 2×2 experiment; 32 per condition: exactly the same number as for an experiment with two conditions and d=.5. But is that estimate correct?

The catch is that an effect size of d=.5 for an interaction effect is actually unlikely large. It is much more plausible that you would expect, for example, that an “average” effect of d=.43 would occur in one condition, while no (i.e. d=0) or a much weaker effect (i.e. d=.1 ) would occur in the other condition. In the first case, the size of the interaction effect becomes d=.215 (half the difference) and, according to G*Power, you would need 623 participants to obtain a power of .8. In the second case, the size of the interaction effect becomes d=.165, and you would need 1170 participants. For a simple 2×2. Ouch.

The situation is somewhat better for correlational designs. I normally use the “Corridor of stability” approach of Schönbrodt and Perugini (2013), which shows that if you want to observe an average-size effect (rho = .4) with a reasonable precision (w = .1), you would need 181 respondents in total. That number seems possible to achieve. But if the effect sizes you are interested in are smaller, this number will quickly rise as well. 

There are some solutions that can reduce the number of participants needed for studies: in some cases it is possible to conduct experiments with within-subject designs, in which you expose respondents to stimuli several times. The number of subjects needed then decreases significantly (e.g. only N=45 for an average effect size of d=.43 and a power of .8!). But these experiments are sometimes quite easy to see through for participants (“and how would you evaluate the same commercial with background music?”) and are therefore not always suitable. In other cases you can try to develop your stimuli in such a way that they have strong effects: i.e., striking, explicit, in-your-face stimuli. However, such stimuli will often show little resemblance to everyday life (= low external validity), and are therefore often less desirable. In many cases, you will really have to build the power of your research on a large number of participants.

For this reason, many researchers in the Netherlands have switched to using platforms such as Prolific and MTurk to efficiently recruit participants for their research. A major disadvantage of using these platforms is, of course, that your research cannot be about the Dutch language, or about Dutch culture or society. Participants who have knowledge about these topics are not sufficiently present on these English-language platforms. For that reason alone, we need a Dutch platform to recruit participants for our research.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Create a website or blog at WordPress.com

%d bloggers like this: