Toetstheorema van Neyman-Pearson


Het toetstheorema van Neyman-Pearson is een procedure om na te gaan of een statistische uitkomst voldoende gewicht heeft om daar harde conclusies aan te verbinden.

Terug naar woordenboek onderzoek methodologie en statistiekTerug naar woordenlijst

Als men onderzoek doet met behulp van een steekproef, zal de onderzoeker zich altijd af moeten vragen of hetgeen hij in zijn onderzoek vindt daadwerkelijk voor de hele populatie geldt. Hiervan kan men een 2x2-tabel maken. Op de ene dimensie staat: wel of geen verschil in de empirische werkelijkheid. Op de horizontale dimensie staat: wel of geen verschil geconstateerd in het onderzoek. Er kunnen nu twee soorten fouten worden gemaakt.
      De eerste: in werkelijkheid is er geen verschil maar uit het onderzoek trekt de onderzoeker de conclusie dat er wel een verschil is. Het trekken van een foute conclusie op de eerste vraag wordt de fout van de eerste soort genoemd. De kans op een fout van de eerste soort wordt bepaald door het op te stellen betrouwbaarheidsinterval zoals die in stap 3 van de toetsprocedure volgens Fisher is vastgelegd. Gewoonlijk wordt dat vastgelegd op α = .10; α = .05; α = .025; α = .01 of α = .001.
      De tweede: in de werkelijkheid is er wel een verschil, maar op basis van de resultaten uit het onderzoek trekt de onderzoeker de conclusie dat er geen verschil is? Het trekken van een foute conclusie op de tweede vraag wordt de fout van de tweede soort genoemd. De kans op een fout van de tweede soort wordt aangeduid met de letter ß. Het complement hiervan is de kans 1 - ß en dit wordt het onderscheidend vermogen of de power van de statistische toets genoemd (zie illustratie). Ook de ß is te berekenen: het wordt bepaald door de steekproefgrootte, het vastgestelde betrouwbaarheidsinterval en het gevonden verschil tussen A en B.

Het toetstheorema van Neyman-Pearson lijkt heel bruikbaar, en een goede aanvulling op het toetstheorema van Fisher. Men moet er echter voorzichtig mee zijn. In feite stelt men niet één hypothese op maar twee. Deze hebben gewoonlijk de vorm van:

Ho    gemiddelde   =   < waarde >
Ha    gemiddelde   =   < waarde>

Bijvoorbeeld, stel als nulhypothese ‘de lengte van de Nederlander is 186 cm’ en als alternatieve hypothese ‘de lengte van de Nederlander is 190 cm’. Indien men nu een steekproef trekt uit de Nederlandse bevolking en daaruit komt de waarde van 189, dan kan men de kanswaarde aangeven waarin men concludeert om de nulhypothese aan te nemen, respectievelijk om de alternatieve hypothese aan te nemen.
      Op zich is een uitkomst uit deze toetsprocedure niet zo interessant. Men had net zo goed voor de alternatieve hypothese een waarde van 196 cm kunnen nemen in plaats van 190 cm. Er  zijn dan ook talloze powerwaarden te berekenen. Daarom berekent men de power vaak achteraf: nadat uit de toetsprocedure van Fisher een significant verschil is gebleken, stelt men de power van de uitkomst vast.

Het is op zich vrij eenvoudig de power van een statistische uitkomst te beïnvloeden. In de illustratie worden drie situaties uitgebeeld. In de eerste situatie (figuur 2.2-a) is sprake van een zwakke power van de toets en in de tweede situatie (figuur 2.2-b) is er sprake van een sterke power als gevolg van het vergroten van de steekproef, en in de derde situatie (figuur 2.2-c) is sprake van een sterke power door het onderscheid groter te veronderstellen (zie illustratie).

De meeste statistiekboeken laten tabellen voor de ß achterwege. Cohen (1977) is een uitzondering: dit boek gaat alleen over poweranalyse. Het voert te ver om voor alle te onderscheiden analyses het onderscheidend vermogen van de analyse op te stellen; dit zou neer komen op het vertalen van het boek van Cohen. Daarom beperken we ons tot een voorbeeld.
      Stel eens dat er een vragenlijst is afgenomen onder twee groepen van elk 30 personen. De gegevens worden getoetst op een betrouwbaarheidsinterval van 90% (dit is α = .05 bij tweezijdige toetsing). Bij één van de vragen wordt er een statistisch significant verschil geconstateerd tussen beide groepen van 1/2 standaard deviatie. Indien er nu uitsluitend volgens het theorema van Fisher wordt getoetst zou de conclusie luiden dat er een significant verschil is. Indien de onderzoeker nu ook het theorema van Neyman-Pearson in zijn conclusie betrekt dan luidt de conclusie dat het weliswaar juist is dat er volgens het onderzoek er een significant verschil is op α = .05 niveau, maar dat het onderscheidend vermogen niet echt hoog is. Uit de tabel voor de power (Cohen, 1977, blz. 36) blijkt dat de power slechts 33% is; er is dus 67% kans dat de getrokken conclusie uit het onderzoek in werkelijkheid een verkeerde is.

© Foeke van der Zee / BMOOO - Woordenboek onderzoek, methodologie en statistiek

Zie ook:
- Toetstheorema van Fisher