Hypoteesin testaus – Fisher ja Neyman-Pearson

Frekventistinen tilastotiede Ei kommentteja

Frekventistisen tilastotieteen näkökulmasta on hyödyllistä ymmärtää kahden eri hypoteesi testauksen pääpiirteet – Fisherin ja Neyman-Pearsonin menetelmät. Nykyisin lähes universaalisesti käytetty tilastollinen menetelmä nollahypoteesin merkitsevyyden testaus on epälooginen yhdistelmä näitä kahta ja sen heikkouksien ymmärtäminen on oleellinen osa hyvää tilastollista päättelyä.

Fisherin menetelmä

Ronald Aylmer Fisher oli brittiläinen tilastotieteilijä, jota on pidetty modernin tilastotieteen pioneerinä ja uranuurtajana. Hän kehitti ja loi pohjan lukuisille tilastotieteellisille menetelmille ja näkemyksille, joita edelleen nykyään käytämme lääketieteellisessä tutkimuksessa. Mielenkiintoinen huomio on, että Fisher työskenteli maatalouden parissa ja tutki muun muassa satojen tuottavuutta.

Fisherin hypoteesin testausmenetelmässä ensin määritetään käytettävä tilastollinen testi. Tämä riippuu tutkimusasetelmasta ja mitattavasta suureesta. Jos tutkimuksessa määritetään esimerkiksi keskiarvoja, on t-testi luontainen valinta. Tämän jälkeen asetetaan hypoteesi, joka tietysti riippuu käytettävästä tilastollisesta testista. Käytettäessä t-testiä, hypoteesi voi olla esimerkiksi ryhmien keskiarvojen erotuksen yhtäsuuruus tai tietty ryhmän keskiarvo.

Tämän jälkeen kerätään aineisto. Aineiston keräämisen jälkeen määritetään todennäköisyys havaita kyseinen aineisto olettaen, että hypoteesi on totta. Toisin sanoen tämä tarkoittaa määritetyn tilastollisen testin tilastollista merkitsevyyttä eli p-arvoa.

Lopuksi tulkitaan saatua p-arvoa eli tilastollista merkitsevyyttä. Ainoa mahdollinen toimenpide, joka voidaan tehdä Fisherin viitekehyksessä on hypoteesin hylkääminen. Hylkääminen tarkoittaa, että havaittu aineisto on varsin epätodennäköinen ollakseen hypoteesin mukainen ja hypoteesi voidaan hylätä. Jos hypoteesi esimerkiksi oletti, että keskiarvot ovat yhtä suuret, päätelmä on tällöin, että aineiston perusteella keskiarvot eivät ole yhtä suuret eli hypoteesi hylätään. Toinen vaihtoehto toimia on olla hylkäämättä hypoteesiä. Tämä ei kuitenkaan tarkoita, että hypoteesi olisi totta, sitä ei vain voitu hylätä. Tällöin pitää esimerkiksi kerätä suurempi aineisto.

Yksi keskeisimpiä huomioita p-arvon osalta Fisherin menetelmässä on subjektiivinen tulkinta tilastollisen merkitsevyyden osalta. Modernissa lääketieteessä tilastollisen merkitsevyyden eli p-arvon raja on lähes universaalisesti 0.05. Tämä ei kuitenkaan pohjaa mihinkään logiikkaan tai objektiiviseen faktaan. Raja-arvo on todennäköisesti peräisin Fisherin varhaisista töistä, joissa hän totesi seuraavaa

Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore entirely all results which fails to reach this level. A scientific fact should be regarded as experimentally established only if a properly designed experiment rarely fails to give this level of
significance.

R.A. Fisher (1926)

Fisherin kuvaama hypoteesin testausmenetelmä oli siis melko suoraviivainen. Keskeistä on huomata, että Fisherin menetelmässä ei puhuta tilastollisesta voimasta eikä tyypin 1 ja 2 virhetasoista. Fisherin menetelmän keskeinen ideologia on löytää ilmiöitä ja tehdä havaintoja, jotka vaativat tarkempaa tutkimista. Fisher itse korosti myös, että p-arvoa pitää tarkastella aina aikaisempaan kirjallisuuteen suhteuttaen.

Neyman-Pearsonin menetelmä

Jerzy Neyman ja Egon Pearson kehittivät oman hypoteesin testausmenetelmänsä samoihin aikoihin kuin R.A. Fisher kehitti omia menetelmiään tieteellisessä ja tilastollisessa päättelyssä. Neyman-Pearson (NP) -menetelmä on ideologialtaan erilainen kuin Fisherin menetelmä ja Fisher sekä Neyman ja Pearson kävivät vuosikymmenien aikana kiivasta väittelyä menetelmiensä välillä.

Keskeisin ero Fisherin menetelmään on hypoteesitestauksen ajallinen tulkinta. Fisherin menetelmää voidaan käyttää kertaluontoisesti yhteen tiettyyn kokeeseen tai testiin. NP-menetelmän keskeinen oletus on, että sama koe tai testi toistetaan lukuisia kertoja peräkkäinen samankaltaisena.

NP-menetelmässä tutkija asettaa ensin oletetun populaation vaikutuskoon. Tämä edellyttää sekä tutkimushypoteesin että vaihtoehtoisen hypoteesin asettamisesta. Käytännössä hypoteesit ennustavat esimerkiksi kahdelle ryhmälle keskiarvot ja vaikutuskoko tarkoittaa näiden keskiarvojen erotusta. Tutkimushypoteesi voi esimerkiksi olettaa, että ryhmien välinen ero on 0 ja vaihtoehtoinen hypoteesi voi olettaa, että ero on 2.

Tämän jälkeen tutkija määrittää käytettävän testin, joka perustuu Fisherin tapaan mitattaviin muuttujiin. Lisäksi tutkijan pitää määrittää haluttu tyypin 1 ja 2 virhetaso. Kuten edellä mainittua NP-menetelmän keskeisin oletus on, että sama koe toistetaan lukuisia kertoja peräkkäin. Tämä tarkoittaa, että tutkimushypoteesi hylätään tai hyväksytään monta kertaa ajan kuluessa. Tyypin 1 virhetaso tarkoittaa tilannetta, että tutkimushypoteesi hylättiin vaikka se oli totta. Toisin sanoen vaihtoehtoisen hypoteesin oletettiin olevan virheellisesti totta eli ryhmien välillä todettiin olevan ero vaikka sitä ei todellisuudessa ollut. Tämä on myös ns. väärä positiivinen tutkimuslöydös.

Tyypin 2 virhetaso tarkoittaa, että tutkimushypoteesia ei hylätä vaikka se ei oikeasti ole totta. Toisin sanoen vaihtoehtoinen hypoteesi olisi pitänyt hyväksyä eli ryhmien välillä ei todettu olevan eroa vaikka se todellisuudessa olikin. Tämä on myös ns. väärä negatiivinen.

NP-menetelmässä tutkijan pitää asettaa edellä kuvatut virhetasot ennen tutkimuksen suorittamista. Klassisesti tyypin 1 virhetaso asetetaan 5%:iin ja 2 virhetaso 20%. Tämä tarkoittaa, että jos ryhmien välillä on todella 2 yksikön ero, se havaitaan 4 kertaa 5 kokeessa. Jos ryhmien välillä ei ole eroa, se havaitaan 19 kertaa 20 kokeessa eli yhden kerran kahdestakymmenestä saamme virheellisesti tuloksen, että ryhmien välillä olisi 2 suuruinen ero. Lopuksi tutkijan pitää laskea vaadittava otoskoko, jotta edellä kuvatut virhetasot ja vaikutuskoko ovat voimassa.

NP-menetelmää ei suunniteltu alunperin kertaluontoisten kokeiden suunnitteluun. Sen ideaalinen käyttökohde oli teollisuuden tarpeet, jossa tehdään peräjälkeen identtisiä testejä ja kokeita. Klassinen esimerkki on ruuvitehtaan laadunvalvonta. Jokaisesta valmistuserästä valitaan tietty määrä ruuveja tarkempaan testaukseen. Testissä selvitetään esimerkiksi ruuvien halkaisija. Sen pitäisi olla 1 millimetri virhemarginaalin ollessa 0.1 millimetriä. Näin ollen asetamme halutuksi vaikutuskooksi 0.1 mm. Tämän jälkeen jokaisesta laatikosta otetaan sen verran ruuveja testiin, että meillä on haluttu tyypin 1 ja 2 virhetaso. Jos otoksessa keskiarvo on yli 1.1 mm tai alle 0.9 hylkäämme kyseisen erän. Keskiarvon jäädessä näiden väliin, erä päästetään myyntiin. Toisaalta linjastolta ei saisi päästä ulos väärän kokoisia ruuveja, mutta toisaalta ei ole mielekästä hylätä liian herkästi ruuvierää, koska tästä syntyy hävikkiä. Näin kun toistamme tilastollista testiä eli tietyn otoksen toistamista haluamme minimoida sekä väärät positiiviset että väärä negatiiviset.

Seuraavaksi

Edellä on kuvattu siis kahden eri hypoteesin testaus menetelmän perusteet. Tämä on edellytys, jotta ymmärtää näistä kahdesta menetelmästä aikojen kuluessa syntyneen nollahypoteesitestauksen perusteet.

Kirjoittanut Aleksi Reito, vertaisarvioinut Lauri Raittio ja Ville Ponkilainen

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 2

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *