Nollahypoteesin merkitsevyyden testaus

Frekventistinen tilastotiede Ei kommentteja

Suositeltava lukeminen ennen tätä artikkelia

Hypoteesin testaus – Fisher ja Neyman-Pearson

Määritelmä

Nollahypoteesin merkitsevyyden testaus (NHMT) on nykylääketieteessä keskeisin tilastotieteellinen menetelmä. NHMT:n keskiössä on p-arvon laskeminen. On tärkeä ymmärtää, että vaikka tutkija käyttäisi esimerkiksi logistisista regressiota analyysiä tutkimuksessaan, NHMT on keskeisessä osassa sitäkin.

Selkein esimerkki ja yleisin tilanne NHMT:n käytölle on ryhmien keskiarvojen vertaaminen. Tätä varten asetetaan ensin nollahypoteesi.

H{\scriptscriptstyle0}: \mu{\scriptscriptstyle1} = \mu{\scriptscriptstyle2} \Leftrightarrow \mu{\scriptscriptstyle1} – \mu{\scriptscriptstyle2} =0

Lähes universaalisesti nollahypoteesi olettaa, että ryhmien keskiarvot ovat yhtä suuret eli keskiarvojen erotus on 0. Tämän lisäksi asetetaan vaihtoehtoinen hypoteesi.

H{\scriptscriptstyle1}: \mu{\scriptscriptstyle1} {\not=} \mu{\scriptscriptstyle2} \Leftrightarrow \mu{\scriptscriptstyle1} – \mu{\scriptscriptstyle2} {\not=} 0

Jälleen lähes universaalisti vaihtoehtoinen hypoteesi olettaa, että ryhmien välinen ero on eri suuri kuin nolla eli keskiarvojen erotus on eri suuri kuin 0.

Tämän jälkeen lasketaan valitulla testillä p-arvo. Keskiarvoja vertailtaessa se lasketaan käyttämällä esimerkiksi Studentin tai Welchin t-testiä. Itse testi ei anna p-arvoa vaan testin antaman testisuureen pohjalta voidaan määrittää sitä vastaava p-arvo. Testisuureen ja siten p-arvon suuruuteen vaikuttavat erotuksen suuruus sekä aineiston koko; hyvin suurella aineistolla pienikin voi saada p-arvon alle 0.05 ja hyvin pienessä aineistossa suurikin ero voi saada p-arvon yli 0.05.

P-arvoon perustuen tehdään nollahypoteesin hylkääminen tai hylkäämättä jättäminen. Yleensä ennen analyysiä asetetaan tilastollisen merkitsevyden raja, joka on lähes universaalisti 0.05. P-arvoa tulkitaan tähän rajaan nähden ja tehdään edellä kuvatut toimenpiteet. Jos p-arvo on alle 0.05, voidaan hylätä nollahypoteesi ja todeta, että ryhmien keskiarvot eivät ole yhtäsuuret. Jos p-arvo on suurempi kuin 0.05 nollahypoteesiä ei voida hylätä. Tämä ei kuitenkaan tarkoita, että nollahypoteesi on totta. Tämä on vastaava tilanne kuin Fisherin hypoteesitestausviitekehyksessä.

Haasteet, ongelmat ja virhetulkinnat

NHMT on täynnä ongelmia, haasteita ja virhetulkintoja. Yksi keskeinen tilastolliseen päättelyn liittyvä ongelma on tilanteet, joissa nollahypoteesia ei voida hylätä. Tämä aihe on kuvattu laajemmin omassa aiheessaan.

Toinen merkittävä ongelma on se, että missään vaiheessa kukaan ei ole selkeästi määritellyt NHMT:n logiikkaa. Se on itsestään muotoutunut konsepti vailla virallista määritelmää ja se on epämääräinen yhdistelmä Fisherin ja Neyman-Pearson viitekehyksiä. Tämä liittyy erityisesti vaihtoehtoiseen hypoteesiin H1. Yleensä se määritellään, kuten yllä, mutta se voisi aivan olla mitä tahansa muuta kuin mitä nollahypoteesi olettaa. NHMT antaa vastauksen aina tutkimuskysymykseen vaikka H1 olisi määritelty millaiseksi vain.

NHMT:n logiikka on entistä hankalempi kun muistelemme Fisherin ja NP:n hypoteesin testausmenetelmiä. NP-menetelmässä on keskeistä määrittää tyypin 1 ja 2 virhetasot, koska menetelmä saman kokeen tai testin toistamiseen ja virhetasoilla pyritään minimoimaan väärät negatiiviset ja väärät positiiviset tulokset. Kuitenkin jokaiselle tilastotieteen kurssilla istuneelle on tuttu alla oleva kuva:

Ongelma piilee siinä, että kuinka usein tutkimamme koe tai testi todella suoritetaan monta kertaa peräkkäin identtisenä. Virhetasojen tulkinta on mielekästä vain tällaisessa viitekehyksessä. NHMT:ssa virhetasojen tulkinta ei tunnu loogiselta tai järkeenkäypältä. Lisäksi kaaviossa on ongelmana, että niissä usein mainitaan, että “nollahypoteesi on totta” tai “hyväksytään nollahypoteesi”. Tämä ei kuitenkaan ole koskaan mahdollista NHMT:ssa. Nollahypoteesi ei voida milloinkaan hyväksyä eikä olettaa olevan voimassa.

NHMT:ssa lähes aina tulkitsemme tuloksen kuitenkin NP-tyyppisesti varsin kategorisesti vaikka suoritamme vain yhden kokeen, kuten Fisherin menetelmässä. Emme hylkää nollahypoteesia tai sitten hylkäämme sen riippuen p-arvosta. Erittäin harvoin tutkimuksessa hypoteesin testaamiseen suhteudutaan kuten Fisher eli p-arvo kuvastaa aineiston suhdetta oletettuun nollahypoteesiin ilman selkeitä raja-arvoja.

Keskeinen ongelma liittyy myös tilanteeseen, kun päädymme hylkäämään nollahypoteesin johtuen matalasta p-arvosta. p-arvo lasketaan oletuksella, että kaikki taustaoletukset ovat totta. Nollahypoteesi on yksi näistä taustaoletuksista. Mistä tiedämme, että se on juuri nollahypoteesi joka aiheutti poikkeavan aineiston? Greenland & Chow kannustavat epäehdolliseen p-arvon tulkintaan. Kuvaaja on suomennettu alkuperäisjulkaisusta.

Suomennettu Greenland ja Chow (2019)

Grernlandin ja Chow’n viesti on, että koko aineiston tuottavaa prosessia pitäisi tarkastella kokonaisuutena eikä vain nollahypoteesin osalta.

NHMT ei myöskään huomioi mitenkään tutkimukseen liittyviä ennakkotodennäköisyyksiä. Kuuluisa astronomi Carl Sagan totesi aikanaan “extraordinary claims require extraordinary evidence“. Vuonna 2011 kuuluisa ja ansioitunut psykologi Deryl Bem julkaisi tutkimuksen, jossa hän osoitti menetelmillään, että selvännäkeminen (eng. extrasenosry perception) on kyky, johon ihminen pystyy. Ymmärrettävästi tutkimus sai aikaan valtaisan myrskyn ja toimi pontena nykyiseen keskusteluun tieteen toistettavuuskriisistä. Tutkimuksessa suoritettiin joukko tilastollisia testejä NHMT:n mukaisesti ja saavutetut p-arvot vaihtelivat välillä 0.01-0.05.

Tulokset siis tarkoittavat, että todennäköisyys havaita enemmän poikkeava testitulos vaihteli välillä 1-5%. Onko tämä todella riittävä marginaali hyväksymään havainto, joka on ristiriidassa kaiken käytännön logiikan ja kokemuksen kanssa?

Artikkelissa raportoitiin yhden kokeen vakioiduksi vaikutuskooksi eli Cohenin d -arvoksi 0.25, jota vastasi p-arvo 0.01, kun otoskoko yhteensä oli 100. Vastaavanlaiset lukemat voisivat olla hyvin mahdollisia kliinisessä kokeessa, jossa verrataan esimerkiksi uuden kalkkisalpaajan vaikutusta verenpaineeseen suhteessa lumelääkkeseen. Jos pohjaamme käytännön elämään, kumpi löydöksistä vaikuttaa todennäköisemmin “oikealta” eikä väärältä positiiviselta.

Jotta voimme laskea löydösten todellisen väärän tuloksen mahdollisuuden meidän pitää huomioida kummankin tutkimuslöydöksen ennakkotodennäköisyys. Ennakkotodennäköisyys sille, että selvännäkeminen on mahdollista voisi olla varmasti kokoluokassa yksi miljoonasosa. Toisaalta todennäköisyys sille, että uusi kalsiumsalpaaja todella vähentää verenpainetta voisi aiempaan kirjallisuuteen nojaten olla esimerkiksi 30%. Kyseiset arviot ovat vain teoreettisia, mutta suuntaa antavia kokoluokan osalta.

Voimme laskea kaikkia olemassa olevia tietoja hyödyntäen kummankin löydöksen väärän positiivisen mahdollisuuden (http://fpr-calc.ucl.ac.uk/).

Väärän positiivisen tuloksen mahdollisuus:
Selvän näkeminen: 99.999%
Kalkkisalpaajan teho: 29.2%

Nähdään, että ennakkotodennäköisyydellä on merkittävä vaikutus siihen, kuinka todennäköisesti tulos on oikea. Tätä ei huomioida mitenkään NHMT:ssa, joka on merkittävä heikkous. Kunhan testilöydös läpäisee “tilastollisen merkitsevyyden suodattimen”, se voidaan julistaa todelliseksi havainnoksi ilman suhteutusta ilmiön tai havainnon ennakkotodennäköisyyteen.

Lopuksi

Edellä on käyty läpi NHMT:n teoriaa sekä sen heikkouksia ja rajoituksia. Tämä ei ole kaiken kattava artikkeli aiheesta vaan lähinnä johdanto siihen mitä kaikkea ongelmia yleisimmin käytettyyn tilastollisen päättelyn työkaluun liittyy. Aiheesta on kirjoitettu satoja artikkeleita sekä katsauksia ja näihin kannattaa syventyä laajemman kokonaiskuvan saamiseksi.

Kirjoittanut Aleksi Reito, vertaisarvioinut Lauri Raittio ja Ville Ponkilainen

Aiheeseen liittyvät kertauskysymykset

Tutkimuksessa verrattiin kirurgista interventiota konservatiiviseen hoitoon. Intervention riskisuhde (RR) kuolemalle oli 0.62 (p=0.01). Mikä seuraavista väitteistä on totta?
Tutkimuksen nollahypoteesi H0 olettaa, että ryhmien keskiarvojen erotus = 0 eli ryhmien keskiarvot ovat yhtäsuuret. Vaihtoehtoinen hypoteesi H1 olettaa, että ero on eri suuri kuin 0. Aineiston perusteella valitulle testille p=0.04. Mitä voidaan todeta?
Tutkimuksen nollahypoteesi H0 olettaa, että lääkkeen vetosuhde (OR) päätetapatumalle = 1 eli lääkkeellä ei ole vaikutusta päätetapahtumaan. Vaihtoehtoinen hypoteesi H1 olettaa, että vetosuhde on eri suuri kuin 1. Aineiston perusteella valitulle testille p=0.23. Mitä voidaan todeta?
Tutkimuksessa verrattiin kahden ryhmän keskiarvoja. Niitä verrattiin Studentin t-testillä, joka olettaa, että ryhmien keskihajonnat ovat yhtä suuret. Toisen ryhmän hajonta oli kaksinkertaiseen ensimmäiseen verrattuna. p-arvo ryhmien väliselle keskiarvolle oli 0.01. Mitä voidaan päätellä?

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 4.2 / 5. Arvostelujen lukumäärä: 6

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *