Tilastollinen voima

Frekventistinen tilastotiede Ei kommentteja

Määritelmä

Tilastollinen voima (eng. statistical power) kuvaa todennäköisyyttä havaita tilastollisesti merkitsevä tulos, jos tietyn suuruinen ero ryhmien välillä on todella olemassa. Tämä sopii myös arkijärkeen: hyvällä tutkimuksella kuuluisi olla jonkilainen mahdollisuus löytää se ilmiö, jota tutkimus pyrkii selvittämään olettaen, että ilmiö on olemassa.

Tilastollinen voima, aineiston koko sekä oletetun ilmiön suuruus tai koko kuten esimerkiksi ryhmien välinen ero tai korrelaatio liittyvät kaikki yhteen. Mitä suurempi oletettu ryhmien välinen ero on, sitä suurempi todennäköisyys tietyn suuruisella aineistolla on havaita se, jos ero on todella olemassa. Toisaalta mitä suurempi on aineiston koko, sitä todennäköisemmin löytyy tietyn suuruinen ero, jos se on olemassa.

Tilastollinen voima on keskeinen käsite Neyman-Pearsonin hypoteesin testausviitekehyksessä eli kun samaa koetta tai testiä toistetaan lukuisia kertoja peräkkäin. Jos tilastollinen voima on 80%, se tarkoittaa, että samaa koetta tai testiä lukuisia kertoja peräkkäin tehdessä neljässä kokeessa viidestä havaitaan tilastollisesti merkitsevä löydös, jos se on olemassa. Yksittäisen kokeen kohdalla voiman käsite on siis hankala.

Tilastollinen voima on erityisen tärkeä tutkimuksen suunnitteluvaiheessa. Nykyisin ns. voima-analyysi (eng. power analysis) on keskeinen osa hyvää tutkimuksen suunnittelua. Voima-analyysin tarkoitus on määrittää otoskoko tutkimukselle. Sitä voidaan kutsua sen takia myös otoskokolaskuksi (eng. sample size calculation).

Voima-analyysi

Voima-analyysiä varten tarvitaan neljä muuttujaa, joista voidaan määrittää viides eli otoskoko. Kuten edellä todettiin, aineiston koko, oletetun löydöksen suuruus sekä voima liittyvät suoraan toisiinsa. Lisäksi tarvitaan määritelmä tilastollisen merkitsevyyden rajasta.

Voima-analyysiä varten tarvittava arvio “löydöksen suuruudesta” tarkoittaa käytännössä vaikutuskokoa (eng. effect size). Esimerkkejä vaikutuskoosta ovat standardoitu keskiarvojen erotus (eng. standardized mean difference, SMD), riskisuhde (eng. risk ratio) sekä vaarasuhde (eng. hazard ratio). Yleisimmin voima-analyysissä käytetään jatkuvia muuttujia ja vaikutuskokona standardoitua keskiarvoerotusta. Se tarkoittaa ryhmien keskiarvojen erotuksen ja muuttujan keskihajonnan suhdetta. Keskiarvoerotus on siis standardoitu keskihajonnalla. Muuttujan vaihtelu eli keskihajonta keskiarvonsa ympärillä vaikuttaa tilastollisen voiman suuruuteen ja sen huomioon ottaminen kuuluu osaksi tilastollisen voiman laskukaavaa. Mitä laajemmin aineiston arvot ovat levittäytyneet keskiarvonsa ympärille, sitä suurempi otos tarvitaan tietyn suuruisen eron eli “signaalin” löytämiseksi. Valitun muuttujan keskihajonta valitussa tarkasteluajankohdassa riippuu aineiston ominaisuuksista kuten tutkittavien samankaltaisuudesta sekä muuttujan ns. signaali-kohina -suhteesta. Voima-analyysissä tarvittavan keskihajonnan arvon valinta ei ole aina suoraviivaista ja yksinkertaista.

Tutkimuksessa voidaan selvittää esimerkiksi verenpainelääkkeen tehoa. Jos oletetaan varsinaista verenpainelääkettä saaneen ryhmän 1 systolisen verenpaineen keskiarvoksi 110 mmHg ja lumelääkettä saaneen ryhmän 2 keskiarvoksi 135 mm, on keskiarvoerotus täten 25 mm. Arvioidaan että verenpaineen keskihajonta aineistossa on 50 mmHg, joten standardoitu keskiarvoerotus 0.5. Tämä tarkoittaa, että ryhmien välinen erotus on “puolikas keskihajontaa”.

Voima-analyysiin ja otoskoon määrittämiseksi tarvitaan lisäksi arviot tyypin I ja II virhetasoista. Näistä käytetään usein myös symboleja α ja β, vastaavasti. Tyypin I virhe, eli tilastollisen merkitsevyyden raja asetetaaan lähes universaalisti arvoon 0.05. Jos ollaan aivan tarkkoja, Neyman-Pearson -viitekehyksessä ei aseteta tilastollisen merkitsevyyden rajaa vaan testisuureen raja-arvo. Koska jokaisella testisuureella on sitä vastaava p-arvo, voidaan puhua myös tilastollisen merkitsevyyden rajan asettamisesta. On keskeistä kuitenkin ymmärtää, että laskettu p-arvo ja tyypin virhetaso ovat täysin eri asioita.

Tyypin I virhe tarkoittaa nollahypoteesin eli H0:n todennäköisyysjakaumaa suhteessa tilastolliseen merkitsevyyteen. Jos H0 pitää kaikkien oletusten mukaisesti paikkansa, satunnaisvaihtelu saa aikaan, että keskimäärin 5 aineistoa 100:sta tuottaa ryhmien välisen eron, joka on tilastollisesti merkitsevä. Tyypin I virhe tarkoittaa siis todennäköisyyttä havaita tilastollisesti merkitsevä tulos vaikka nollahypoteesi pitäisi paikkansa. Tyypin II virhe tarkoittaa todennäköisyyttä havaita tilastollisesti ei-merkitsevä tulos, jos vaihtoehtoinen hypoteesi H1 on kuitenkin totta. Tilastollinen voima on sama kuin 100% – tyypin II virhetaso. Jos voimaksi on asetettu 80% se tarkoittaa, että tyypin II virhe on 20%. Virhetasot vaikuttavat suoraan aineiston kokoon, kun oletettu löydös pidetään samana. Mitä pienempi tyypin I virhetaso, sitä suurempi otoskoko tarvitaan. Mitä pienempi tyypin II virhetaso eli suurempi voima sitä suurempi otoskoko tarvitaan.

Esimerkki

Oletimme edellä, että ryhmän 1 verenpaineen keskiarvo oli 110 mmHg. Keskihajonnaksi oletimme 50 mmHg. Tämä on siis verenpaineen oletettu populaatio ryhmässä 1. Kun otetaan useita otoksia potilaita tästä populaatiosta, otosten keskiarvo on keskimäärin 110 mmHg ja keskihajonta keskimäärin 50 mmHg. Kun tietty määrä potilaita saa lääkettä ryhmän keskiarvo ei siis suinkaan ole joka kerta 115 vaan vaihtelee siis jakaumaoletusten mukaisesti. Sama pätee ryhmälle 2 oletimme, mutta keskiarvon on 135 mmHg ja keskihajonta siis sama 50 mmHg.

Kun testaamme lääkkeen tehoa, asetamme nollahypoteesin H0, joka sanoo että ryhmien välillä ei ole eroa. Tämä tarkoittaa, että oletamme ryhmien välisen eron noudattavan t-jakaumaa tietyllä vapausasteella. Vaihtoehtoinen hypoteesi H1 sanoo, että ryhmien ero on eri suuri kuin 0. Nollahypoteesin merkitsevyyden testauksessa (NHMT) ei ole suoraan määritelty voiman käsitettä vaan voima on Neyman-Pearson viitekehyksen toiminto. Näin ollen meidän pitää ottaa mukaan myös Neyman-Pearsonin mukainen vaihtoehtoinen hypoteesi, joka nyt olettaa että ero on 25 mmHg, kuten edellä totesimme. Vaikutuskoko on siis 0.5. H1:lla on vastaava jakaumaoletus, kuin H0:lla, mutta H1:n keskiarvo on eri.

Asetamme tilastollisesti voimaksi 80% ja tyypin I virhetasoksi 5%. Näin ollen tarvittava otoskoko on 64 potilasta per ryhmä eli yhteensä 128 potilasta. Tätä vastaava tilanne on kuvattu alla. H0:n testisuureen jakaumalla tietyn keskiarvoerotuksen oikealle puolelle jäävä alue tyypin I virhealue käsittää joko α% eli 5% tai α/2% eli 2.5% kaikista H0:n arvoista riippuen teemmekö yksi vai kaksisuuntaisen testin. Saman lukuarvon vasemmalle puolelle jäävä alue H1:n jakaumalla on tyypin II virhealue.

Kuvassa piirrettynä tyypin I ja II virheiden määritelmät. α tai α/2 ei mene koskaan päällekkäin β:n kanssa, vaan raja määräytyy aina tilastollisen merkitsevyyden eli valitun testisuureen “kriittisen arvon” mukaan. Mikäli voimaa halutaan kasvattaa otoskoon säilyessä samana täytyy arvoidun löydöksen koko nostaa eli käytännössä siirtää punaista jakaumaa enemmän oikealle.

Varsinaisessa kokeessa testaamme noudattaako aineisto nollahypoteesia eli lääkkeellä ei ole vaikutusta verenpaineeseen. Teoriassa siis “poimimme” arvon H0:n ennustaman testisuureen jakaumasta suorittamalla t-testin ryhmien välillä. Tulkitsemme tulosta eli testisuureen arvoa suhteessa ennalta asetettuihin virhetasoihin. Tyypin I virhetaso tarkoittaa sitä aluetta H0:n jakaumasta, jolloin hylkäämme H0:n eli oletuksen, että ryhmien välinen ero on 0. Käytännössä tämä tarkoittaa, että jos ryhmien välinen ero ylittää tietyn raja-arvon H0:n jakaumalla, oletamme, että H1 on voimassa.

Jos ryhmien ero ja sitä vastaava testisuure sijaitsee H0:n jakauman keskivaiheilla ja asettuu ääripäiden väliin, oletamme, että H0 on voimassa ja ryhmien välillä ei ole eroa. Toisaalta H1 saattaa olla voimassa, mutta koska luku sijaitsee H1:n jakauman virhealueella päättelemme, että ryhmien välinen ero ei ole nollasta poikkeava ja olemme oikeassa 4 kertaa viidestä.

Kuvitelussa kokeessa on saatu testisuureen arvoksi t=1.00, jota vastaa p-arvo 0.32. Tämä ei sijaitse kriittisen arvon oikealla puolella eikä siis ns. hylkäysalueella. Näin ollen H0 jää voimaan.

Jos saatu erotus asettuu H0 virhealueelle, hylkäämme nollahypoteesin ja oletamme, että H1 on voimassa. Toisaalta H0 voi silti olla voimassa, mutta olemme oikeassa kuitenkin 19 kertaa 20:stä eli 95% ajasta.

Huomioitavia asioita

Tilastollinen voima on siis NHMT:tä hyödyntävä käsite Neyman-Pearsonin viitekehyksessä. NP-viitekehyksessä kuvitellaan olevan useita peräkkäisiä tilastollisia testejä samanlaisella menetelmällä kerätyllä aineistolla. Kuten edellä mainittu, tyypin I virhetaso 5% tarkoittaa että 19 kertaa 20:sta olemme oikeassa, jos tutkittava ilmiö on ylipäänsä todettavissa ja voima on riittävä. Yleensä lääketieteellinen tutkimus tehdään vain kerran, joten voiman teoreettinen viitekehys ontuu, koska virhetasot ovat pitkän aikavälin keskiarvoja. Neymanin ja Pearsonin mukaan virhetasot kuvaavat väärien positiivisten ja väärien negatiivisten suuruutta. Virhetasot kuuluisi asettaa sen mukaan paljonko ajattelemme olevan kummankin virheen “hinta” pitkällä aikavälillä ja kumpaa haluamme optimoida. Onko parempi hylätä oikea löydös vai hyväksyä väärä löydös useammin? Kertaluonteisessa lääketieteellisessä kokeessa näillä ei ole juuri merkitystä.

Yksi keskeisimpiä haasteita otoskokoanalyysissä ja halutun tilastollisen voiman saavuttamisessa on oletetun vaikutuskoon määrittäminen. Tässä joudutaan aina tekemään jonkinlaisia kompromisseja. Kuvitellaan esimerkiksi satunnaistettu, vertaileva tutkimus, joka pyrkii löytämään eron ryhmien välillä plasman kolesterolipitoisuudessa. Asetetaan nollahypoteesiksi, että ryhmien välillä ei ole eroa ja vaihtoehtoiseksi hypoteesiksi, että ryhmien välillä on tietyn suuruinen ero.

Olennaista on kysyä minkä suuruinen eron tulisi olla. Kokemattomampi lääketieteen tutkija ajattelisi helposti, että “mikä tahansa ero” olisi varteenotettava. Kuitenkin, hyvin pienen eron löytämiseksi aineiston koko olisi erittäin suuri ja siten käytännön kannalta mahdotonta toteuttaa. Kuten todettu, mitä pienemmäksi oletettu vaikutuskoko asetetaan, sitä suurempi otoskoko tarvitaan, jotta tilastollinen voima pysyy samalla tasolla. Tutkimuksen suunnittelijan täytyy arvioida tapauskohtaisesti minkä suuruinen ero on mahdollinen ja mielekäs tutkittavassa ilmiössä. Lisäksi on aina syytä arvoida myös tutkimuksen toteuttamiskelpoisuutta.

Hypoteesin testaamisessa on ideologisessa mielessä kyse aina kyllä/ei-tyyppisestä kysymyksestä. Entä, onko tilastollisessa testaamisessa nollahypoteesiin mitään mielekkyyttä, esimerkiksi statiinin tapauksessa, jos sadat julkaistut tutkimukset puoltavat ryhmien välillä olevan eroa? Toisaalta, miksi olisimme statiinin kolesterolia laskevaa vaikutusta selvittävässä tutkimuksessa kiinnostuneita tyypin II virheestä, eli “hyväksyisin” nollahypoteesin (ei todettavaa eroa ryhmien välillä) olemassaolon, vaikka p-arvo sattuisi olemaan tilastollisesti ei-merkitsevä. Yksittäinen tutkimus ei kuitenkaan kumoa aikaisempien tutkimusten tuloksia, mikä on hyvin yleinen ongelma, jos keskiarvoerotus on oletettu liian suureksi.

Lisäksi on oleellista huomioida, että NHMT:ssa ei koskaan voi vahvistaa nollahypoteesia. Neyman-Pearsonin viitekehyksessä tämä on mahdollista, kuten edellä esimerkeissä on tehty. Lääketieteellisessä tutkimuksessa ei kuitenkaan lähes koskaan noudateta Neyman-Pearsonin viitekehystä. Päätelmä “ei eroa” ei ole siis koskaan mahdollinen NHMT:ssa. Ainoat päätelmät ovat joko nollahypoteesin hylkääminen tai hylkäämättä jättäminen. Jälkimmäinen ei tarkoita samaa kuin ryhmien yhtäsuuruus.

Dikotomiset muuttujat

Edellä on keskustelu tilastollisen voiman teoriasta vain jatkuvien, normaalijakaumaa noudattavien muuttujien ja löydösten näkökulmasta. Hyvin usein käytetään myös binaarisia eli dikotomisia muuttujia, kuten tietyn päätetapahtuman esiintyvyyttä. Tällöin voimalaskujen vaikutuskokona käytetään tietyn päätetapahtuman esiintyvyyttä. Otoskoko voidaan laskea esimerkiksi oletuksella, että toisessa ryhmässä kuolleisuus on 20% ja toisessa 30%. Muitakin tapoja on, kuten esimerkiksi ennakko-oletus toisen ryhmän esiintyvyydestä ja intervention aikaan saamasta vetosuhteesta. Samat matemaattiset riippuvuusuhteet pätevät otoskoon ja voiman välillä, käytettiinpä jatkuvaa tai binaarista muuttujaa.

Kaksi asiaa on erittäin tärkeää huomioida, kun voimalasku perustuu esiintyvyyksien vertailuun. On erittäin tärkeää raportoida arvioitujen esiintyvyyksien tarkat luvut eikä vain niiden erotusta. Mitä lähempänä ollaan prosenttiasteikon ääripäitä, sitä suurempi otoskoko tarvitaan tietyn esiintyyseron toteamiseen. Eli, jos arvioidut esiintyvyydet ryhmissä eri tutkimuksissa ovat 50% ja 60% sekä 0% ja 10%, jälkimmäisessä asetelmassa tarvitaan aina isompi otoskoko, jotta saadaan sama tilastollinen voima kuin ensimmäisessä asetelmassa.

Siinä missä jatkuvien muuttujien voima-analyysi on melko suoraviivainen ja tapahtuu yleensä samalla kaavalla, esiintyvyyksien kohdalla on useita erilaisia tapoja määrittää voima tietyille esiintyvyyksille. Eli, jos jokin tilasto-ohjelma antaa erilaisen otoskoon samoille prosenttiosuuksille kuin esimerkiksi jokin internetlaskuri, syynä on todennäköisesti se, että ne käyttävät eri menetelmää saman laskutoimituksen suorittamiseen.

Lopuksi

Tilastollinen voima kertoo kuinka suurella todennäköisyydellä tietyn suuruinen aineisto löytää tilastollisesti merkitsevän eron ryhmien välillä, jos se on olemassa. Tietyn kokoisella aineistolla on aina tietty voima ja tietty voima saavutetaan aina tietyn kokoisella aineistolla. NHMT:n mukainen tilastollinen päättely ei huomioi keskiarvoerotuksen realistisuutta tai aiempaa tutkimuskirjallisuutta oletettavasta keskiarvoerotuksesta. Tilastollinen voima ja voima-analyysi ovat määritelty vain Neyman-Pearson viitekeyksessä, kun NHMT perustuu enemmän Fisherin viitekehykseen hypoteesin testauksessa. Tämän takia voiman tulkinta on aina hieman haasteellinen frekventistisessä tilastotieteessä, jossa päättely nojaa erityisesti NHMT:een. Voima-analyysi on siis keskeinen osa laadukasta tutkimusta sen suunnitteluvaiheessa ja sen lainalaisuuksien ymmärtäminen on keskeistä, mutta tulosten tulkinnassa siitä ei ole hyötyä.

Kirjoittanut Lauri Raittio ja Aleksi Reito, vertaisarvioinut Ville Ponkilainen

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 4.5 / 5. Arvostelujen lukumäärä: 2

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *