Tilastollisella voimalla on keskeinen merkitys tieteen toistettavuusongelmassa. Tämä on melko suoraviivainen näkökulma: tilastollinen voima on tutkimuksissa keskimäärin liian pieni, jotta mahdolliset löydökset ja ilmiöt voitaisiin löytää tutkimuksissa. Liian matala voima taas johtuu lähes yksin omaan pienestä otoskoosta.
Matala voima ei suinkaan ole mikään uusi ilmiö tai huolenaihe. Asiasta on kirjoitettu psykologian tutkimuksessa jo 1960-luvulta lähtien. Ilmiöstä on tullut erittäin ajankohtainen, kun toistettavuusnäkökulma on noussut hyvin suureksi keskustelun aiheeksi lääketieteen alalla. Alla on listattu muutamista katsauksista poimittuja lukuja keskimääräisestä tilastollisesta voimasta eri alojen tutkimuksissa. Yleensä “riittävän” tilastollisen voiman alarajaksi määritellään 80%. Lähteet löytyvät lukemistosta (B.1, B.2, C.2).
Psykiatria: 24-30%
Neurologia: 9-27%
Neurotieteet: 8-31%
Urheilukirurgia: 43-44%
Miksi tilastollinen voima tutkimuksissa on sitten pääsääntöisesti liian matala eli otoskoot ovat pieniä? Mitään yksiselitteistä vastausta asiaan ei luonnollisesti ole, koska siinä tapauksessa ongelmaa ei varmasti olisikaan nykyisessä mittakaavassa. Lisäksi taustasyyt ovat varmasti myös alakohtaisia.
Kaksi rakenteellista syytä voidaan matalalle voimalle kuitenkin esittää. Otoskokolaskut eli voima-analyysit ovat muodostuneet vasta 2000-luvulle tultaessa oleelliseksi ja pakolliseksi osaksi tutkimuksia, erityisesti satunnaistetuissa, vertailevissa tutkimuksissa. On luonnollista, että jos voima-analyysiä ei ole tehty asianmukaisesti vaan aineiston koko on perustunut arvaukseen, käytännöllisyyteen tai muuhun määrittämättömään syyhyn, otoskoko saattaa olla liian pieni ja voima matala kliinisesti merkitsevien löydösten toteamiseen.
Toinen syy liittyykin voima-analyysien tekemiseen. Looginen syy liian pienille aineistoille on se, että voima-analyysissä käytetään liian suurta oletettua vaikutuskokoa. Toisin sanoen tutkijat olettavat tutkittavan ilmiön olevan hyvin suuri, joka tarkoittaa, että pienempikin aineisto riittää, jos tutkittava ilmiö vain olisi totta.
Mihin perustuu väite matalasta voimasta?
On keskeisistä ymmärtää taustoja “endeemiselle matalalle voimalle”. Päätelmät matalalle voimalle perustuvat katsaustutkimuksiin, joihin on sisällytetty tutkimuksia, jostakin tietystä ainepiiristä. Yleensä tutkimuksista on kerätty tieto aineiston koosta tai potilaiden lukumäärästä tutkimuksessa. Tämän jälkeen on tehty “käänteinen voima-analyysi” tai retrospektiivinen voima-analyysi eli on tutkittu, kuinka suuri tilastollinen voima kullakin yksittäisellä tutkimuksella on ollut todeta tietyn suuruinen vaikutuskoko.
Valittu vaikutuskoko on taas perustunut yleensä kahteen eri menetelmään. Usein käytetään vakioitua keskiarvoerotusta eli Cohenin d-arvoa. Se kuvastaa, kuinka suuri muutos jatkuvassa muuttujassa on havaittu suhteessa muuttujan keskihajontaan aineistossa. Se luokitellaan yleensä pieneksi (d=0.2), keskisuureksi (d=0.5) tai suureksi (d=0.8). Usein 0.5 suuruinen vakioitu keskiarvoerotus on kuvattu “universaalisiksi” kliinisesti merkittäväksi arvoksi, koska hyvin monelle elämänlaatumittarille on todettu, että puolen keskihajonnan suuruinen muutos on usein potilaiden mielestä merkitsevä.
Jos analyysissä on siis käytetty vaikutuskokona Cohenin d-arvoa 0.5 se tarkoittaa, että jokaiselle tutkimukselle on laskettu sen voima havaita 0.5 suuruinen vakioitu keskiarvoerotus yksittäisessä tutkimuksessa mainitulla aineiston koolla. Tämän jälkeen raportoidaan kaikkien tutkimusten keskimääräinen voima havaita kyseinen vaikutuskoko.
Analyysissä voidaan lisäksi käyttää vaikutuskokoa, joka on poimittu saman alan meta-analyyseistä, kuin katsauksen yksittäiset tutkimukset. Voidaan ajatella, että laadukkaissa meta-analyyseissä raportoidaan “todellisia” vaikutuskokoja. Näitä vaikutuskokoja voidaan käyttää jälleen laskemaan “keskimäärinen voima” katsaukseen sisälletyille tutkimuksille.
Väitteet matalasta tilastollisesta voimasta perustuvat siis analyyseihin, jotka luonnollisesti jättävät tulkinnan varaa, eivätkä ne toki ole absoluuttisen oikeita. Lisäksi pitää aina huomioida eri tieteenalojen alakohtaiset eroavaisuudet vaikutuskokojen suhteen. On kuitenkin kiistatonta, että matala voima ja pienet aineistot ovat universaali ongelma lääketieteessä ja vaikuttavat oleellisesti toistettavuusongelmaan.
Matalan voiman ongelmat
Muutama asia matalan voiman ongelmista on hyvä käydä läpi. Luonnollinen seuraus matalasta voimasta on suuri tyypin II virhe. Se siis tarkoittaa, että tutkittava löydös tai ryhmien välinen ero on olemassa, mutta pieni aineisto ei pysty sitä havaitsemaan. Tämä ei automaattisesti ole huono asia, koska kirjallisuudessa on lukuisia esimerkkejä, joissa useat tutkimukset eivät ole tuottaneet selkeää löydöstä, mutta meta-analyysissä on havaittu vahva löydös. Toisaalta meta-analyyseihin liittyy myös omat ongelmansa eikä matalaa voimaa voi perustella vain sillä, että meta-analyysi “pelastaisi” ongelmalta. Tutkijoilla on velvollisuus suunnitella tutkimukset siten, että sillä on realistinen mahdollisuus havaita arvioitu vaikutuskoko.
Merkittävä ongelma on myös näiden ns. “negatiivisten” tutkimusten tulkinta. Hyvin usein tutkimuksesta, joka ei tuota tilastollisesti merkitsevää löydöstä tehdään päätelmät “eroa ei ollut” tai “yhteyttä ei ole”. Tämä ei ole koskaan oikea tulkinta. Tämä on varsin ongelmallista, jos ero tai yhteys olisikin ollut havaittavissa kunhan aineisto olisi ollut vain suurempi.
Kolmas ongelma liittyy löydösten ja todettujen vaikutuskokojen “inflatoitumiseen”. Jos aineiston koko on hyvin pieni, se tarkoittaa, että vain hyvin suuret vaikutuskoot kuten esimerkiksi erot ryhmien välillä tuottavat tilastollisesti merkitsevän löydöksen. Oletetaan esimerkiksi, että lääkeaineen teho eli valikoitu vaikutuskoko päänsärkyyn jatkuvalla kipuasteikolla on 0.15, joka on verrattain vähän. Jotta tämä ero kivussa voidaan havaita tutkimuksessa 80% voimalla ja 5% tyypin I virhetaolla, tutkimukseen tarvitaan 1398 (699+699) potilasta. Kuvitellaan, että tutkijat onnistuivat rekrytoimaan vain 800 potilasta eli 400 kumpaankin ryhmään. Satunnaisvaihtelu saa aikaan sen, että mikään tutkimus ei koskaan tuota samanlaisia tuloksia vaan mittaukset ja tulokset vaihtelevat todellisten arvojen ympärillä. Kuvitellaan edelleen, että lääkkeen teho onkin tällä aineistolla 0.20, joka on myös tilastollisesti merkitsevä löydös. Tämä löydös on ns. “inflatoitunut” eli se on 33% suurempi kuin todellinen lääkkeen teho. On selvää, että tämä voi olla huomattavakin ongelma varsinkin, jos kliinisesti merkitsevä vaikutuskoko olisi juuri tuo 0.20. Toisin sanoen matala voima sai aikaan, että tutkimustulos on “liian hyvä” ja potilaita saatetaan altistaa lääkkeelle, joka ei ole niin tehokas kuin tutkimus antaa ymmärtää.
Lopuksi
Tutkijoiden olisi erityisen tärkeää aina miettiä onko oletetun löydöksen tai vaikutuksen koko realistinen. Jos taas ennakko-oletus on, että löydöstä tai vaikutusta ei havaita, pitäisi miettiä antaako otoskoko riittävän tarkkuuden sen toteamiseen. Varsinkin suurien vaikutuskokojen kohdalla pitäisi olla kriittinen: jos kukaan ei ole aikaisemmin löydöstä raportoinut, voiko se todella olla olemassa juuri tässä aineistossa. Huomioiden kuinka runsaasti tutkimusta tehdään, ns. “low hanging fruits” eli ilmiselvät löydökset ovat nykyään varsin harvinaisia. Pääsääntöisesti vaikutuskoot, joita nykyään todetaan ovat yhä pienempiä ja pienempiä. Yksi nerokas lähestyminen voima-analyysiin on pohtia aihetta klassisen näkökulman sijaan, kuten ansioitunut tilastotieteilijä Stephen Senn on ehdottanut: mietitään minkä kokoinen löydös on pienin, jota ei haluta olla toteamatta ja tehdään voima-analyysi sen pohjalta. Jos kuitenkin tutkimuksen jälkeen todetaan, että voima ehkä jäi matalaksi, tämä pitää osoittaa selvästi päätelmissä eikä tehdä virheellisiä päätelmiä, kuten “eroa ei ollut” tai “vaikutusta ei havaittu”.