Hypoteesin testauksesta estimointiin

Tilastollinen päättely Ei kommentteja

Johdanto

Lääketieteelliseen tutkimukseen liittyvä tilastollinen päättely on perinteisesti nojannut hypoteesin testaukseen perustuviin menetelmiin. Tätä ei yleensä suoraan korosteta tilastotieteen opetuksessa tai tieteellisissä tutkimuksissa, vaan hypoteesin testaus on usein tietynlainen perusoletus käytettyjen menetelmien pohjana. Hypoteesin testaukseen liittyy kuitenkin tiettyjä ongelmia, jotka liittyvät myös olennaisesti ns. tutkimushukkaan.

Hypoteesin testaus ei kuitenkaan ole ainoa mahdollinen lähestymistapa aineiston tilastolliseen analyysiin ja päätöksentekoon. Vaihtoehtoisia tapoja ovat esimerkiksi estimaatio sekä Bayesilainen tilastotiede. Tässä kirjoituksessa perehdytään nimenomaan estimointiin. Bayes on tyystin erilainen tapa tehdä tilastotiedettä ja siitä on kirjoitettu runsaasti muualla.

Hypoteesin testaus

Yleisin esimerkki hypoteesin testauksesta on ns. nollahypoteesin merkitsevyyden testaus. Sen perusteista on kirjoitettu kattavasti muualla Tilastokunto-sivustolla. Siinä tyypillisesti asetetaan ensin nollahypoteesi, kuten kahden ryhmän keskiarvojen oletettu yhtäsuuruus (H0: μAB) tai oletus, että kahden jatkuvan muuttujan välillä ei ole korrelaatiota (H0: ⍴AB=0). Tämän jälkeen asetetaan vaihtoehtoinen hypoteesi, joka yleisimmin olettaa, että ryhmien keskiarvot eivät ole yhtä suuret (H1: μA≠μB) tai, että kahden muuttujan välillä on olemassa korrelaatio (H1: ⍴AB≠0). Tämän jälkeen lasketaan havaintoaineiston perusteella p-arvo. Jos p-arvo on pienempi kuin ennalta sovittu raja-arvo, yleensä 0.05, nollahypoteesi hylätään ja oletetaan H1:n pitävän paikkansa. Tällöin päätellään usein, että hoidolla on vaikutusta. Jos p-arvo on suurempi kuin ennalta sovittu raja-arvo, todetaan, että nollahypoteesia ei voida hylätä. 

Hypoteesin testauksessa tilastollinen päättely perustuu kaksijakoiseen maailmankatsomukseen. Joko tilastollinen yhteys todetaan eli sen oletetaan olevan olemassa tai sitten oletetun tilastollisen yhteyden olemassaoloa ei voida osoittaa. Tämä ei ole kuitenkaan kovin käytännönläheinen tapa tehdä tilastollisia päätelmiä. Lääketieteessä ilmiöiden väliset yhteydet ja niiden voimakkuudet ovat käytännössä aina jatkumoita. Mikään vaikutus ei ole koskaan täysin joko-tai-tyyppinen, puuttuva tai kaksijakoinen. On tärkeää ymmärtää, että p-arvon rajaa 0.05 ei suinkaan tulisi pitää mystisenä raja-arvona, jonka perusteella voidaan todeta jonkin tilastollisen yhteyden olevan yhtäkkiä todellinen tai epätodellinen. Käytännöllisempi näkemys biolääketieteen monimutkaisessa maailmassa on ajatella, että kaikki vaikuttaa kaikkeen ja kyse on vain siitä minkä suuruisesta vaikutuksesta on kyse. 

Estimointi ja luottamusvälit

Estimointi on hypoteesin testausta käytännöllisempi tapa tehdä tilastollisia päätelmiä biolääketieteessä. Tutkittaessa erilaisia hoitovaikutuksia ja riippuvuussuhteita on siis käytännöllisempää ajatella, että jonkinlainen vaikutus tai yhteys on aina olemassa, kyse on vain siitä minkä suuruinen se on. Estimointi tarkoittaa parhaan arvion etsimistä jollekin päätemuuttujalle, kuten esimerkiksi ryhmien keskiarvojen väliselle erotukselle.

p-arvojen kanssa on tärkeää raportoida myös vaikutuskoko (eng. effect size). Esimerkiksi t-testiä käytettäessä vaikutuskoko on keskiarvojen erotus. Jos erotus jaetaan otoksen keskihajonnalla saadaan vakioitu keskierotus (standardized mean difference) eli Cohen d-suure. Monimuuttujamalleista voidaan taas raportoida vaikutussuureena vetosuhde tai vaarasuhde. Näiden yhteydessä tulisi aina raportoida vaikutussuureiden luottamusväli yleensä 95% leveydellä. Yleinen tapa, ei toki sinänsä väärä, on katsoa miten nollaefektiestimaatti, eli se vaikutuskoon arvo, joka kuvaisi vaikutuksen täydellistä puuttumista, sijoittuu luottamusvälille. Esimerkiksi jos t-testissä arvo 0 ei sijoitu keskierotuksen luottamusvälille, voidaan erotusta pitää tilastollisesti merkitsevänä. Vastaavasti veto- ja riskitiheyssuhteen (eng. odds ratio, hazard ratio) osalta tulkinta tapahtuu luvun 1 suhteen, joka vastaa kyseisissä malleissa vaikutuksen täydellistä puuttumista. Jos esimerkiksi vetosuhteen luottamusväli on 1.00 – 2.38, tätä tulosta vastaava p-arvo on tasan 0.05. Jos luottamusvälin alaraja menee alle 1 niin vastaavasti p-arvo kasvaa suuremmaksi kuin 0.05. Luottamusväli antaa siis saman tiedon kuin p-arvo, mutta kertoo sen käytännönläheisemmin. Luottamusvälien tulkinta päättelyn tukena on kuitenkin aina käytännönläheisempää kuin pelkät p-arvot.

Estimoinnilla tarkoitetaan päättelyä, joka nojaa luottamusvälien tulkintaan. Kyseessä ei ole uusi tai mullistava toimintatapa, koska p-arvo ja luottamusvälit ovat vain saman kolikon kaksi eri puolta, kuten ylempänä kuvattu. Kyse on ennen kaikkea tulkintatavasta ja siitä, miten luottamusvälejä hyödynnetään. Luottamusvälit ovat keskeinen osa tulosmuuttujien raportointia, mutta jos luottamusvälin tulkinta perustuu tilastollisen merkitsevyyden vahvistamiseen tai hylkäämiseen arvioimalla sitä, sisältyykö nollaefektiestimaatti luottamusväliin, vastaa tämä tulkintatapa läheisesti hypoteesin testausta, jolloin luottamusvälien tarjoamaa informaatiota ei ole onnistuttu hyödyntämään täysmääräisesti.

Estimointi päättelyn tukena 

Estimoinnissa päättely perustuu luottamusvälin tulkintaan eikä p-arvoja tarvitse raportoida periaatteessa ollenkaan. Tarkoitus on tulkinta luottamusvälejä joukkona sellaisia arvoja, joiden kanssa aineiston voidaan katsoa olevan valitulla luottamustasolla yhtenevä. Keskeistä on tulkinta näitä arvoja myös suhteessa kliinisesti tai potilaan kannalta merkityksellisiin arvoihin.

Estimoinnin hyvä puoli on myös se, että silloin vältetään yksinkertaistavat ja usein virheelliset tulkinnat tilastollisen yhteyden täydellisestä puuttumisesta, kuten “ryhmien välillä ei ollut eroa”, sillä tällaista johtopäätöstä ei voida vahvistaa perinteisen frekventistisen tilastotieteen keinoin. Jos tutkimuksessa ei havaita tilastollisesti merkitsevää löydöstä, hypoteesin testauksessa on perinteisesti todettu, että ryhmien välillä ei ollut eroa tai tilastollisesti merkitsevää eroa ei todettu. Jos tulosta tulkitaan estimoinnin näkökulmasta, niin tulosten osalta voidaan todeta esimerkiksi aineiston perusteella, että lääkkeen tehon osalta voidaan poissulkea 0.12 mmol/l suurempi lasku kolesteroliarvossa valitulla luottamustasolla, minkä perusteella tehon voidaan olettaa olevan vaatimaton.

Esimerkkejä päättelystä

Kuten edellä mainittu, yleisin tapa tehdä tilastollista päättelyä lääketieteellisissä tutkimuksissa on tukeutua p-arvoihin. PROTECTED TAVR -tutkimuksessa selvitettiin TAVI:n eli katetrin kautta tehtävän aorttaläppäkorjauksen turvallisuutta. Harvinaisena komplikaationa toimenpiteessä voi ilmetä aivoinfarkti läpän alueelta lähteneen emboluksen vuoksi. PROTECTED TAVR-tutkimuksessa verrattiin tavallista katetria ja katetria, jossa oli erityinen suojamekanismi estämään embolian syntymistä. Tutkimuksen päätulosmuuttuja oli aivoinfarkti 72 tunnin kuluessa toimenpiteestä.

Koeryhmässä aivoinfarktin sai 2.3% ja verrokkiryhmässä 2.9%. Riskiero oli -0.6% koeryhmän eduksi 95% luottamusvälin ollessa -1.7% – +0.5% ja p-arvon ollessa 0.3. Tutkijat totesivat, että suojamekanismilla ei ollut merkitsevää vaikutusta aivoinfarktin riskiin (“did not have a significant effect on the incidence of periprocedural stroke”, “the incidence of procedural complications was similar”).

Edellä kuvattu tilastollinen päättely on siis hyvin perinteistä, p-arvoihin nojaavaa päättelyä. Kyseisessä  tutkimuksessa kuitenkin myös hyödynnettiin luottamusvälejä päättelyssä. Tutkimuksen viimeisessä lauseessa todettiin, että “tulosten pohjalta ei voida poissulkea uuden katetrin mahdollista hyötyä” (“on the basis of the 95% confidence interval around this outcome, the results may not rule out a benefit of CEP during TAVR”).

Kyseistä toteamusta voidaan sinänsä pitää oikeutettuna. Päätulosmuuttujan luottamusvälin alaraja oli -1.7% koeryhmän eduksi, eli tulos on siis yhtenevä jopa 1.7% pienemmän infarktiriskin kanssa. Päätelmä on siinä mielessä kuitenkin hyvin kyseenalainen, että vastaava toteamus olisi voitu tehdä myös verrokkiryhmän eduksi. Vastaavan luottamusvälin yläraja oli +0.5% verrokkiryhmän eduksi. Yhtälailla olisi siis voinut todeta, että tavallisen katetrin hyötyä ei voida poissulkea. Tätä päätelmää ei kuitenkaan voida tehdä pysyvää haittaa aiheuttavan infarktin osalta, koska siinä (95%) luottamusväli poissulkee kaikki 0 suuremmat arvot (esim. +1.0%), jotka olisivat siis koeryhmän eduksi tulkittavia.

ELAN-tutkimus on puolestaan harvinainen esimerkki estimointiin pohjaavasta tilastollisesta päättelystä. Tutkimuksessa verrattiin varhaista ja myöhäistä verenohennuslääkityksen aloitusta iskeemisen aivotapahtuman jälkeen. Päätetapahtuma oli mikä tahansa sydän-verisuonitapahtuma, kuten uusintainfrakti tai vuoto 30 päivän kuluessa hoitopäätöksestä. Tutkijat eivät raportoineet yhtäkään p-arvoa koko tutkimuksessa. Tulosten raportointi perustui päätetapahtumien riskiin hoitoryhmissä sekä riskieroon ja sen 95% luottamusväliin.

Päätetapahtuma ilmaantui varhaisryhmässä 2.9%:lla ja myöhäisryhmässä 4.1%:lla. Riskiero oli siis-1.2% 95% luottamusvälin ollessa -2.8% – +0.5%. Tutkijoiden loppupäätelmä oli, että päätetapahtuman riski vaihtelee 2.8% pienemmästä 0.5% suurempaan riskiin, kun verrataan varhaista hoitoa myöhäiseen hoitoon. Päätelmä ei totea siis yhtäsuuruutta tai “ei eroa”, jotka ovat varsin yleisiä, kun luottamusväli ei poissulje yhtäsuuruutta. Tutkijat antoivat ns. parhaan arvion mahdollisesta hoitovaikutuksesta.

Estimoinnissa tilastollinen päättely on siis tavallaan joustavampaa kuin hypoteesin testauksessa. Päätelmä ei ole joko-tai -tyyppinen hoitovaikutuksen osalta. Estimointi kuvaa paremmin tutkimukseen liittyvää epävarmuutta, koska päättely perustuu puhtaasti luottamusväleihin. Esimerkissä tutkimuslöydöksen merkitys riippui puhtaasti siitä, miten lukija arvottaa toisaalta hoitoihin liittyviä resursseja ja toisaalta taas miten luottamusväli suhteutuu kliinisesti merkitsevään riskin muutokseen. Jos kliinisesti merkityksellinen arvo olisi 3%:n ero päätetapahtuman riskissä, lukija voi valita sen hoidon, joka on käytössä olevat resurssit huomioiden suotavampaa. 

Tutkimuksessa olisi voitu raportoida myös luottamusväli, joka poissulkee yhtäsuuruuden. Ero olisi voinut olla esimerkiksi 2.4% luottamusvälin ollessa 0.4% – 3.8%. Tulos olisi siis yhtenevä suurentuneen riskin kanssa, joka vaihtelee 0.4%:sta 3.8%:iin. Kuitenkin, jos kliinisesti tai yhteiskunnallisesti merkitsevä ero olisi suurempi kuin 5% hoitolinjan valinta voisi perustua ensisijaisesti siihen, kumpi hoito on resurssien kannalta järkevämpää vaikka toinen hoito olisikin tilastollisesti parempi. Valinta olisi siis lopulta arvopohjainen. Näiden esimerkkien tarkoitus on erityisesti kuvata sitä moninaisuutta, joka liittyy tutkimustulosten tulkintaan.

Tärkeää on huomioida, että hypoteesin testausta hyödyntävissä tutkimuksissa voidaan toki esimerkin tavoin tehdä päätelmiä samoin kuin estimoinnissa, mutta se edellyttää luottamusvälien raportointia. Näin kuitenkin tapahtuu erittäin harvoin ja päätelmä hypoteesin testauksessa ovat yleensä kaksijakoisia ja päätelmät ovat yleensä varsin mustavalkoisia “ero oli” tai “eroa ei ole” -tyyppisesti. Metodologia on kuitenkin erilainen, jos tutkimuksen tavoite tehdä estimointia eikä hypoteesin testausta. Jälkimmäisessä otoskoon määritys perustuu aina johonkin arvioon siitä millaisia arvoja arvellaan esiintyvän hoitoryhmissä. Estimoivassa tutkimuksessa otoskoon lasku perustuu arvioon siitä, kuinka leveä tai kapea luottamusväli halutaan saadaan ja minkä suuruisia ryhmien välisiä eroja pyritään poissulkemaan estimoinnin avulla. Edellä kuvattu ELAN-tutkimus antaa hyvän esimerkin ansiokkaasta vaikkakin valtavirrasta poikkeavasta tavasta tehdä otoskokolasku.

Lopuksi

Tilastollinen päättely on keskeinen osa tilastollista analyysiä, eikä siihen ole yhtä oikeaa tapaa. Lääketiede perustuu viime kädessä hyvin monimutkaisiin biokemiallisiin ja fysiologisiin tapahtumiin ja siksi todelliset nollavaikutukset lienevät hyvin harvinaisia. Tämän vuoksi estimointi on käytännöllisempi tapa tehdä päättelyä verrattuna hypoteesin testaukseen. 

Kirjoittanut Aleksi Reito, vertaisarvioinut Ville Ponkilainen ja Mikko Uimonen

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 2

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *