p-arvon merkitys ja virhekäsitykset

6.5.2020 Tilastollinen päättely Ei kommentteja

Määritelmä

Frekventistisen tilastotieteen keskeisiä työkaluja ovat p-arvo, luottamusväli sekä vaikutuskoko. Esimerkkejä vaikutuskoosta ovat keskiarvoerotus ja

riskisuhde. p-arvosta on muodostunut vuosikymmenten aikana selkeästi käytetyin tilastollisen päättelyn työkalu vaikutuskoon ja luottamusvälin ovat jäädessä vähemmälle huomiolle. P-arvon tulkintaan liittyy runsaasti virhekäsityksiä.

P-arvolla tarkoitetaan tilastollista merkitsevyyttä. Sen keksijänä pidetään Ronald Fisheria, joka käytti p-arvoa omassa hypoteesin testaus viitekehyksessään. Hän käytti tilastollista merkitsevyyttä eli p-arvoa kuvaamaan kuinka hyvin aineisto sopii oletettuun tutkimushypoteesiin eli miten hyvin aineisto selittyy tutkimus hypoteesillä.

Nykytieteessä P-arvo määritetään yleisimmin nollahypoteesin testaamisen yhteydessä. Siinä asetetaan nollahypoteesi, joka olettaa yleensä esimerkiksi, että ryhmien keskiarvot ovat yhtä suuret. Lisäksi asetetaan vastahypoteesi, joka vastaavasti olettaa, että ryhmien keskiarvot eivät ole yhtä suuret. Valitun tilastollisen testin, kuten esimerkiksi Studentin t-testin pohjalta määritetään tilastollinen testisuure, jolle taas määritetään sitä vastaava p-arvo.

P-arvo vastaa todennäköisyyttä saada vielä enemmän poikkeava tulos, kun tutkimuksessa todettu olettaen, että kaikki taustaoletukset sen laskemiseen ovat voimassa. Toisen tulkinnan mukaan p-arvon voi ajatella kuvaavan, kuinka yhtenevä aineisto on taustaoletusten kanssa, joihin myös nollahypoteesi kuuluu.

Oletetaan, että tutkimuksessa on verrattu kahden verenpainelääkkeen tehoa. Ryhmissä 1 ja 2 keskiarvot olivat 120 mmHg ja 130mmHg. p-arvo 0.10 tarkoittaa, että 10%:n todennäköisyydellä ryhmien välinen keskiarvo olisi yli 10 mmHg, jos tutkimus toistettaisiin samankaltaisena ja nollahypoteesi on totta.

Sininen jakauma kuvaa kaikkia niitä arvoja, jotka havaitaan nollahypoteesin mukaisesti. Todennäköisin arvo on keskimmäinen, joka on 0. Ylläolevassa esimerkissä todennäköisin arvo olisi 0 mmHg, jos oletaan, että vain sattuma vaikuttaa ryhmien väliseen eroon. Esimerkissä havaittu ero 5 mmHg on oranssi piste. Tätä havaintoarvoa vastaava p-arvo on todennäköisyys havaita enemmän poikkeava luku eli sinisellä kuvattu alue jakauman alla.

Sattuman osuus vai virheen todennäköisyys?

Yleisin p-arvoon liitetty virhekäsitys on ajatus, että se kuvaisi sattuman osuutta tutkimustuloksessa. p-arvo ei tarkoita sattuman tai satunnaisvaihtelun osuutta tutkimustuloksessa. P-arvo 0.02 ei siis tarkoita, että on 2% todennäköisyys, että tutkimustulos oli vain sattuman aikaan saamaa. P-arvo lasketaan aina olettamuksella, että vain ja ainoastaan sattuma on saanut aikaan tuloksen. Laskuteknisesti siis sattuman osuus on aina 100%. 1-p vastaava luku ei tarkoita todennäköisyyttä, että tutkimustulos on ”oikea”. P-arvo ei myöskään tarkoita todennäköisyyttä, että nollahypoteesi olisi totta.

P-arvo ei myöskään tarkoita tyypin 1 eli väärän positiivisen virheen todennäköisyyttä tutkimuksessa. Tyypin 1 virheellä on merkitystä vain, kun samaa hypoteesia testataan useita kertoja peräkkäin pyrkimyksenä optimoida sekä väärät negatiiviset että väärät positiiviset päätökset hypoteesin hylkäämisestä ja hylkäämättä jättämisessä.

Kliininen ja tilastollinen merkitsevyys

p-arvo ei myöskään anna mitään viitettä tutkittavan ilmiön kliinisestä merkitsevyydestä. Nyrkkisääntö on, että otoskoon kasvaessa yhä pienemmät vaikutuskoot ja erot saavuttavat tilastollisen merkitsevyyden.

Hyvin laajasta rekisteritutkimuksesta voidaan havaita esimerkiksi, että jokin lääke vähentää sydänkuolleisuutta 0.1% 5 vuoden kuluessa p-arvon ollessa 0.0005. p-arvon perusteella kyseessä on melko selkeä löyfös, mutta onko prosentin kymmenyksen pienempi kuolleisuus 5 vuoden kuluessa lainkaan kliinisesti merkityksellinen? Toisaalta pienemmässä kliinisessä tutkimuksessa voidaan havaita, että kipulääkkeen vaikutus oli VAS-asteikolla 24 mm p-arvon ollessa 0.03. Lääkkeen teho on selkeästi enemmän kuin kliinisesti merkitsevä kivun helpotus VAS-asteikolla. p-arvon lisäksi pitää siis aina tulkita varsinaista tulosta, sen luottamusväliä sekä kliinistä merkittävyyttä.

p-arvo vaihtelee

p-arvo on samanlainen satunnaismuuttuja kuin mikä tahansa muu mitattava suure lääketieteellisessä tutkimuksessa. Se vaihtelee tutkimuksesta toiseen vaikka kyseessä olisi asetelmaltaan identtiset tutkimukset. Kahden eri tutkimuksen p-arvoja ei voi mitenkään vertailla vaan kyseessä on aina tutkimuskohtainen lukuarvo ja se pitää tulkita laajemmassa asiayhteydessä kuten edellä mainittu.

Lopuksi

Keskeistä p-arvon osalta on ymmärtää mitä se tarkoittaa ja mitä se ei ole. Väärin käsitykset ovat erittäin yleisiä eivätkä ne johdu siitä, että kyseessä olisi monimutkainen. Yleensä taustalla on vain tiedon puute. Keskeisintä oikeiden menetelmien käytössä niiden perusteiden ymmärtäminen.

Kirjoittanut Aleksi Reito, vertaisarvioinut Lauri Raittio ja Ville Ponkilainen

Aiheeseen liittyvät kertauskysymykset

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 4.5 / 5. Arvostelujen lukumäärä: 11

Kukaan ei ole vielä äänestänyt, ole ensimmäinen