Kahden jatkuvan muuttujan vertaaminen

Tilastollinen analyysi 2 kommenttia

Johdanto

Kahden jatkuvan muuttujan vertaaminen on yksi yleisimpiä tilastollisia analyysejä. Keskeinen mielenkiinto tällöin on selvittää ovatko ryhmät erilaisia mitattavan muuttujan suhteen. Yleensä kiinnostuksen kohteena on jokin ryhmien keskiluku (eng. central tendency), kuten keskiarvo, mediaani tai moodi. Esimerkkejä kahden jatkuvan muuttujan vertailusta ovat kahden tutkimusryhmän potilaiden iän vertaaminen tai esimerkiksi jonkin kyselykaavakkeeseen perustuvan pistemäärän vertaaminen eri hoitoa saaneiden ryhmien välillä. Jälkimmäinen on erittäin yleinen tapa satunnaistetuissa, vertailevissa tutkimuksissa.

Ennen analyysiä pitää tarkastella aineiston tyyppiä. Tässä artikkelissa käydään läpi riippumattomien (eng. independent) eli parittomien (eng. unpaired) ryhmien vertaamisesta. Se tarkoittaa, että molemmat ryhmät ja niiden tapaukset ovat itsenäisiä ja toisistaan riippumattomia. Yleensä se tarkoittaa tiettyä otosta potilaita jaettuna jonkin ominaisuuden perusteella, kuten edellä olevat esimerkit. Jos samaa potilasjoukkoa mitataan esimerkiksi ennen hoitoa ja hoidon jälkeen tai sama mittaus toistetaan kahdessa eri aikapisteessä, kyseessä on ei-itsenäiset (eng. dependent) ryhmät eli ne ovat riippuvat eli parilliset (eng. paired). Tällöin käytetään eri testejä kuin mitä alla käydään läpi. Yleisimmät menetelmät kahden toisistaan riippumattoman ryhmän testaamiseen ovat t-testit sekä Mann-Whitneyn U-testi.

Parametrinen ja ei-parametrinen testi

Hyvin yleinen tapa verrata kahta jatkuvaa muuttujaa on käyttää t-testiä. Kirjain t tarkoittaa, että testi perustuu ns. t-jakauman käyttöön. Monesti t-testeistä käytetään myös termiä riippumattomien otosten t-testi (eng. independent sample t-test) tai parittomien otosten t-testi (eng. unpaired sample t-test). Näitä termejä ei ole kuitenkaan suositeltavaa käyttää, koska riippumattomien otosten t-testejä on useita. Yleisimmät ovat Studentin t-testi sekä Welchin t-testi. Riippumattomuus on siis aineiston ominaisuutta kuvaava termi.

Olipa käytettävä t-testi sitten kumpi tahansa, sitä kutsutaan parametriseksi testiksi. Parametrisyys tarkoittaa oletusta, että populaatio tai joukko, josta aineisto on saatu, on jakautunut jonkin todennäköisyysjakauman ja sitä kuvaajien parametrien mukaisesti. Yleisin esimerkki on normaalijakauma, jota voidaan kuvata keskiarvolla ja keskihajonnalla tai varianssilla. Keskeisintä tilastotieteessä on ymmärtää, että kaikilla testeillä ja menetelmillä on tietyt taustaoletukset (eng. background assumptions), joiden tulisi toteutua, jotta testi tai menetelmä suoriutuu odotetulla tavalla ja antaa luotettavia tuloksia. Sekä Studentin että Welchin t-testi olettavat, että populaatio, josta aineisto on kerätty, on jakautunut normaalijakauman mukaisesti. Ero testeillä on kuitenkin, että Studentin t-testi olettaa ryhmien hajontojen olevan yhtä suuret, kun Welchin testissä hajonnat voivat olla erisuuret.

Jos aineisto ei noudata näitä oletuksia eli esimerkiksi normaalijakaumaa, voidaan käyttää ei-parametrisiä testejä. Kahden jatkuvan, toisistaan riippumattoman muuttujan tapauksessa voitaisiin käyttää Mann-Whitneyn U-testiä, jonka on ns. järjestyssummatesti (eng. rank-sum test). Testistä käytetään myös nimitystä Wilcoxonin järjestysummatesti tai Wilcoxon-Mann-Whitneyn testi.

Studentin tai Welchin t-testi vertaa ryhmien keskiarvoja. Testien oletus on, että keskiarvojen erotus noudattaa ns. t-jakaumaa. Mann-Whitneyn U-testi ei vertaa keskiarvoja eikä mitään keskilukuja. Se ei siis myöskään vertaa mediaaneja. Hyvin usein vinosti jakautuneiden muuttujien tunnuslukuina käytetään mediaania ja ryhmiä verrataan Mann-Whitneyn U-testillä. Sillä ei ole kuitenkaan mitään tekemistä mediaanin kanssa mikä on kuitenkin erittäin yleinen virhekäsitys. Mann-Whitneyn U-testi selvittää onko kahden muuttujan jakaumat samanlaiset. Sen nollahypoteesi eli testattava oletus on, että satunnaisesti poimittu luku ensimmäisestä ryhmästä on suurempi tai pienempi kuin toisesta ryhmästä poimittu luku. Tilastollisesti merkitsevä tulos Mann-Whitneyn U-testissä tarkoittaa, että mitattava muuttuja on erilainen ryhmien välillä.

Mediaanien vertaamisessa on olemassa oma testinsä. Sitä kutsutaan Moodin mediaanitestiksi. Esimerkiksi SPSS pystyy sen laskemaan. Testiä kuitenkaan käytetään hyvin harvoin. Suurin syy on siihen on se, että testillä on huono voima havaita ero vähänkään isommissa otoksissa eli se ei ole kovin tehokas. Huono voima tarkoittaa, että vaikka mediaanit olisivat eri suuret, testi ei kykene sitä havaitsemaan. Varsinkin, jos ero mediaaneissa ei ole erittäin suuri, se voi jäädä havaitsematta tilastollisesti merkitseväksi.

Oikean testin valinta

Mistä sitten tietää kumman tyyppisiä testejä pitää käyttää? Alkuun voi tarkastella aineiston jakaumaa graafisesti. Normaalijakauma tarkoittaa, että aineisto on jakautunut kellokäyrän mukaisesti. Tavallinen esimerkki ei-normaalijakautunesta muuttujasta on eksponentiaalinen jakauma, joka on ns. oikealle vino.

Kuvan 1 tapauksessa yllä on perusteltua käyttää t-testiä, koska aineisto vaikuttaa olevan peräisin populaatiosta, joka noudattaa normaalijakaumaa. Vastaavasti kuvassa 2 alapuolella jakauma on erittäin vahvasti vino ja parametriton testi lienee perusteltu, koska t-testin oletukset eivät täyty ja se voisi antaa väärän tuloksen.

Mutta missä menee vinon ja normaalijaukamaoletuksia noudattavan aineiston ero? Ovatko alla olevat jakaumat peräisin vinosti vai normaalisti jakautuneista populaatioista? Mihinkään näistä ei ole yksiselitteistä oikeaa vastausta.

Normaalijakauman testaaminen

Eri lähteet neuvovat käyttämään tilastollista testiä normaalijakaumaoletuksen selvittämiseen. Kyseisiä testejä ovat esimerkiksi Shapiro-Wilkin testi sekä Kolmogorov-Smirnovin testi. Tämä tarkoittaa, että aineiston pohjalta tehdään tilastollinen testi selvittämään noudattaako aineisto normaalijakaumaa eli onko aineisto todennäköisesti peräisin normaalijakaumaoletuksia noudattavasta populaatiosta. Yksinkertainen ohje on välttää käyttämästä näitä testejä.

Testeissä asetetaan aina nollahypoteesi, että aineisto noudattaa normaalijakaumaa. Vaihtoehtoinen hypoteesi olettaa, että aineisto ei noudata normaalijakaumaa. Jos p-arvo normaaliustestillä on alle 0.05, voidaan nollahypoteesi hylätä ja todeta, että aineisto ei noudata normaalijakaumaa. Mutta jos p-arvo onkin yli 0.05, nollahypoteesi jää voimaan ja sitä ei voida hylätä. Tämä ei kuitenkaan tarkoita, että nollahypoteesi on totta! (Nollahypoteesin merkitsevyyden testaus). Varsinkin pienillä otoksilla (10-40) selkeästikin normaalijakaumasta poikkeavat aineistot antavat helposti p-arvon yli 0.05.

Miten sitten valita testi?

Hyvä lähtökohta on miettiä aineiston tuottanutta prosessia ja ilmiötä sekä aineiston taustaoletuksia. Hyvin usein fysiologiset ja biologiset jakaumat ja suureet noudattavat normaalijakaumaa. Ei pidä siis hämääntyä vaikka otos olisi hieman vino. Se voi olla vain sattumaa, vaikka taustalla olisikin hyvin tavallinen biologinen tai fysiologinen ilmiö. Jos on perusteltua olettaa, että tutkittavan ilmiön tai vaikutuksen taustalla on tavalliset biogiset tai fysiologiset ilmiöt, jotka noudattavat normaalijakauman oletuksia, on melko turvallista käyttää t-testiä vaikka otosjakauma ei olisi aivan symmetrinen.

Tähän liittyen on hyvä myös perehtyä aikaisempaan kirjallisuuteen aiheesta. Millaisia aineistoja aikaisemmissa tutkimuksissa on ollut? Onko niissä kuvattu selkeästi normaalijakaumaoletusta noudattavia aineistoja tai aineiston tunnuslukuja? Tärkeää on kuitenkin muistaa lähdekriittisyys: vaikka jokin tutkimus olisikin käyttänyt parametrillisiä testejä, se ei vielä takaa, että oletus olisi varma. Kannattaa perehtyä laajalti saatavilla olevaan kirjallisuuteen, jos tutkittava ilmiö tai asia on epäselvä.

Hyvä on pohtia myös aineiston teoreettista taustaa ja yleisiä lainalaisuuksia. Joissakin lähteissä on mainittu, että parametrista testiä ei voi käyttää, jos muuttuja voi saada vain positiivisia lukuja. Tämä ei tietenkään ole kaiken kattava sääntö lääketieteessä. Esimerkiksi hemoglobiini ei voi olla negatiivinen, mutta toki se noudattaa selkeästi normaalijakaumaoletuksia. Sen absoluuttinen teoreettinen minimi on 0 ja maksimi periaatteessa ääretön. Tätä vasten siis normaalijakaumaoletus ei teoriassa ole voimassa. Käytännössä kuitenkin hemoglobiinin keskiarvo on yleensä selkeästi yli 100 ja kellokäyrän ääripäät asettuvat 30-60 ja 170-200 välille. Normaalijakauma oletus on siis järkevä ja perusteltu.

Toisenlaisena esimerkkinä olkoon kasvainmerkkiaineet. Ne ovat terveillä potilailla lähes mittaamattoman matalat ja syöpäpotilailla taas vaihtelevat hyvinkin paljon. Niille ei ole olemassa ns. alarajaa vaan jokin lukuarvo toimii normaalin ylärajana, jota suuremmat arvot katsotaan poikkeaviksi. Huangin ja Pepen (2009) tutkimuksessa mitattiin terveiden ja syöpää sairastavien potilaiden CA-125-merkkiainepitoisuuksia. Kuvasta 4 nähdään, että merkkiaineen jakauma on erittäin vahvasti vino. Vaikka pitoisuusarvoille on tehty muunnos käyttäen logaritmifunktiota, normaalijakaumaoletus jättää toivomisen varaa. Tässä tapauksessa t-testi käyttö ei olisi suositeltavaa vaan Mann-Whitneyn U -testi olisi perusteltu.

Kuva 4: CA-125 -merkkiaineen jakaumia ja kertymäfunktoita terveillä ja syöpää sairastavilla potilailla. Normaalijakauman kertymäfunktio muistuttaisi enemmän S-kirjainta. Lähde: Huang Y, Pepe MS. Biostatistics. 2009:10;228-244.

Toinen tulokulma on otoskoko. Jos otoskoko on kohtalainen tai suuri, t-testi on pääsääntöisesti toimiva ratkaisu. Vaikka jakauma olisi hieman vino tai toinen häntä olisi paksumpi, t-testi toiminee kohtuullisen hyvin. Jos kyseessä on erittäin vino jakauma, kuten yllä, lienee järkevämpää käyttää parametritonta testiä.

Jos otoskoko on kohtalaisen pieni (10-30 per ryhmä), on oleellisinta miettiä tutkittavan ilmiön taustaoletuksia, kuten edellä. Jos esimerkiksi aikaisempi kirjallisuus antaa vahvan viitteen ilmiön taustoista, niitä kannattaa käyttää päätöksenteossa testin valinnassa.

Otoskoon ollessa erittäin pieni (<10-15 per ryhmä) mikään testi ei poista tosiasiaa, että testin tulokseen pitää suhtautua suurella varauksella. Ensijainen tavoite olisi arvioida onko mahdollista saada suurempaa aineistoa analysoitavaksi. Lisäksi on syytä muistaa, että hyvin pienellä otoksella vain erittäin suuret eroavaisuudet ryhmien välillä voidaan havaita tilastollisesti merkitseväksi.

On myös hyvä muistaa, että tulokset voi raportoida molemmilla tavoilla. Tämä tuo lisää läpinäkyvyyttä analyyseihin. Varsinkin, jos kumpaa tahansa menetelmä voidaan käyttää, keskiarvojen ja keskihajonnan raportointi edes auttaa jatkossa, jo tutkimusta käytetään meta-analysiin.

Jos käytetään t-testiä, pitää lisäksi valita käytetäänkö Studentin vai Welchin t-testiä. Ensimmäinen olettaa ryhmien varianssien ja hajontojen olevan yhtä suuret, kun jälkimmäinen ei tee sitä oletusta. Varianssien yhtäsuuruuteen on myös olemassa omat testinsä, mutta niissä tutkija törmää samoihin ongelmiin, kuin normaaliustestien kanssa. Tästä syystä varianssitestiä kannattanee välttää. Jos ei ole mitään syytä olettaa ryhmien varianssien olevan eri suuria, voi käyttää Studentin t-testiä. Yleisohjeena on hyvä muistaa, että mitä et voi perustella et voi olettaa. Jos siis ryhmien hajontojen yhtäsuuruudesta on yhtään epävarmuutta, Welchin t-testi on varmempi valinta. Toiset kirjoittajat suosittelevat käyttämään aina Welchin t-testiä.

Lopuksi

Kahden jatkuvan muuttujan vertaaminen, kuten mikään muukaan tilastollinen analyysi ei ole mekanistista suorittamista. Se vaatii tutkittavaan asiaan ja aikaisempaan kirjallisuuteen perehtymistä. Kahden jatkuvan muuttujan vertaamisessa on tarkoituksenmukaista saada käsitys tutkittavan muuttujan populaatiosta ja sen jakaumaoletuksista sekä eri ryhmien varianssien suhteesta. Jos otoskoko on erittäin pieni, kannattaa miettiä miettiä myös keinoja lisäaineiston hankkimiseen.

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 7

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

2 thoughts on - Kahden jatkuvan muuttujan vertaaminen

  1. Esitit tässä erinomaisessa kirjoituksessasi painokkaasti, että normaalijakaumaoletuksen toteutumista ei kannata testata, ei liioin t-testissä testata varianssien mahdollista eroa. Mielestäni on helppo yhtyä näihin näkemyksiisi, että “signifikantin” P-arvon merkitystä ei kannata korostaa näissäkään, ihan kuten ei muutenkaan statistiikassa, vaan ratkaisu pitäisi tehdä (lähinnä) muilla perusteilla. Itse huomaan kuitenkin, että monilla tutkijoilla (ja rajoittumatta nyt pelkästään lääketieteeseen) on kuitenkin peruskursseilta tai perusoppikirjoista opittuna käytäntönä näiden testien mekaaninen suorittaminen. Joillakin tuntuu olevan osasyynä pelko siitä, että artikkeli herkemmin hylätään, jos ei näitä ole tunnollisesti käytetty ja sitä pidettäisiin merkkinä “huolimattomasta” analyysistä. Kun kädessä on vasara, kaikki näyttää naulalta! Onko tuo joidenkin tutkijoiden huoli mielestäsi täysin aiheeton?

    1. Erittäin hyvä kysymys! Ei ole aiheeton huoli laisinkaan. Tämä on erittäin yleinen tapa toimia eli tehdään mekanistisesti testejä ja juurikin sen takia, että ei näytettäisi huolimattomalta. Ja varsin usein näitä tehdään sitten “revisiokierroksella”, koska vertaisarvioitsija niin on halunnut. Tämä on varmasti kaikille tutkijoille tuttu ilmiö. Tässähän on kyse ns. cargo cult -statistiikasta, josta kirjoitettu kuvaavasti esim. https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2018.01174.x. Tutkijoiden tulisi aina pyrkiä välttämään mekanistista testien tekoa ja pyrkiä ymmärtämään mitä ollaan tekemässä. Asianmukainen perustelu ja ilmiön taustoittaminen olisi keskeistä juuri näissä varianssi- ja normaalijakaumaoletuksissa. Tämä näkökohta on vain kokemukseni mukaan valitettavan vähän mukana koulutuksessa ja ennemmin ohjataan juuri noita testien tekoa. Rohkenen väittää, että huolellinen perustelu miksi tehtiin on paljon ammattimaisempaa kuin varmuuden vuoksi testaaminen. Juuri nämä asiat ovat keskeisiä, joihin Tilastokunto pyrkii opastamaan!

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *