Taustaa
Havainnoivassa tutkimuksessa keskeisintä on erottaa selittäminen ja ennustaminen. Selittäminen yhdistetään usein syy-seuraus-päättelyyn eli kausaalisuuteen. Tämän ympärille on syntynyt oma tilastotieteen osa-alue, ns. kausaali-inferenssi (eng. causal inference). Siinä keskitytään asioiden ja ilmiöiden selittämiseen eikä vain muuttujien väliseen korrelaatioon tai assosiaatioon.
Yksinkertaistettuna selittäminen tarkoittaa kahden muuttujan välisen yhteyden tutkimista. Perinteisiä esimerkkejä ovat esimerkiksi äidin tupakoinnin vaikutus lapsen syntymäpainoon sekä tupakoinnin ja keuhkosyövän yhteys.
Erittäin yleinen tapa tämän tyyppisten tutkimuskysymysten äärellä on kerätä tutkimusaineisto, jossa on päätetapahtuman lisäksi joukko muita muuttujia pääaltisteen, kuten esimerkiksi tupakoinnin lisäksi. Yleensä näitä taustamuuttujia käytetään sekoittavina tekijöinä analyyseissä. Hyvin usein havainnoivassa tutkimuksessa ei kuitenkaan pystytä määrittämään yksittäistä pääaltistetta, vaan tutkimus pohjautuu usean eri altisteen merkityksen selvittämiseen.
Valitettavan yleinen ongelma lääketieteellisissä tutkimuksissa on se, että muodostettujen selitysmallien kausaalisuhteet ovat heikosti perusteltu ja puutteellisesti esitetty. Tämä lisää mahdollisuutta, että tutkimuksessa käytetyssä tilastollisessa mallissa on ongelmallisia selityssuhteita, jotka vääristävät tuloksia ja aiheuttavat harhaa selityssuhteiden tulkintaan eli regressiokertoimiin. Jos havainnoivan tutkimuksen tarkoitus on selvittää selityssuhteita, tulisi aina kuvata tarkasti, miten ja millä perusteella muuttujat on valittu mukaan monimuuttujamalliin.
Kausaalitulkinnan komponentit
Keskeisintä muuttujien valinnassa on erottaa sekoittava tekijä, mediaattori sekä ns. käänteinen haarukka.
Sekoittava tekijä on muuttuja, joka vaikuttaa sekä altisteeseen että päätemuuttujaan. Sekoittava tekijä on ns. yhteinen syy (eng. common cause). Tutkimuksessa voidaan selvittää esimerkiksi fyysisen aktiivisuuden vaikutusta sydäntautiriskiin (Kuva 1). Todellinen sekoittava tekijä tässä asetelmassa on esimerkiksi ikä. Ikä vaikuttaa fyysiseen aktiivisuuteen sekä suoraan sydäntaudin riskiin. Jos haluamme arvioida mahdollisimman tarkasti fyysisen aktiivisuuden vaikutusta sydäntautiriskiin, ikä pitää ottaa mukaan monimuuttujamalliin. Tämä perustuu tietenkin olettamukseen, että muita vaikuttavia tekijöitä ei olisi.
Mediaattori eli välittävä muuttuja ei ole sekoittava tekijä. Mediaattori välittää nimensä mukaisesti altisteen vaikutusta päätemuuttujaan. Kuvitellaan tutkimus, jossa selvitetään kahvin juonnin vaikutusta kuolleisuuteen (Kuva 2). Tässä yhteydessä tutkija saattaisi helposti ottaa analyysiin mukaan esimerkiksi verenpaineen sekoittavaksi tekijäksi. Tässä asetelmassa verenpaine ei ole kuitenkaan sekoittava tekijä vaan mediaattori. Ei ole perusteltua olettaa, että verenpaine vaikuttaisi kahvinjuontiin. Kahvinjuonti saa aikaan verenpaineen nousua, jolla on taas vaikutusta kuoleman riskiin. Kahvin juonnin vaikutus kuolleisuuteen välittyy siis suoralla vaikutuksella sekä myös sen aiheuttaman verenpaineen nousun välityksellä.
Käänteinen haarukka tarkoittaa tilannetta, jossa sekä altiste että päätemuuttuja vaikuttavat samaan ulkoiseen muuttujaan. Tutkimuksessa voidaan esimeriksi selvittää liikkumiskykyyn vaikuttavien sairauksien vaikutusta hengityselinsairauksiin (Kuva 3). Jos kyseinen tutkimus tehdään esimerkiksi sairaalaan joutuneilla potilailla, kyseessä ei ole välttämättä todellinen syy-seuraus-suhde. Sekä liikuntakykyyn vaikuttava sairaus että hengityselinsairaus vaikuttavat potilaan todennäköisyyteen joutua sairaalaan. Tämä tarkoittaa sitä, että sairaalaan joutuminen on ns. käänteinen haarukka selityssuhteissa. Tällaisessa tilanteessa muuttujien välinen näennäinen yhteys selittyy siis sillä, että tutkittavat potilaat valikoidaan potilasotoksesta, jossa muuttujat ilmenevät vahvasti. Käänteinen haarukka tarkoittaa usein samaa kuin valikoitumisharha.
Monimuuttujamallin rakentaminen
Mitä merkitystä erilaisilla muuttujilla sitten on havainnoivassa tutkimuksessa? Todellinen sekoittava tekijä on aina syytä ottaa mukaan monimuuttuja-analyyseihin pääaltisteen ja vastemuuttujan lisäksi. Mediaattoria ja käänteistä haarukkaa ei puolestaan saa koskaan ottaa mukaan analyysiin, koska niiden sisällyttäminen malliin vääristäisi analyysin tuloksia ja lisäisi harhaa silloin, kun monimuuttujamallilla tutkitaan nimenomaan selityssuhteita. Pohdittaessa altisteen vaikutusta päätemuuttujaan, altisteen tai lähtömuuttujan regressiokertoimen tulkinta on keskeisin osa tilastollista päättelyä. Sekoittavan tekijän mukaan ottaminen ”blokkaa” muut epäsuorat vaikutukset lähtömuuttujan ja päätemuuttujan välillä. Sekoittavan tekijän regressiokertoimen tulkinta ei kuitenkaan ole oleellista eikä niitä pitäisi edes raportoida.
Mediaattorin sisällyttäminen malliin aiheuttaa sen, että mediaattorin kautta aiheutuva osa lähtömuuttujan vaikutuksesta päätemuuttujaan blokkautuu, mikä puolestaan vääristää regressiokerrointa. Tällöin pääaltistemuuttujan regressiokertoimen arvo tarkoittaa pelkästään suoraa vaikutusta eikä kokonaisvaikutusta.
Jos tutkimuksessa on useita erilaisia oleellisia lähtömuuttujia tai altisteita, tulee jokaiselle rakentaa oma selitysmallinsa. Yleinen virhe on ottaa kaikki muuttujat samaan analyysiin ja lisätä siihen vielä sekoittavia tekijöitä. Tällöin syyllistytään ns. ”taulukko 2 -harhaan” (eng. table 2 fallacy). Tämä tarkoittaa virheellistä käsitystä siitä, että kaikki muuttujat ovat ikään kuin vakioitu ”yhteisesti” tai toistensa suhteen. Tällaista menetelmää tulisi välttää, koska harhan riski on hyvin suuri.
Hyvä tapa välttää edellä mainittua tilannetta on keskittyä yhdessä tutkimuksessa yhteen kysymykseen kuten esimerkiksi vaikuttaako tupakointi lapsen syntymäpainoon ja rakentaa tälle kysymykselle oma selitysmallinsa. Jos halutaan tarkastella useita eri lähtömuuttujia, niin tällöin jokaiselle muuttujalle tehdään oma kausaalinen pohdinta ja analyysi, jossa on huolehdittu, että vääränlaisia selityssuhteita ei ole otettu vahingossa sekoittaviksi tekijöiksi.
Yleinen tapa tarkastella selityssuhteita ja vähentää riskiä ongelmallisille selityssuhteille on käyttää ns. DAG (eng. directed acyclic graph) eli suunnattujen asyklisen verkkojen -menetelmää. Shier ja Platt (2008) ovat laatineet selkeän ohjeen tämän lähestymisen käyttöön. Toinen hyvä vaihtoehto on rakentaa graafisesti oma selitysmallinsa dagitty -työkalulla, joka ilmaiseksi käytettävissä internetissä (dagitty.net). Sen avulla voi tulkita automaattisesti mitkä muuttujat pitää ottaa mukaan sekoittaviksi tekijöiksi.
Selittämisen ja ennustamisen eroja
Mukailtu Schooling & Jones (2018):
Ennustaminen | Selittäminen | |
---|---|---|
Tarkoitus | Riskiluokittelu, riskin ennustaminen | Testata onko tietty tekijä tai tekijät kausaalisia |
Analyysi | Aineiston ohjaama | Määritetyn kausaalimallin testaaminen |
Sekoittavat tekijät | Ei merkitystä | Tärkeä huomioida ja tarvittaessa ottaa mukaan monimuuttujamalliin |
Otoksen tyyppi | Kattava otos populaatiosta, johon riskimallia sovelletaan | Minimaalinen valikoitumisharha tutkitussa syy-seuraussuhteessa. |
Tulkinta | Niiden yksilöiden tunnistaminen, jotka ovat riskissä saada tietty päätetapahtuma Riskiä ennustavat tekijät riippumatta mahdollisesta selityssuhteesta | Mahdollisten päätetapahtumien syiden tunnistaminen, joiden muokkaaminen vaikuttaa riskiin Riskiin vaikuttavat tekijät |
Mukailtu Shmueli (2010):
Ennustaminen | Selittäminen |
---|---|
Tilastomallia sovelletaan aineistoon tarkoituksena ennustaa uusi tai tuleva muuttuja | Aineistoon sovelletaan tilastollisia malleja, jotka testaavat selityssuhteita |
Painopiste on yhteyksissä eli assosiaatioissa ei selityssuhteissa. | Tilastollinen malli ja aineisto riippuvat toisistaan ”teoreettisen linssin” välityksellä |
Muuttujat valitaan perustuen niiden saatavuuteen, aineiston laatuun sekä niiden assosiaatioon päätetapahtuman kanssa. | Käsitteiden yhteydet kuvataan kausaalikuvaajalla |
Käsitteet operationalisoidaan eli muodostetaan selityssuhteet perustuen aikaisempaan kirjallisuuteen tai oikeutetaan teoreettiselta kannalta |
Lopuksi
Monimuuttujamalleja sovellettaessa tulee huolehtia, että kausaalisuhteet on huomioitu muuttujavalinnassa sekä tulosten tulkinnassa. Mikäli malleja muodostetaan huolettomasti ilman riittävän laajaa teoreettista taustatietoa tutkittavan ilmiön luonteesta, voi mallin antamat tulokset olla vääristyneitä ja jopa täysin virheellisiä. Oikein sovellettuina monimuuttujamallit ovat kuitenkin erittäin tehokas työkalu ilmiöiden selittämiseen.
Kaikki mainitut viitteet löytyvät Lukemistosta.
Vertaisarvioinut: Mikko Uimonen, Ville Ponkilainen ja Lauri Raittio