Selittäminen havainnoivassa tutkimuksessa

Monimuuttujamallit Ei kommentteja

Taustaa

Havainnoivassa tutkimuksessa keskeisintä on erottaa selittäminen ja ennustaminen. Selittäminen yhdistetään usein syy-seuraus-päättelyyn eli kausaalisuuteen. Tämän ympärille on syntynyt oma tilastotieteen osa-alue, ns. kausaali-inferenssi (eng. causal inference). Siinä keskitytään asioiden ja ilmiöiden selittämiseen eikä vain muuttujien väliseen korrelaatioon tai assosiaatioon.

Yksinkertaistettuna selittäminen tarkoittaa kahden muuttujan välisen yhteyden tutkimista. Perinteisiä esimerkkejä ovat esimerkiksi äidin tupakoinnin vaikutus lapsen syntymäpainoon sekä tupakoinnin ja keuhkosyövän yhteys.

Erittäin yleinen tapa tämän tyyppisten tutkimuskysymysten äärellä on kerätä tutkimusaineisto, jossa on päätetapahtuman lisäksi joukko muita muuttujia pääaltisteen, kuten esimerkiksi tupakoinnin lisäksi. Yleensä näitä taustamuuttujia käytetään sekoittavina tekijöinä analyyseissä. Hyvin usein havainnoivassa tutkimuksessa ei kuitenkaan pystytä määrittämään yksittäistä pääaltistetta, vaan tutkimus pohjautuu usean eri altisteen merkityksen selvittämiseen.

Valitettavan yleinen ongelma lääketieteellisissä tutkimuksissa on se, että muodostettujen selitysmallien kausaalisuhteet ovat heikosti perusteltu ja puutteellisesti esitetty. Tämä lisää mahdollisuutta, että tutkimuksessa käytetyssä tilastollisessa mallissa on ongelmallisia selityssuhteita, jotka vääristävät tuloksia ja aiheuttavat harhaa selityssuhteiden tulkintaan eli regressiokertoimiin. Jos havainnoivan tutkimuksen tarkoitus on selvittää selityssuhteita, tulisi aina kuvata tarkasti, miten ja millä perusteella muuttujat on valittu mukaan monimuuttujamalliin.

Kausaalitulkinnan komponentit

Keskeisintä muuttujien valinnassa on erottaa sekoittava tekijä, mediaattori sekä ns. käänteinen haarukka.

Sekoittava tekijä on muuttuja, joka vaikuttaa sekä altisteeseen että päätemuuttujaan. Sekoittava tekijä on ns. yhteinen syy (eng. common cause). Tutkimuksessa voidaan selvittää esimerkiksi fyysisen aktiivisuuden vaikutusta sydäntautiriskiin (Kuva 1). Todellinen sekoittava tekijä tässä asetelmassa on esimerkiksi ikä. Ikä vaikuttaa fyysiseen aktiivisuuteen sekä suoraan sydäntaudin riskiin. Jos haluamme arvioida mahdollisimman tarkasti fyysisen aktiivisuuden vaikutusta sydäntautiriskiin, ikä pitää ottaa mukaan monimuuttujamalliin. Tämä perustuu tietenkin olettamukseen, että muita vaikuttavia tekijöitä ei olisi.

Kuva 1: Esimerkki sekoittavasta tekijästä. Ikä vaikuttaa itsenäisesti sekä fyysiseen aktiivisuuteen että sydäntautiriskiin.

Mediaattori eli välittävä muuttuja ei ole sekoittava tekijä. Mediaattori välittää nimensä mukaisesti altisteen vaikutusta päätemuuttujaan. Kuvitellaan tutkimus, jossa selvitetään kahvin juonnin vaikutusta kuolleisuuteen (Kuva 2). Tässä yhteydessä tutkija saattaisi helposti ottaa analyysiin mukaan esimerkiksi verenpaineen sekoittavaksi tekijäksi. Tässä asetelmassa verenpaine ei ole kuitenkaan sekoittava tekijä vaan mediaattori. Ei ole perusteltua olettaa, että verenpaine vaikuttaisi kahvinjuontiin. Kahvinjuonti saa aikaan verenpaineen nousua, jolla on taas vaikutusta kuoleman riskiin. Kahvin juonnin vaikutus kuolleisuuteen välittyy siis suoralla vaikutuksella sekä myös sen aiheuttaman verenpaineen nousun välityksellä.

Kuva 2: Esimerkki mediaattorista. Osa kahvin juonnin vaikutuksesta kuolleisuuteen välittyy kohoneen verenpaineen kautta.

Käänteinen haarukka tarkoittaa tilannetta, jossa sekä altiste että päätemuuttuja vaikuttavat samaan ulkoiseen muuttujaan. Tutkimuksessa voidaan esimeriksi selvittää liikkumiskykyyn vaikuttavien sairauksien vaikutusta hengityselinsairauksiin (Kuva 3). Jos kyseinen tutkimus tehdään esimerkiksi sairaalaan joutuneilla potilailla, kyseessä ei ole välttämättä todellinen syy-seuraus-suhde. Sekä liikuntakykyyn vaikuttava sairaus että hengityselinsairaus vaikuttavat potilaan todennäköisyyteen joutua sairaalaan. Tämä tarkoittaa sitä, että sairaalaan joutuminen on ns. käänteinen haarukka selityssuhteissa. Tällaisessa tilanteessa muuttujien välinen näennäinen yhteys selittyy siis sillä, että tutkittavat potilaat valikoidaan potilasotoksesta, jossa muuttujat ilmenevät vahvasti. Käänteinen haarukka tarkoittaa usein samaa kuin valikoitumisharha.

Kuva 3: Esimerkki käänteisestä haarukasta. Sekä motorinen sairaus että hengityselinsairaus vaikuttavat todennäköisyyteen joutua sairaalaan.

Monimuuttujamallin rakentaminen

Mitä merkitystä erilaisilla muuttujilla sitten on havainnoivassa tutkimuksessa? Todellinen sekoittava tekijä on aina syytä ottaa mukaan monimuuttuja-analyyseihin pääaltisteen ja vastemuuttujan lisäksi. Mediaattoria ja käänteistä haarukkaa ei puolestaan saa koskaan ottaa mukaan analyysiin, koska niiden sisällyttäminen malliin vääristäisi analyysin tuloksia ja lisäisi harhaa silloin, kun monimuuttujamallilla tutkitaan nimenomaan selityssuhteita. Pohdittaessa altisteen vaikutusta päätemuuttujaan, altisteen tai lähtömuuttujan regressiokertoimen tulkinta on keskeisin osa tilastollista päättelyä. Sekoittavan tekijän mukaan ottaminen ”blokkaa” muut epäsuorat vaikutukset lähtömuuttujan ja päätemuuttujan välillä. Sekoittavan tekijän regressiokertoimen tulkinta ei kuitenkaan ole oleellista eikä niitä pitäisi edes raportoida.

Mediaattorin sisällyttäminen malliin aiheuttaa sen, että mediaattorin kautta aiheutuva osa lähtömuuttujan vaikutuksesta päätemuuttujaan blokkautuu, mikä puolestaan vääristää regressiokerrointa. Tällöin pääaltistemuuttujan regressiokertoimen arvo tarkoittaa pelkästään suoraa vaikutusta eikä kokonaisvaikutusta.

Jos tutkimuksessa on useita erilaisia oleellisia lähtömuuttujia tai altisteita, tulee jokaiselle rakentaa oma selitysmallinsa. Yleinen virhe on ottaa kaikki muuttujat samaan analyysiin ja lisätä siihen vielä sekoittavia tekijöitä. Tällöin syyllistytään ns. ”taulukko 2 -harhaan” (eng. table 2 fallacy). Tämä tarkoittaa virheellistä käsitystä siitä, että kaikki muuttujat ovat ikään kuin vakioitu ”yhteisesti” tai toistensa suhteen. Tällaista menetelmää tulisi välttää, koska harhan riski on hyvin suuri.

Hyvä tapa välttää edellä mainittua tilannetta on keskittyä yhdessä tutkimuksessa yhteen kysymykseen kuten esimerkiksi vaikuttaako tupakointi lapsen syntymäpainoon ja rakentaa tälle kysymykselle oma selitysmallinsa. Jos halutaan tarkastella useita eri lähtömuuttujia, niin tällöin jokaiselle muuttujalle tehdään oma kausaalinen pohdinta ja analyysi, jossa on huolehdittu, että vääränlaisia selityssuhteita ei ole otettu vahingossa sekoittaviksi tekijöiksi.

Yleinen tapa tarkastella selityssuhteita ja vähentää riskiä ongelmallisille selityssuhteille on käyttää ns. DAG (eng. directed acyclic graph) eli suunnattujen asyklisen verkkojen -menetelmää. Shier ja Platt (2008) ovat laatineet selkeän ohjeen tämän lähestymisen käyttöön. Toinen hyvä vaihtoehto on rakentaa graafisesti oma selitysmallinsa dagitty -työkalulla, joka ilmaiseksi käytettävissä internetissä (dagitty.net). Sen avulla voi tulkita automaattisesti mitkä muuttujat pitää ottaa mukaan sekoittaviksi tekijöiksi.

Selittämisen ja ennustamisen eroja

Mukailtu Schooling & Jones (2018):

EnnustaminenSelittäminen
TarkoitusRiskiluokittelu, riskin ennustaminenTestata onko tietty tekijä tai tekijät kausaalisia
AnalyysiAineiston ohjaamaMääritetyn kausaalimallin testaaminen
Sekoittavat tekijätEi merkitystäTärkeä huomioida ja tarvittaessa ottaa mukaan monimuuttujamalliin
Otoksen tyyppiKattava otos populaatiosta, johon riskimallia sovelletaanMinimaalinen valikoitumisharha tutkitussa syy-seuraussuhteessa.
TulkintaNiiden yksilöiden tunnistaminen, jotka ovat riskissä saada tietty päätetapahtuma
Riskiä ennustavat tekijät riippumatta mahdollisesta selityssuhteesta
Mahdollisten päätetapahtumien syiden tunnistaminen, joiden muokkaaminen vaikuttaa riskiin
Riskiin vaikuttavat tekijät

Mukailtu Shmueli (2010):

EnnustaminenSelittäminen
Tilastomallia sovelletaan aineistoon tarkoituksena ennustaa uusi tai tuleva muuttujaAineistoon sovelletaan tilastollisia malleja, jotka testaavat selityssuhteita
Painopiste on yhteyksissä eli assosiaatioissa ei selityssuhteissa.Tilastollinen malli ja aineisto riippuvat toisistaan ”teoreettisen linssin” välityksellä
Muuttujat valitaan perustuen niiden saatavuuteen, aineiston laatuun sekä niiden assosiaatioon päätetapahtuman kanssa.Käsitteiden yhteydet kuvataan kausaalikuvaajalla
Käsitteet operationalisoidaan eli muodostetaan selityssuhteet perustuen aikaisempaan kirjallisuuteen tai oikeutetaan teoreettiselta kannalta

Lopuksi

Monimuuttujamalleja sovellettaessa tulee huolehtia, että kausaalisuhteet on huomioitu muuttujavalinnassa sekä tulosten tulkinnassa. Mikäli malleja muodostetaan huolettomasti ilman riittävän laajaa teoreettista taustatietoa tutkittavan ilmiön luonteesta, voi mallin antamat tulokset olla vääristyneitä ja jopa täysin virheellisiä. Oikein sovellettuina monimuuttujamallit ovat kuitenkin erittäin tehokas työkalu ilmiöiden selittämiseen.

Kaikki mainitut viitteet löytyvät Lukemistosta.

Vertaisarvioinut: Mikko Uimonen, Ville Ponkilainen ja Lauri Raittio

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 6

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *