Artikkelissa hyödynnetään DAGitty -sovellusta. Pika-ohje sen käyttöön löytyy täältä.
Johdanto
Edellisessä artikkelissa kuvattiin selittämiseen liittyviä keskeisiä huomioita sekä teoreettista pohjaa selityssuhteille havainnoivassa tutkimuksessa. Tässä artikkelissa käydään läpi käytännön esimerkkejä siitä, miten selitysmalleja ja kausaalisuhteita voidaan hyödyntää harhan minimoimiseksi havainnoivassa tutkimuksessa.
Aikaisemmassa artikkelissa kuvattiin miten sekoittava tekijä, mediaattori eli välitysmuuttuja ja collider-muuttuja tulisi huomioida selityssuhteiden osalta. Tutkimuksissa asetelmat ovat kuitenkaan harvoin niin yksinkertaisia, kuin esimerkeissä oli kuvattu. Yleensä saatavilla olevia muuttujia on paljon enemmän ja kausaalikuvaajat ovat paljon monimutkaisempia.
Kausaalikuvaajan rakentamiseen ei ole olemassa vain yhtä oikeaa tapaa. Kausaalikuvaajan rakenne perustuu aikaisempaan tietoon, teoreettiseen viitekehykseen ja loogiseen päättelyyn. Kausaalikuvaaja on paras näkemys vallitsevasta tiedosta miten syy-seuraussuhteet sijoittuvat tutkitun aiheen ympärille. Kausaalikuvaajat eivät ole ehdottoman objektiivisia näkemyksiä, siitä miten selityssuhteet muuttujien välille rakentuvat.
Shrier ja Platt (2008) (S&R jäljempänä) ovat kuvanneet selkeän 6 vaiheen tekniikan, miten harhaa voidaan minimoida, kun tutkimuksessa käytetään useita kovariaatteja eli selittäviä muuttujia altisteen ja päämuuttujan lisäksi. Menetelmä perustuu kausaaliteorian pioneerin Judea Pearlin menetelmiin.
Käytännön esimerkki
S&R käyttävät esimerkkinä lämmittelyn vaikutusta loukkaantumiseen ennen urheilusuoritusta. Tässä asetelmassa lähtömuuttuja eli pääaltiste on lämmittely ja päätulosmuuttuja on loukkaantuminen. Tutkijoilla on käytettävissään kaksi selittävää muuttujaa: neuromuskulaarinen väsymys ja kudosjäntevyys. Nämä ovat siis muuttujia, joita pystytään mittaamaan laadullisesti tai määrällisesti samoin kuin altistetta ja päätulosmuuttujaa. Alla on S&R:n artikkelissa kuvattu kausaalikuvaaja, jossa on mukana kaikki edellä olevat muuttujat sekä muita latentteja eli ei-mitattavissa olevia muuttujia.
Keskeistä on ymmärtää, että kausaalikuvaajia rakentaessa ei pidä mallintaa vain niitä muuttujia, jotka voidaan mitata ja käyttää kovariaatteina vaan mukaan pitää ottaa myös latentit eli hypoteettisesti mallinnettavissa olevat muuttujat, jotka ovat tärkeitä ja perusteltuja kokonaisuuden kannalta. Kuviossa 1 on mukana esimerkiksi koordinaatio pelin aikana, joka on mediaattori eli välitysmuuttuja altisteen ja tulosmuuttujan välillä. Sitä ei voi helposti mitata, mutta se on looginen muuttuja teorian tasolla kausaalikuvaajassa. Lämmittely hyvin todennäköisesti parantaa pelinaikaista koordinaatiota, jolla on taas suotuisa vaikutus loukkaantumisriskiin.
S&R kuvaavat siis 6 kohdan ohjeen, jonka tarkoitus on lopuksi kuvata jääkö altisteen ja tulosmuuttujan välille yhteys graafisesti. Jos näin käy, kyseiseen selityssuhteeseen altisteen ja päätulosmuuttujan välillä tulee harhaa, jos mallissa on mukana siinä kuvatut selittävät muuttujat. Alla on kuvattu S&R:n ohjeilla saatu lopullinen kausaalikuvaaja. Altisteen ja päätulosmuuttujan välillä ei nyt kuvaudu yhteyttä. Tämä tarkoittaa, että taustaoletusten ollessa voimassa, harhan määrää on minimoitu altisteen ja päätulosmuuttujan kokonaisvaikutuksessa.
dagitty.net -sovelluksessa sama asia mainitaan oikeassa yläkulmassa, kun kuvio 1 on piirretty sovellukseen. Siinä ilmoitetaan millä muuttujilla pitää vakioida, jotta voidaan arvioida altisteen ja päätulosmuutujen välistä kokonaisvaikutusta mahdollisimman harhattomasti.
Harhan tunnistaminen
Katsotaan sitten samaa esimerkkiä uudestaan, mutta otetaan muuttuja aiempi loukkaantuminen nyt mukaan mitattavana muuttujana ja selittävänä tekijänä mahdollisessa monimuuttujamallissa. S&R:n menetelmän jälkeen toteamme, että nyt altiste on graafisesti yhteydessä tulosmuuttujaan (ei kuvaa esillä, artikkelin kuva X). Näin ollen näiden selittävien muuttujien eli kovariaattien mukaan ottaminen monimuuttujamalliin aiheuttaa harhaa altisteen ja tulosmuuttujan väliseen kokonaisvaikutukseen. dagitty -sovelluksessa asia käy ilmi siten, että tietyt vaikutussuhteet kuvautuvat punaisina.
Lisäksi sovellus ilmoittaa, että altisteen ja tulosmuuttujan väliseen suoraan vaikutuksen arviointi valituilla kovariaateilla ei ole mahdollista.
Tulosten tulkinta ja Taulukko 2 -harha
Erittäin yleinen tapa lääketieteessä on kuitenkin ottaa mukaan kaikki muuttujat, jotka on saatavilla ja mitattavissa eikä mitään pohdintaa mahdollisista kausaalisuhteista tehdä. Esimerkiksi edellä olevassa esimerkissä tutkija saattaisi ottaa siis lähtömuuttujan ja kolme mitattavissa olevaa muuta muuttujaa ja laittaa ne kaikki samaan monimuuttujamalliin. Lopputuloksena tutkijalla olisi regressiokertoimet neljälle eri muuttujalle. Tavallisimmat regressioanalyysimenetelmät eivät erittele muuttujia toisistaan eivätkä ota mitenkään huomioon kausaalisuhteita. Oletetaan, että lämmittelyn ja neuromuskulaarisen väsymyksen regressiokertoimet ovat tilastollisesti merkitseviä. Hyvin yleinen tapa on tämän jälkeen todeta, että lämmittely tai sen puute ja neuromuskulaarinen väsymys ovat “riskitekijöitä” loukkaantumiselle tai että ne ovat “itsenäisesti yhteydessä” loukkaantumiseen. Näin ei kuitenkaan ole. Ensinnäkin regressiokertoimien osalta kuuluu tulkita vain pääaltisteen arvo. Muiden selittävien tekijöiden kertoimia ei pidä eikä tarvitse edes raportoivat. Ne eivät kerro kyseisten muuttujien suorasta vaikutuksesta päätemuuttujaan. Jos näin halutaan tehdä, pitää rakentaa uusi kausaalimalli, jossa kyseinen muuttuja on altisteena. Jos neuromuskulaarinen väsymys olisi altiste, pitäisi koko malli rakentaa tästä näkökulmasta.
Edellä tutkija syyllistyy ns. Taulukko 2 -harhaan. Tämä tarkoittaa virheellistä oletusta siitä, että kaikki muuttujat ovat toistensa suhteen vakioitu. Tämä ei ole kuitenkaan koskaan realistinen olettamus menetelmäopillisesti. Kussakin monimuuttujamallissa tarkastellaan vain yhtä kausaalimallia, jossa voi olla vain yksi altiste. Muiden muuttujien tehtävä on minimoida harhaa altisteen ja päätemuuttujan välisen kokonaisvaikutuksen osalta.
Lopuksi
Edellä kuvattu lähestyminen koskee tavallisia regressiomenetelmiä, kuten lineaarista, logistista ja elinaikaregressiota. Tärkeää on huomioida, että asianmukainen kausaalimallin käyttö ja edellä kuvattu menetelmä ei poista harhaa, se ainoastaan minimoi sitä kunkin kausaalimallin osalta. Lisäksi ei ole olemassa ehdottoman väärää tai oikeaa kausaalimallia. Tärkeintä on kertoa avoimesti ja läpinäkyvästi ne oletukset ja hypoteesit, joita tutkimuksessa hyödynnetään kausaalimallien rakentamisessa.