Käytännön näkökulmia monimuuttujamalleista

Monimuuttujamallit Ei kommentteja

Erilaiset monimuuttujamallit ovat lääketieteellisen tutkimuksen yleisimpiä tilastollisia menetelmiä. Yleinen asetelma on se, että tutkimusaineistossa on useita muuttujia, joiden keskinäisiä vaikutuksia tiettyyn päätemuuttujaan halutaan selvittää. Oikein käytettynä monimuuttujamallit tarjoavat tähän erinomaisen työkalun. Monimuuttujamallien käyttöön liittyy kuitenkin runsaasti erilaisia virheellisiä toimintatapoja sekä sudenkuoppia. Tässä artikkelissa käydään läpi erilaisia käytännön näkökulmia monimuuttujamallien käyttöön ja tulkintaan. Oletuksena on, että lukija hyödyntää analyyseissään yleisimpiä regressiomenetelmiä, kuten lineaarista, logistista tai Coxin regressiota.

Selittämässä vai ennustamassa?

Yksi tärkeimpiä näkökohtia monimuuttujamallien soveltamisessa on tutkimuskysymys. Aivan keskeistä on erottaa toisistaan selittäminen ja ennustaminen. Näiden eroista on kirjoitettu aiemmin artikkelissa Johdantoa monimuuttujamalleihin – selittäminen, ennustaminen ja vaihtelun selittäminen. Tutkimuskysymysten luonteesta on myös kirjoitettu artikkelissa Lääketieteellisiä tutkimusasetelmia tutkimuskysymyksen näkökulmasta.

Kertauksena todettakoon, että selittämisessä tarkoitus on tutkia, miten tai kuinka paljon jokin altiste vaikuttaa mielenkiinnon kohteena olevaan päätemuuttujaan (esim. altistaako tupakointi ylipainolle ja kuinka paljon). Ennustamisessa puolestaan selvitetään miten hyvin tietty lähtömuuttujien joukko ennustaa mielenkiinnon kohteena olevaa päätemuuttujaa (esim. miten tietyt lähtömuuttujat ennustavat leikkauskomplikaatiota).

Lähdeviitteitä aiheesta löytyy Lukemiston osiosta E (Selittäminen ja ennustaminen).

Määrittelemätön monimuuttujamalli

Hyvin yleinen monimuuttujamallia hyödyntävä tutkimusasetelma on ns. määrittelemätön monimuuttujamallinnus. Tämä on artikkelin kirjoittajien itsensä laatima termi, jolla ei ole selkeää englanninkielistä vastinetta. Määrittelemätön monimuuttujamallinnus tarkoittaa tutkimusta, jossa sekoitetaan ennusteellisen ja kausaalisen eli selitysnäkökulmaa hyödyntävän mallinnuksen menetelmiä ja termistöä. Tutkimuksessa voidaan esimerkiksi käyttää ennusteellisen tutkimuksen terminologiaa, mutta toisaalta tehdään kausaalisia päätelmiä. Tällaisessa monimuuttujamallissa ei ole siis selkeästi määritelty mihin sillä pyritään.

Ennusteellinen termistö tarkoittaa sitä, että lähtömuuttujista käytetään termiä ennustetekijä (eng. predictor) ikäänkuin kuvaamassa ennusteasetelmaa. Selitysnäkökulma saattaa taas tarkoittaa sitä, että monimuuttujamallin tuloksia tulkitaan, siten että jonkin yksittäisen muuttujan sanotaan vaikuttavan päätetapahtumaan ikäänkuin kausaali- eli syy-seuraustyyppisesti (eng. variable X causes/affects outcome Y). Lisäksi monimuuttujamallin muuttujista voidaan käyttää termiä sekoittavat tekijät ilman tarkempaa määritystä pääaltisteesta tai kausaalimalleista. Sekoittavilla tekijöillä (eng. confounder) on merkitystä vain, kun muuttujien vaikutuksia arvioidaan selityssuhteiden kautta. Jos pohditaan päätemuuttujan ennustamista, pitää lähtömuuttujia miettiä aina yhdistelmänä eikä yhden muuttujan ennustekykyä ole mielekästä pohtia. Jos halutaan tarkastella yhden tietyn lähtömuuttujan vaikutuksia päätetapahtumaan, kannattaa suosia selityssuhteiden tarkastelua.

Hyvin usein tutkimuksissa syyllistytään myös ns. yhteisen vakioinnin harhaan (eng. mutual adjustment fallacy) eli “taulukko 2 harhaan”. Tämä viittaa virheelliseen käsitykseen siitä, että monimuuttujamalliin valikoidut muuttujat vakioisivat kaikki toisensa keskenään ja mallin antamat regressiokertoimet kuvaisivat siten kunkin lähtömuuttujan itsenäisiä vaikutuksia päätemuuttujaan. Tällainen käsitys on kuitenkin väärä mikäli tällaisen monimuuttujamallin lähtömuuttujavalinnassa ei huomioida lähtö- ja päätemuuttujien välistä syy-seuraussuhteiden verkostoa tai selityssuhdemallia. Tätä on kuvattu tarkemmin esimerkiksi artikkelissa Selityssuhteiden hyödyntäminen ja harhan minimointi havainnoivassa tutkimuksessa.

Muuttujien valinta monimuuttujamallinnuksessa pitää perustua aina johonkin selkeästi perusteltuun menetelmään. Sellainen ei ole ns. “all in” -menetelmä, jossa kaikki saatavilla olevat muuttujat otetaan mukaan ilman pohdintaa tutkimuskysymyksen edellyttämästä menetelmästä. Tarkemmin aihetta käydään läpi artikkelin seuraavissa kappaleissa.

Riskitekijöitä etsimässä

Erittäin yleinen tapa lääketieteellisessä tutkimuksessa on yhdistää ennustaminen ja selittäminen tutkimusasetelmaksi, jossa selvitetään riskitekijöitä jollekin päätetapahtumalle. Riskitekijätutkimuksessa syyllistytään myös hyvin usein edellä kuvattuun yhteisen vakioinnin harhaan sekä määrittelemättömään monimuuttujamallinnukseen. Tämän tutkimusasetelman haasteita on käyty läpi artikkelissa Pohdintaa riskitekijöistä.

Hyvin usein riskitekijätutkimuksissa riskitekijän ainoana määritelmänä on pidetty tilastollisesti merkitsevää regressiokerrointa monimuuttujamallissa. Tämän luonnollinen seuraus on se, että käsite ‘riskitekijä’ vittaa viime kädessä vain tilastolliseen yhteyteen kahden muuttujan välillä ottamatta kantaa syy-seuraussuhteeseen. Mitä suurempi aineisto on kyseessä, sitä heikommat tilastolliset yhteydet osoittautuvat tilastollisesti merkitseviksi ihan jo satunnaisvaihtelun vuoksi. Näin ollen melkein minkä tahansa muuttujan tai tekijän voidaan osoittaa olevan “riskitekijä”, jos aineisto on tarpeeksi iso. Pelkän riskitekijä-analyysin pohjalta ei voida päätellä mitään mahdollisista syy-seuraussuhteista altisteen ja päätemuuttujan välillä.

Riskitekijä-analyysillä lasketulla altistemuuttujan suhteellisella vaikutuksella päätemuuttujaan voi olla rajatapauksissa jotain hyötyä, jos tarkastellaan vain yhtä riskitekijää suhteessa taustariskiin. Jos riskitekijä ilmaisee suhteellisen riskin kasvua, voidaan riskitekijää hyödyntää päätemuuttujan ennustamisessa, kun tiedossa on absoluuttisen riskin lähtötaso. Kahden riskitekijän kohdalla kuitenkin tilanne muuttuu kuitenkin jo hyvin ongelmalliseksi, sillä kahden lähtömuuttujan yhdessä aiheuttama riski ei ole kumulatiivinen vaan vuorovaikutuksellinen. Tämän vuoksi kärjistäen voidaan sanoa, että riskitekijätutkimus (“A ja B ovat riskitekijöitä tapahtumalle X”) johtaa hyvin harvoin konkreettiseen ja käytännön työn kannalta hyödylliseen tulokseen ja päätelmään. Käytännön työssä, kun arvioimme jonkin päätetapahtuman riskiä, meillä on käytössä useita eri riskitekijöitä tai ennusteellisia muuttujia. Jos tutkimuksessa raportoidaan vain näiden yksittäisten riskitekijöiden suhteellisia vaikutuksia, nämä eivät tarjoa työvälineitä käytännön työn päätöksentekoon, koska viime kädessä päätöksissämme nojaamme absoluuttisiin ja ehdollisiin todennäköisyyksiin.

Riskitekijöiden sijasta tulisi siis keskittyä raportoimaan kliinisiä ennustemalleja, kun mietitään useiden päätöksenteon kannalta oleellisten muuttujien merkitystä päätetapahtuman suhteen. Kliininen ennustemalli (eng. clinical prediction model) tarkoittaa monimuuttujamalliin perustuvaa työkalua, jolla voidaan arvioida esimerkiksi tietyn päätetapahtuman riskiä tietyillä lähtömuuttujien arvoilla. Hyvin perinteinen kliininen ennustemali FINRISKI-laskuri.

Lisäksi on tärkeä on huomioida, että logistinen regressio on yksi yleisimpiä tapoja määritellä riskitekijöitä. Logistisella regressiolla saadut regressiokertoimet ovat aina vetosuhteita. Nämä eivät ole sama asia kuin suhteellinen riski. Eli vetosuhde 1.5 ei suoraan tarkoita 50% suhteellisen riskin nousua. Tämäkin korostaa ennustemallien tärkeyttä, koska yksittäisen vetosuhteet ovat hyvin epäkäytännöllisiä soveltaa kliiniseen päätöksentekoon.

Metodologisesti hyväksyttyjä tapoja rakentaa monimuuttujamalli

Monimuuttujamallin rakentamisessa keskeistä on valita muuttujat, jotka sisällytetään malliin. Tulosmuuttujan perusteella valitaan käytettävä tilastollinen malli. Jatkuvien muuttujien kohdalla voidaan käyttää esimerkiksi lineaarista regressiota ja binaaristen muuttujien kohdalla logistista tai binomiaaliregressiota.

Lähtömuuttujien valinta riippuu tutkimuskysymyksestä. Jos tavoite on selittää eli tutkia yhden lähtömuuttujan vaikutusta päätemuuttujaan, muuttujien valinta pitää tehdä hyödyntäen selityssuhteita lähtömuuttujan ja päätetapahtuman välillä. Lähtömuuttujan ja päätemuuttujan valinta on luonnollisesti suoraviivaista. Haastavinta on valita nimenomaan sekoittavia tekijöitä siten, että harhan määrä on minimoitu. Tässä keskeistä on pyrkiä siihen, että vain todelliset sekoittavat tekijät valitaan mukaan eikä esimerkiksi mediaattoria eli välitysmuuttujia. Lähdeviitteitä aiheesta löytyy Lukemiston osiosta E (Selittäminen ja ennustaminen).

Jos tutkimuksen tavoite on enemmän ennustaa eli tutkia tietyllä lähtömuuttujien joukolla voidaan arvioida päätemuuttujan arvoa (jatkuva muuttuja) tai todennäköisyyttä (binaarinen muuttuja), ei tarvitse pohtia sekoittavien tekijöiden merkitystä. Tällöin keskeistä on valita muuttujat ennustekyvyn näkökulmasta. Tästä aiheesta on kirjoitettu erillinen artikkeli Ennustemallin laatiminen ja muuttujien valinta. Samoja periaatteita voi soveltaa, jos tavoite on selvittää päätetapahtuman riskitekijöitä, mutta tutkijan kannattaa pohtia tarkkaan onko ns. riskitekijätutkimus tutkittavan asian kannalta paras lähtökohta. Riskitekijäasetelman sijasta kannattaa esimerkiksi käyttää ennusteasetelmaa. Tällöin voidaan arvioida esimerkiksi lähtömuuttujien keskinäistä tärkeysjärjestystä päätemuuttujan suhteen ja arvioida, kuinka paljon lähtömuuttujat selittävät päätemuuttujien vaihtelusta. Jokin lähtömuuttuja saattaa olla tilastollisesti merkitsevä, mutta jos kaikki muuttujat selittävät vain muutaman prosentin kokonaisvaihtelusta, kyseessä ei ole kovin oleellinen lähtömuuttujien joukko päätemuuttujan osalta.

Olipa tutkimuksen tarkoitus selittää eli tutkia altisteen vaikutusta päätemuuttujaan, laatia ennustemalli tai tutkia riskitekijöitä, muuttujien valinta ei saisi koskaan perustua yksikerrallaan tehtyyn “seulontaan” tai askeltavaan valintaan. Tästä on kerrottu tarkemmin artikkelissa Ennustemallin laatiminen ja muuttujien valinta, mutta ohjeet koskevat mitä tahansa monimuuttujamallin rakentamista.

Jatkuvien muuttujien pilkkominen

Jatkuvien muuttujien kategorisointi on yksi suurimmista ongelmista monimuuttuja-analyyseissä. Pilkkominen tarkoittaa nimensä mukaisesti sitä, että jatkuva muuttuja, kuten ikä jaetaan analyysiä varten ryhmiin, kuten alle 65-vuotiaat sekä 65-vuotiaat ja sitä vanhemmat. Jatkuvien muuttujien pilkkomiselle tai luokittelulle on hyvin harvoin mitään perusteita. Jatkuvat muuttujat tulee aina analysoida ja raportoida jatkuvina. Se tarkoittaa sitä, että regressiokerroin raportoidaan yhtä mittayksikköä kohden kuten vuotta tai BMI-yksikköä kohti eikä siten, että regressiokerroin raportoidaan muuttujalle “BMI yli 35”.

Ensinnäkin jatkuvien muuttujien pilkkominen johtaa aina informaatiohukkaan sekä tilastollisen voiman menetykseen. Pilkkominen on tilastollisesti ongelmatonta vain, jos jatkuva muuttuja on jakautunut täysin uniformisti eli tasaisesti, mutta näin ei käytännössä koskaan ole biolääketieteessä. Yksinkertaisilla simulaatiotutkimuksilla voi osoittaa, että yhden jatkuvan muuttujan pilkkominen kaksiluokkaiseksi johtaa noin 30% menetykseen tilastollisessa voimassa. Tämä siis tarkoittaa samaa, että heittäisimme aineistostamme kolmanneksen pois. Tätä kukaan tutkija ei varmasti tarkoituksenmukaisesti tekisi.

Jatkuvan muuttujan pilkkominen johtaa myös tulkinnallisiin ristiriitaisuuksiin. Oletetaan, että tutkimuksessa on selvitetty iän vaikutusta sydäninfarktiriskiin ja tuloksena on, että ikä yli 65 vuotta kaksinkertaistaa riskin verrattuna alle 65-vuotiaiden ryhmään. Tämä tarkoittaa sitä, että 66-vuotiaan potilaan riski olisi kaksinkertainen verrattuna 64-vuotiaaseen. Toisaalta tulos tarkoittaisi myös, että 31-vuotiaan riski olisi yhtä suuri kuin 64-vuotiaan. Kumpikin näistä tilanteista on varsin epälooginen ja epäintuitiivinen. Todellisuudessa iän vaikutus on jatkumo ja ikä pitää analysoida jatkuvana eli tutkia mikä on riskin muutos yhtä ikävuotta kohti.

Toisinaan pilkkomisella ajatellaan saavutettavan jonkinlaista mahdollisuutta epälineaaristen yhteyksien tutkimiseen. Tutkijat voivat olettaa esimerkiksi iän vaikutuksen olevan J-kirjaimen muotoinen tarkoittaen esimerkiksi, että alle 40-vuotiaisiin verrattuna, 40-65 vuotiaiden riski ei ole selkeästi koholla, mutta yli 65-vuotiaiden taas olisi. Pilkkominen ei ole tässäkään perusteltu vaan silloin analyysissä pitää tehdä jotain muunnoksia jatkuville muuttujille. Jatkuvat muuttujat voidaan muuntaa esimerkiksi spline-funktioiksi, jolloin epälineaariset yhteydet voidaan arvioida ilman tilastollisen voiman menetystä.

Lopuksi

Edellä on kuvattu erilaisia huomioitavia asioita monimuuttujamallien käytöstä. Kyseessä ei ole kaiken kattava lista ja osa asioista riippuu myös tarkasta tutkimuskysymyksestä. Kuitenkin pääpiirteissään edellä on kuvattu menetelmiä ja toimintatapoja, joilla voidaan edistää kliinisen tutkimuksen laatua tutkimusmenetelmien näkökulmasta.

Kirjoittanut Aleksi Reito. Vertaisarvioinut Mikko Uimonen ja Ville Ponkilainen.

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 0 / 5. Arvostelujen lukumäärä: 0

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *