Logistinen regressio on erittäin suosittu menetelmä lääketieteellisessä tutkimuksessa. Logistinen regressio ei ole oma, erillinen menetelmänsä vaan se on lineaarisen regressiomallin erityistapaus. Logistisessa regressiossa päätemuuttujana eli mallinnettavana muuttujana on jokin binaarinen eli dikotominen muuttuja, kuten kuolema tai leikkauskomplikaatio. Se siis tarkoittaa, että muuttuja voi saada vain arvon 0 tai 1, ‘kyllä’ tai ‘ei’. Lähtömuuttujat voivat olla minkä tahansa tyyppisiä muuttujia.
Logistinen regressio sopii käytettäväksi, kun päätemuuttuja on jokin selkeästi kaksijakoinen eli binaarinen luokkamuuttuja, jonka yhteydessä ei määritetä päätetapahtumaan kuluvaa aikaa. Jos päätetapahtuman yhteydessä on tiedossa myös aika, joka kului sen ilmaantumiseen, on syytä käyttää elinaika-analyysiä, kuten Coxin mallia. Logistisen regression tarkoitus on arvioida useiden lähtömuuttujien samanaikaista vaikutusta binaariseen päätemuuttujaan. Siinä missä t-testillä voidaan verrata jatkuvan muuttujan keskiarvoa esimerkiksi kahden ryhmän välillä, lineaarinen regressio taas mahdollistaa useiden ryhmien tai muuttujien samanaikaisen vaikutuksen tutkimisen suhteessa jatkuvaan päätemuuttujaan. Vastaavasti logistinen regressio mahdollistaa useiden ryhmien tai muuttujien samanaikaisen vaikutuksen tutkimisen binaariseen muuttujaan, verrattuna Fisherin testiin tai khiin neliö -testiin, joiden avulla tutkitaan yhden lähtömuuttujan vaikutusta vastemuuttujaan.
Kertauksena lineaarisesta regressiosta voidaan todeta, että lineaarinen malli tarkoittaa tilannetta, jossa jotain muuttujaa kuvataan ns. lineaarikombinaationa. Lineaarisessa mallissa oletetaan, että riippumattomien muuttujien ja päätemuuttujan yhteys on lineaarinen, eli lähtömuuttujan arvon muuttuessa myös päätemuuttujan arvo muuttuu samassa suhteessa. Kolmen muuttujan (x1-3) lineaarikombinaatio voidaan esittää seuraavasti:
\beta_{1}*x_{1}+\beta_{2}*x_{2}+\beta_{3}*x_{3}
Jokaiselle muuttujalle x on siis oma kertoimensa β. Jos mallinnettava muuttuja on jokin jatkuva muuttuja, kyseessä on lineaarinen regressio. Tällöin tarkoitus on estimoida lineaarikombinaatiossa esiintyvien regressiokertoimien (β) arvot siten, että erotus havaittuun päätemuuttujan arvoon y olisi mahdollisimman pieni.
y=\beta_{0}+\beta_{1}*x_{1}+\beta_{2}*x_{2}+\beta_{3}*x_{3}+...+\beta_{n}*x_{n}
Logistisessa regressiossa mallinnetaan todennäköisyyttä, että päätemuuttuja y saa arvon 1 tietyillä lähtömuuttujien arvoilla. Tämä voidaan ilmaista seuraavasti:
Prob\{y=1\}=\beta_{0}+\beta_{1}*x_{1}+\beta_{2}*x_{2}+\beta_{3}*x_{3}+...+\beta_{n}*x_{n}
Ilmeinen ongelma tässä on se, että yhtälön oikea puoli voi saada arvoja alle 0 ja yli 1, mikä on mahdotonta vasemman puolen todennäköisyyksille. Näin ollen oikean puolen lineaarikombinaatiolle pitää tehdä muunnos siten, että arvot asettuvat aina välille 0-1. Tämä onnistuu logistisella muunnoksella, joka on kuvattu alla. Olipa x:n arvo mikä tahansa, niin p asettuu aina välille [0,1].
p=\frac{1}{1+exp^{-x}}
Näin ollen logistinen regressio kuvataan yhtälöllä:
Prob\{y=1\}=\frac{1}{1+exp^{-(\beta_{0}+\beta_{1}*x_{1}+\beta_{2}*x_{2}+\beta_{3}*x_{3}+...+\beta_{n}*x_{n})}}
Nyt lineaarikombinaatio eli vakiotermin (β0) sekä regressiokertoimien (β1-n) muodostama summa asettuu aina välille [0,1]. Siinä on siis mukana kaikki samat elementit kuin lineaarisessa regressiossa, mutta lineaarisuuden sijaan, ne käyttäytyvät epälineaarisesti.
Jos ratkaisemme logistisen regression yhtälön lähtömuuttujien suhteen, saamme tulokseksi:
\footnotesize \beta_{0}+\beta_{1}*x_{1}+\beta_{2}*x_{2}+\beta_{3}*x_{3}+...+\beta_{n}*x_{n}=log\frac{Prob\{y=1\}}{1-Prob\{y=1\}} =log(odds\{y=1\})
Tapahtuman todennäköisyyden (p) jakaminen sen komplementilla (1-p) vastaa sen vetosuhdetta eli vedonlyöntisuhdetta eli oddsia. Odds on käytännössä siis vain erilainen tapa esittää todennäköisyyksiä. Odds suuruudeltaan 1 vastaa 50% eli 0.5 todennäköisyyttä. Vastaavasti 95% eli 0.95 todennäkäisyys vastaa oddseja 19. Oddsit siis muuntaa todennäköisyyden 0 – 1 välille 0 – ∞.
Lähtömuuttujien muodostaman lineaarikombinaation arvo vastaa päätetapahtuman oddsien logaritmia. Yhden yksikön suuruinen muutos jossain lähtömuuttujassa xn saa aikaan regressiokertoimen βn suuruisen muutoksen päätetapahtuman todennäköisyydessä log odds -asteikolla.
Regressiokertoimet voidaan ilmaista myös vetosuhteena eli odds rationa.
\frac{odds\{y=1\vert(\beta_{n}+d)*x_{n}\}}{odds\{y=1\vert\beta_{n}*x_{n}\}} =exp(\beta_{n}*d)
Jos muuttuja xn kasvaa d:n verran, niin silloin päätetapahtuman odds kasvaa ed*βn verran. Toisin sanoen, jos muuttuja xn kasvaa d:n verran, niin päätetapahtuman log(odds) kasvaa d*βn suuruisesti. Ymmärrettävästi logistisen regressio tulkinta on selkeästi haastavampaa kuin esimerkiksi lineaarisessa regressiossa.
Aivan kuten lineaarisessa regressiossa, logistisessa regressiossakin tarkoitus on löytää logistisen yhtälön lähtömuuttujille β0-n sopivimmat arvot. Yleisimmin tämä tapahtuu suurimman uskottavuuden menetelmällä, joka on ns. iteratiivinen ja paljon enemmän laskentatehoa vaativa menetelmä kuin lineaarisessa regressio käytetty pienimmän neliösumman menetelmä.
Logistisen regression keskeisin tulosmuuttuja on yksittäisen lähtömuuttujan regressionkerroin. Logistisen regression kohdalla ne ilmoitetaan vetosuhteina (eng. odds ratio).
Vetosuhde eli vedonlyöntisuhde
Logistisen regression kohdalla on tärkeä ymmärtää vetosuhteen merkitys. Tyypillisesti tutkimuksessa on kaksi ryhmää, joissa esiintyy tietty määrä päätetapahtumia. Yleensä tämä kuvataan siten, että ryhmissä A ja B on nA ja nB määrä potilaita. Potilaita, joilla havaitaan päätetapahtuma voidaan kuvata merkinnöissä nA1 ja nB1. Vastaavasti potilaita, joilla ei todeta päätetapahtumaa voidaan kuvata merkinnöillä nA0 ja nB0.
Ja nyt siis nA0 + nA1 = nA ja nB0 + nB1 = nB.
Riskisuhde eli suhteellinen riski voidaan nyt laskea seuraavasti:
RR = \frac{ \frac{n_{A1}}{n_{A}}}{ \frac{n_{B1}}{n_{B}}}
Riskisuhde 2 tarkoittaa, että päätetapahtuman todennäköisyys tai riski on kaksinkertainen ryhmässä A verrattuna ryhmään B. Riskisuhteen tulkinta on siis hyvin käytännöllinen. Vetosuhteen tulkinta on hieman haastavampi. Vetosuhde lasketaan seuraavasti:
OR = \frac{ \frac{n_{A1}}{n_{A0}}}{ \frac{n_{B1}}{n_{B0}}}
Vetosuhteen laskemisessa ei siis käytetä suhdelukuna ryhmän kokoa vaan niiden potilaiden lukumäärää, joilla ei todettu päätetapahtumaa. Vetosuhde voi saada esimerkiksi arvon 10 vaikka toisessa ryhmässä päätetapahtuman riski olisi esimerkiksi 75%. Vetosuhteen tulkinta kuitenkin käytännön elämässä on monimutkainen.
Logistinen regressio laskee lähtömuuttujien vetosuhteiden arvot. Niitä ei kuitenkaan voi suoraan tulkita suhteelliseksi riskiksi. Alla oleva kaavio havainnollistaa riski- ja vetosuhteen keskinäistä riippuvuutta, joka riippuu taas päätetapahtuman esiintyvyydestä aineistossa. Mitä pienempi on päätetapahtuman esiintyvyys aineistossa, sitä lähemmin vetosuhde muistuttaa riskisuhdetta. Yleensä sanotaankin, että harvinaisten tapahtumien kohdalla vetosuhde voidaan tulkita likimain samaksi kuin riskisuhde.
Oletukset
Logistisessa regressiossa on hyvin vähän taustaoletuksia, mikä tekee sen soveltamisesta yksinkertaisempaa. Tärkein taustaoletus on lineaarisuus. Se tarkoittaa, että lähtömuuttujan ja päätemuuttujan logaritmisen oddsin yhteys pitää olla lineaarinen. Käytännössä se tarkoittaa, että lähtömuuttujan ja päätetapahtuman todennäköisyyden yhteys ei saa epälineaarinen, kuten J- tai U- tyyppinen. Esimerkiksi tietyn fysiologisen mittauksen yhteys päätetapahtuman riskiin saattaa nonlineaarinen. Tämä tarkoittaa, että hyvin matalat arvot ja toisaalta myös hyvin korkeat arvot lisäävät päätetapahtuman (esim. kuolema) riskiä. Tämän tyyppiset selvitykset tulisi tehdä ennen monimuuttuja-analyysiä.
Lisäksi logistisen regression keskeinen oletus on, että kaikki havainnot ovat itsenäisiä. Voimakasta kolinearisuutta ei myöskään saisi olla. Nämä ovat samoja oletuksia kuin lineaarisessa regressiossa. Näitä on kuvattu tarkemmin artikkelissa Lineaarinen regressio – perusteet.
Yksi tärkeä huomio, joka ei kuitenkaan varsinaisesti ole oletus, on se, että luokkamuuttujissa pitää olla riittävästi päätetapahtumia jokaisessa kategoriassa. Mallissa voi olla esimerkiksi mukana sukupuoli, kolmikategorinen sairausluokitus (A/B/C) ja jokin dikotominen päätemuuttujana (0/1). Jos aineistossa ei ole yhtään naispotilasta, jolla olisi sairausluokka A sekä tutkittu päätemuuttuja (1), kyseessä on ns. epästabiili malli. Tämä näkyy siten, että jonkin lähtömuuttujan vetosuhteen luottamusvälin yläraja on satoja tuhansia tai miljoonia. Jotta logistinen regressio onnistuu luotettavasti, pitää kaikkien luokkamuuttujien eri kategorioiden yhdistelmissä olla vähintään yksi päätetapahtuma. Varsinkin, jos päätetapahtuman esiintyvys on pieni (alle 10%), epästabiili malli on todellinen riski. Tarvittaessa luokkamuuttujia pitää yhdistää tai jättää jopa pois, jos informaatiosisältöä ei ole tarpeeksi.
Mallin kokonaisarvio
Yksittäisten lähtömuuttujien ja niiden regressiokertoimien suuruudet eivät ole aina tärkeimpiä arvioitavia seikkoja logistisessa regressiossa. Lineaarisessa regressio kokonaisselitysaste R2 ja mallin keskivirhe kertovat miten hyvin lähtömuuttujien joukko kuvaa ja ennustaa päätemuuttujaa sekä miten hyvin monimuuttujamalli asettuu aineistoon. Edelleen on hyvä muistuttaa, että vaikka yksittäinen riskitekijä olisikin tilastollisesti merkitsevä, sen merkitys voi kokonaisuuden kannalta olla hyvin vähäinen. Logistisessa regressiossa on myös monia tapoja miten arvioida sitä, miten lähtömuuttujien kokonaisjoukko ennustaa päätemuuttujaa ja miten malli asettuu aineistoon.
Logistisessa regressio voidaan raportoida useita erilaisia R2-arvoja. Niitä kutsutaan usein pseudo-R2-arvoiksi, koska niiden laskentatapa on täysin erilainen kuin lineaarisessa regressiossa, jossa R2-kuvaa selitetyn vaihtelun suhdetta kokonaisvaihteluun. Cox-Snellin R2, MacFaddenin R2 sekä Nagelkerken R2 ovat kaikki erilaisia menetelmiä kuvata sitä miten hyvin monimuuttujamalli asettuu aineistoon ja mikä on mallin ennustekyky. Eri tilasto-ohjelmat raportoivat niitä vaihtelevasti. Niiden tulkinta on haasteellista ja riippuu käytetystä luvusta. Kaikilla luvuilla minimiarvo on kuitenkin 0, joka kuvaa, että malli ei istu ollenkaan aineistoon. Maksimiarvot puolestaan vaihtelevat ja saattavat riippua esimerkiksi päätetapahtuman esiintyvyydestä aineistossa. Nyrkkisääntönä voi kuitenkin pitää sitä, että mille tahansa luvulle alle 0.1 luvut ovat melko matalia ja 0.3 – 0.5 välille asettuvat luvut kuvastavat, että malli asettuu aineistoon melko hyvin ja mallin ennustekyky on melko hyvä.
Ennustenäkökulman kannalta tärkeää on myös arvioida, onko lopullinen tilastomalli ns. kalibroitu eli miten hyvin tilastomallin ennustamat todennäköisyydet vastaavat todellisia. Malli voi olla hyvin kalibroitu esimerkiksi matalille todennäköisyyksille tarkoittaen, että jos päätetapahtuman todennäköisyys 0-10% niin malli pystyy tämän arvioimaan melko tarkasti. Toisaalta korkeiden todennäköisyyksien osalta malli voi antaa virheellisiä arvoja eli se ei ole kalibroitu niiden suhteen. Hyvin monissa lääketieteellisissä aineistoissa päätetapahtuman ilmaantuvuus on matala (<10%). Jos aineisto koostuu lisäksi enimmäkseen potilaista, joilla päätetapahtuman riski on matala, ennustemalleilla on usein haasteita suurilla todennäköisyyksillä johtuen siitä (huono kalibraatio), että aineistossa on niin vähän korkean riskin potilaita, että niiden mallintaminen on haasteellista. Kalibraation osalta tutkimuksissa raportoidaan usein Hosmer-Lemeshow -testin tulos, jolla arvoidaan mallin kalibraatiota. Tämä on testi on kuitenkin epäluotettava eikä sitä kannata käyttää. Paras keino on yleensä esittää ns. kalibraatiokuvaaja.
Lopuksi
Kuten minkä tahansa monimuuttujamallin tapauksessa, myöskään logistisen regression kohdalla ei pidä lähteä tekemään analyysejä ilman perusteellista pohdintaa siitä, mitä halutaan selvittää ja mikä on keskeinen tutkimuskysymys. Yleinen virhe on ottaa kaikki saatavilla olevat muuttujat, tehdä niiden pohjalta logistinen regressio ja tulkita yksittäisiä vetosuhteiden arvoja merkityksellisiksi tai merkityksettömiksi. Näin ei tule toimia vaan keskeistä on pohtia halutaanko selvittää tietyn altisteen tai lähtötekijän kausaalista vaikutusta päätemuuttujaan vai onko painopiste enemmän ennusteellinen eli miten tietyillä lähtömuuttujilla voidaan ennustaa päätemuuttujaa. Tästä aiheesta löytyy runsaasti aikaisempia kirjoituksia.
Muita aiheita
- Johdantoa monimuuttujamalleihin – selittäminen, ennustaminen ja vaihtelun selittäminen
- Pohdintaa riskitekijöistä
- Käytännön näkökulmia monimuuttujamalleista
Kirjoittanut Aleksi Reito, vertaisarvioinut Mikko Uimonen ja Ville Ponkilainen
Kiitos selkeästä jutusta.
Ks oheinen lause:
Mitä suurempi on päätetapahtuman esiintyvyys aineistossa, sitä lähemmäin vetosuhde muistuttaa riskisuhdetta.
Pitäisi varmaan olla vähemmän tai sitten mitä pienempi esiintyvyys, sitä lähemmin vetosuhde muistuttaa riskisuhdetta.
Kiitos viestistä! Siinä oli kirjoitusvirhe, kuten totesit. Nyt korjattu.