Ennustemallin laatiminen ja muuttujien valinta

Monimuuttujamallit Ei kommentteja

Keskeinen soveltavan tilastotieteen menetelmä lääketieteellisessä tutkimuksessa on ennustemallin laatiminen ja kehittäminen. Tavoite on tällöin arvioida, miten hyvin annetuilla lähtömuuttujilla voidaan ennustaa päätemuuttujaa ja miten hyvin lähtömuuttujat selittävät päätemuuttujan vaihtelua tai todennäköisyyttä. Myös lähtömuuttujien keskinäistä tärkeyttä kokonaisuuden kannalta voidaan arvioida ennustemallin näkökulmasta.

Kokonaisselitysasteen R2 tutkiminen antaa tietoa, siitä miten hyvin lähtömuuttujilla voidaan selittää päätemuuttujan vaihtelua. Jos kaikki vaihtelu voidaan selittää matemaattisesti, päätemuuttuja voidaan ennustaa varsin tarkasti. Jos lähtömuuttujilla saavutetaan esimerkiksi vain muutaman prosentin kokonaisselitysaste päätemuuttujan suhteen, se tarkoittaa, että lähtömuuttujat eivät välttämättä ole kliinisesti oleellisia tutkitun ilmiön kannalta, vaikka joku niistä olisikin osoitettu “riskitekijä”. Muuttujien tärkeys suhteessa toisiinsa kuvastaa taas sitä, miten paljon esimerkiksi muokattavat lähtömuuttujat suhteutuvat iän ja sukupuolen vaikutukseen päätetapahtuman osalta. Monessa lääketieteellisessä ongelmassa pelkkä ikä ja sukupuoli ovat usein tärkeimpiä lähtömuuttujia, ja muokattavissa olevat tekijät eivät juurikaan tuo lisäarvoa päätetapahtuman ennustamiseen ja kokonaisriskin kannalta. Hyvin laadittu ja validoitu ennustemalli taas saattaa olla hyödyllinen työkalu kliinisessä päätöksenteossa.

Muuttujien valinta monimuuttujamalliin on keskeinen osa monimuuttujamallien käyttöä. Valinnassa piilee kuitenkin useita sudenkuoppia, jotka pahimmillaan vääristävät koko analyysin. Jos tutkimuksen tavoite on selittää, muuttujien valinta perustuu ehdotetun selitysmallin pohjalta valikoituneisiin muuttujiin tai muihin kausaalipäättelyn sääntöihin. Oikeaoppisia tapoja tehdä muuttujien valintaa kausaliteettiasetelmissa ovat kuvanneet Shrier ja Platt (2008) sekä Van der Weele (2019) (Katso Lukemisto). Tässä artikkelissa kuvataan muuttujien valintaa ennuste- eli prediktiivisen tutkimuksen näkökulmasta.

Askeltava muuttujien valinta ja yksimuuttujaseulonta

Erittäin yleinen menetelmä riskitekijätutkimuksessa tai määrittelemättömässä monimuuttujamallinnuksessa on käyttää askeltavaa (eng. stepwise) muuttujien valintaa. Askeltavassa valinnassa lähtömuuttujia otetaan malliin tai poistetaan mallista vuorotellen. Muuttujavalinta voidaan tehdä joko eteenpäin (eli muuttujia lisäten) tai taaksepäin (eli muuttujia poistaen) askeltavasti tai niiden yhdistelmänä perustuen muuttujien tilastolliseen yhteyteen päätemuuttujaan (esimerkiksi p-arvon perusteella).

Toinen yleinen tapa muuttujien valinnassa on tehdä jokaiselle potentiaaliselle muuttujalle yksimuuttuja-analyysi eli “seulonta” ja sisällyttää monimuuttujamalliin ne muuttujat, joille p-arvo on esim alle 0.05, 0.1 tai 0.2 tai ylipäänsä minkä tahansa ennalta määritellyn luvun alle. Tämä usein tapana, jos aineistossa on useita kymmeniä potentiaalisia lähtömuuttujia.

Vaikka askeltava muuttujien valinta ja yksimuuttujavalinta ovat yleisesti käytettyjä menetelmiä muuttujien valinnassa, liittyy näihin useita metodologisia ongelmia, jotka heikentävät niiden sovellettavuutta lähes missä tahansa tutkimuksessa. Joidenkin tiedelehtien ohjeissa jopa mainitaan, että askeltavaa menetelmää ei saa käyttää. Keskeisimpänä ongelmana on, etteivät askeltavat menetelmät välttämättä pysty huomioimaan yksittäisten muuttujien ennustekykyä, sillä suuri p-arvo tai muu indikaattori ei välttämättä tarkoita, etteikö muuttujalla voisi olla ennuste- ja selitysarvoa.

Lisäksi askeltavassa valinnassa ei ole metodologisesti pätevää logiikkaa, koska menetelmä perustuu esimerkiksi vain tilastollisen suureen, kuten p-arvon vaihteluun (esim. muuttuja otetaan malliin, jos p<0.10 ja jätetään pois, jos p>0.10), vailla pohdintaa esimerkiksi aikaisemmin kuvattujen tekijöiden vaikutuksista. Selityssuhteita ei myöskään mitenkään huomioida askeltavassa muuttujien valinnassa, koska menetelmä on puhtaasti matemaattinen ja numeerinen. Askeltava muuttujien valinta johtaa myös monimuuttujamallin ylisovitukseen sekä vääristyneisiin ja harhaisiin regressiokertoimiin.

Erilaisia tapoja rakentaa ennustemalli

Hyvän ennustemallin rakentamisessa joudutaan tasapainoilemaan muuttujien lukumäärän ja ennustekyvyn kanssa. Jos ennustemallissa on esimerkiksi 10 lähtömuuttuja, se ei ole välttämättä kovin käyttökelpoinen esimerkiksi kliinisenä työkaluna tai kliinisen päättelyn tukena. Kannattavampaa on tällöin pyrkiä tekemään ennustemallista käyttökelpoisempi karsimalla lähtömuuttujien joukkoa. Tämä tapahtuu muuttujien valinnalla (eng. variable selection) eli valitsemalla kokonaismallista eli lähtömuuttujien joukosta tietty alajoukko muuttujia, jotka sisällytetään lopulliseen monimuuttujamalliin. Toki, jos mallissa on alun pitäen vain 4 muuttujaa, mitään valintaa ei välttämättä tarvitse tehdä.

Ennustemallin rakentamisessa lähtömuuttujien valinnan tulisi perustua aihetietoon ennustettavasta asiasta tai johonkin tilastotieteelliseen menetelmään kuten bootstrap-analyysiin tai penalisoituun eli regularisoituun regressiokertoimien estimointiin (esim. RIDGE, LASSO, elastinen verkko). Jos aineistossa on kymmeniä mahdollisia lähtömuuttujia, on erittäin suuri metodologinen haaste tehdä oikeaoppinen muuttujien valinta lopulliseen monimuuttujamalliin perinteisiä tilastotieteellisiä menetelmiä käyttäen. Hyvin usein tämän tyyppisessä tilanteessa tehdään edellä kuvattu yksimuuttujaseulonta, vaikka tämä ei käytännössä koskaan ole suositeltavaa. Jos analyysissä ei käytetä edellä kuvattuja laskennallisesti monimutkaisempia menetelmiä, tulisi tässä tilanteessa pyrkiä muuttujien valinnassa suosia aikaisempaa tutkimustietoa ja kausaalista päättelyä. Alla on kuvattu yksi tapa rakentaa ennustemalli, mikä noudattaa hyviä tilastotieteellisiä periaatteita. Kirjallisuudessa on kuvattu muitakin erilaisia menetelmiä, joskin niissä tulee samat periaatteet esille. Nyrkkisääntönä voidaan todeta, että on olemassa lukuisia vääriä menetelmiä rakentaa prediktiivinen eli ennusteellinen monimuuttujamalli, mutta ei siis yhtä täysin oikeaa.

Biostatistiikan pioneeri Frank Harrell on laatinut oman suosituksensa monimuuttujamallin rakentamisesta, kun tarkoitus on laatia ennustemalli (pdf). Aluksi tutkijan pitää koostaa ns. kokonaismalli eli tietty lähtömuuttujien joukko. Se tarkoittaa kaikkien sellaisten saatavilla olevien muuttujien keräämistä, joilla on todettu selkeä yhteys päätemuuttujaan tai joiden vaikutus on epäselvä, mutta mahdollinen. Tämä voi perustua aikaisempaan kirjallisuuteen, aihetietoon, kausaalipäättelyyn tai vain maalaisjärkeen. Tästä joukosta lasketaan EPV (event-per-variable) -arvo eli päätetapahtumien suhde valittuihin muuttujiin. Harrell suosittaa tekemään aineiston reduktiota eli muuttujien karsintaa ennen monimuuttujamallin rakentamista, jos ns. EPV ei ole välillä 10-15. Tämä koskee erityisesti tilanteista, joissa päätemuuttuja on binaarinen. Jos aineistossa on esimerkiksi 40 päätetapahtumaa (kuolema, komplikaatio jne.), lähtömuuttujia ei saisi olla 4-5 enempää, koska EPV on muuten liian matala. Tällä on usein monenlaisia epäsuotuisia vaikutuksia monimuuttuja-analyysissä.

Yksi keino aineiston reduktioon on katsoa millainen on kaikkien saatavilla olevien muuttujien keskinäinen korrelaatio ja karsia pois sellaisia muuttujia on vahva keskinäinen korrelaatio. Tätä on kuvattu esimerkiksi artikkelissa Lineaarinen regressio – Kuolleisuuden ennustaminen. Tämä reduktio ei tarkoita vielä varsinaista muuttujien valintaa, mistä edellä on puhuttu. Lisäksi tämän tyyppinen reduktio on myös täysin sokea kausaaliyhteyksille, joten sen käyttöön pitää suhtautua varauksella ja miettiä myös asiasisältöä.

Ideaalitilanteessa lopullinen ennustemalli sisältää ne muuttujat, jotka on alun perinkin valittu edellä kuvatuilla periaatteilla mahdollisen saatavilla olevien muuttujien joukosta. Toisinaan näitä saattaa siis olla hyvinkin runsaasti. Mitään tarkkaa raja-arvoa sille mikä on paljon ei ole, mutta yli 8-10 muuttujaa sisältävä kokonaismalli voi olla epäkäytännöllinen käsitellä ja tulkita. Harrell suosittaa käyttämään ns. taaksepäin eliminointia (eng. backward elimination), jos halutaan tehdä mallista yksinkertaisempi eli parsimoonisempi muuttujien lukumäärän suhteen. Siinä määritetään alkuvaiheen kokonaismalli ja katsotaan muuttujien regressiokertoimien tilastollinen merkitsevyys p-arvolla kuvattuna. Tämän jälkeen mallista poistetaan se muuttuja, jolla on suurin p-arvo. Tämän jälkeen tehdään uudestaan monimuuttuja-analyysi ja poistetaan jälleen se muuttuja, jolla on suurin p-arvo. Tätä toistetaan niin kauan kuin jäljellä olevien muuttujien p-arvot ovat alle ennalta sovitun raja-arvon. Valinnan voi tehdä myös AIC-arvoon perustuen.

Keskeistä on ymmärtää, että edellä kuvattu menetelmä on tarkoitettu tilanteisiin, joissa on tarkoitus muuttujien lukumäärää karsimalla parantaa sen käytettävyyttä huomioiden kuitenkin samalla mallin ennustekykyä. Kyseessä ei ole siis lopullisten muuttujien valinta isommasta saatavilla olevien muuttujien joukosta. Jos muuttujien karsiminen tiputtaa reilusti mallin ennustekykyä, ei valintaa toki kannata tehdä. Taaksepäin eliminaatio, kuten mikään muukaan menetelmä ei huomioi esimerkiksi selityssuhteiden merkitystä eikä sitä saa käyttää kausaalimallin rakentamiseen havainnoivassa tutkimuksessa ja selitysasetelmassa.

Harrell ei suosita käyttämään mitään tiettyä p-arvorajaa, mutta korostaa stabiliteetin testausta, jos muuttujien valintaa tehdään. Harrell nojaa erityisesti mallin validointiin bootstrap-menetelmään perustuen. Se tarkoittaa menetelmää, jossa otetaan useita kymmeniä tai satoja kertoja tietty otos aineistosta ja tehdään edellä kuvattu taaksepäin eliminaatio. Jokaisella otoksella katsotaan mitkä muuttujat päätyvät lopulliseen malliin. Mitä useammin samat muuttujat päätyvät valituksi, sitä stabiilimpi malli on muuttujien valinnan osalta. Kuvitellaan esimerkiksi, että aineistossa on 300 potilasta. Kokonaismalliin on valittu muuttujat A-G. Malli on melko stabiili, jos tietyllä, vaihtelevalla otoksella aineistossa muuttujat A-D tulee valituksi 90 kertaa sadasta ja E-G harvemmin. Jos taas muuttujat A, C, D ja G tulevat valituksi yhtä usein kuin B, C, E ja F malli on edelliseen nähden epästabiilimpi, koska muuttujien valinta on herkkä sille millainen otos aineistosta tulee poimituksi bootstrap-analyysiin kullakin kerralla.

R esimerkki

Esimerkissä selvitämme miten hyvin eri kehonosien mittauksilla voidaan arvioida kehon rasvamäärää eli rasvaprosenttia. Rasvamäärä voidaan selvittää monimutkaisella konetutkimuksella, joten on mielenkiintoista selvittää voidaanko eri kehonosien mittauksilla arvioida helpommin ja halvemmin samaa asiaa. Käytämme esimerkissä aineistoa joka löytyy ilmaiseksi osoitteesta: https://ww2.amstat.org/publications/jse/v4n1/datasets.johnson.html.

Päätulosmuuttujamme on muuttuja Siri, joka tarkoittaa Sirin menetelmällä laskettua kehon rasvaprosenttia. Käytettävissä on 13 lähtömuuttujaa: ikä, pituus, paino sekä niskan, rinnan, vatsan, lantion, reiden, polven, nilkan, ranteen ja kyynärvarren ympärysmitta. Alkuvaiheessa on perusteltua sisällyttää kokonaismalliin mukaan kaikki mitatut muuttujat, koska kovin selkeää perustetta ei ole miksi jokin muuttuja jätettäisiin suoraan pois kokonaismallista.

Käytämme esimerkissä rms -pakettia, joka erittäin monipuolinen työkalu regressiomallien käytössä. Luomme lineaarisen mallin käyttämällä komentoa ols(), joka vastaan R:n peruskomentoa lm(). Tarkastelemme mallin tuloksia sekä arvioimme sen ennustekykyä laskemalla absoluuttisen virheen sekä juuri-keskineliövirheen.

>full.model<-ols(Siri~Age+Weight+Height+Neck+Chest+Abdomen+Hip+Thigh+Knee+Ankle+Biceps+Forearm+Wrist,data=data,x=T,y=T)
>full.model
## Linear Regression Model
##  
##  ols(formula = Siri ~ Age + Weight + Height + Neck + Chest + Abdomen + 
##      Hip + Thigh + Knee + Ankle + Biceps + Forearm + Wrist, data = data, 
##      x = T, y = T)
##  
##                  Model Likelihood    Discrimination    
##                        Ratio Test           Indexes    
##  Obs     252    LR chi2    348.39    R2       0.749    
##  sigma4.3053    d.f.           13    R2 adj   0.735    
##  d.f.    238    Pr(> chi2) 0.0000    g        8.108    
##  
##  Residuals
##  
##       Min       1Q   Median       3Q      Max 
##  -11.1687  -2.8639  -0.1014   3.2085  10.0068 
##  
##  
##            Coef     S.E.    t     Pr(>|t|)
##  Intercept -18.1885 17.3486 -1.05 0.2955  
##  Age         0.0621  0.0323  1.92 0.0562  
##  Weight     -0.0884  0.0535 -1.65 0.0998  
##  Height     -0.0696  0.0960 -0.72 0.4693  
##  Neck       -0.4706  0.2325 -2.02 0.0440  
##  Chest      -0.0239  0.0991 -0.24 0.8100  
##  Abdomen     0.9548  0.0864 11.04 <0.0001 
##  Hip        -0.2075  0.1459 -1.42 0.1562  
##  Thigh       0.2361  0.1444  1.64 0.1033  
##  Knee        0.0153  0.2420  0.06 0.9497  
##  Ankle       0.1740  0.2215  0.79 0.4329  
##  Biceps      0.1816  0.1711  1.06 0.2897  
##  Forearm     0.4520  0.1991  2.27 0.0241  
##  Wrist      -1.6206  0.5349 -3.03 0.0027  

> sum(abs(full.model$y-full.model$fitted.values))/nrow(data)
[1] 3.439368
> sqrt(sum((full.model$y-full.model$fitted.values)^2)/nrow(data))
[1] 4.183987

Vakioitu R2-arvo on 0.735 tarkoittaen, että 73.5% rasvamäärän vaihtelusta voidaan selittää valituilla 13 lähtömuuttujien arvoilla. Kokonaismallin keskimääräinen absoluuttinen virhe on 3.4 %-yksikköä ja juuri-keskineliövirhe on 4.2 %-yksikköä (virhetyypit on kuvattu artikkelissa Lineaarinen regressio – perusteet). Kokonaismalli ennustaa siis melko hyvin kehon rasvamäärää. Voimme vielä lisäksi tarkastella eri lähtömuuttujien keskinäistä tärkeyttä mallin ennustekyvylle. Tämä onnistuu yhdistelmäkomennolla plot(anova()).

>plot(anova(full.model))

Kuvaajan perusteella voimme todeta, että vatsan ympärysmitta (abdomen) on ylivoimaisesti tärkein muuttuja kokonaisuuden kannalta.

Mallissa on nyt 13 lähtömuuttujaa, joten se ei ole kovin käytännöllinen. Kuten totesimme, niin ennen mallin rakentamista yhtään muuttujaa on vaikea tiputtaa pois, koska kaikki muuttujat ovat ns. antropometrisia mittauksia ja kaikkien voidaan katsoa vaikuttavan tai olevan loogisesti yhteydessä kehon rasvamäärään. Voimme kuitenkin yrittää tehdä kokonaismallista yksinkertaisemman käytännön elämän sovellusta varten suorittamalla muuttujien valintaa taaksepäin eliminoimalla. Tämä tapahtuu komennolla fastbw(). Komennon rule -parametrin arvolla "p" tarkoitamme, että valinta tapahtuu käyttäen p-arvoa. Raja-arvoksi asetamme 0.1. print -komennolla saamme tulostettua numeeriset tulokset.

>print(fastbw(full.model , rule = "p",sls=0.1) , estimates = FALSE)
## 
##  Deleted Chi-Sq d.f. P      Residual d.f. P      AIC   R2   
##  Knee    0.00   1    0.9496  0.00    1    0.9496 -2.00 0.749
##  Chest   0.06   1    0.8047  0.07    2    0.9680 -3.93 0.749
##  Height  0.47   1    0.4939  0.53    3    0.9115 -5.47 0.748
##  Ankle   0.72   1    0.3973  1.25    4    0.8698 -6.75 0.748
##  Biceps  1.12   1    0.2905  2.37    5    0.7964 -7.63 0.747
##  Hip     1.97   1    0.1604  4.34    6    0.6311 -7.66 0.744
##  Neck    3.33   1    0.0681  7.66    7    0.3631 -6.34 0.741
##  Thigh   3.58   1    0.0585 11.24    8    0.1882 -4.76 0.737
##  Age     2.07   1    0.1503 13.31    9    0.1489 -4.69 0.735
## 
## Factors in Final Model
## 
## [1] Weight  Abdomen Forearm Wrist

Tuloste kertoo miten malli muuttuu vaihe vaiheelta, kun yksi muuttuja eliminoidaan pois kokonaismallista. Kuten sanottua p-arvoraja voi olla mitä vain. Jos laitamme p-arvon rajaksi 0.05 saamme samanlaiset tulokset. Muuttujien valinnan voi tehdä myös käyttäen AIC-perusteista valintaa ja tässä esimerkissä se johtaisi jälleen samaan tulokseen.

Eliminaation jälkeen lopulliseen malliin jää siis neljä muuttujaa: paino ja vartalon, ranteen ja kyynärvarren ympärysmitta. Huomaamme, että parsimoonisemman eli yksinkertaisemman mallin selitysaste on reilun prosenttiyksikön verran huonompi kuin kokonaismallin. Muuttujien karsinta ei siis johtanut merkittävään ennustekyvyn heikkenemiseen. Voimme varmistaa tämän vielä määrittämällä yksinkertaisemman mallin virhetermien suuruuden.

>pars.model<-ols(Siri~Weight+Abdomen+Forearm+Wrist,data=data,x=T,y=T)
> sum(abs(pars.model$y-pars.model$fitted.values))/nrow(data)
[1] 3.542437
> sqrt(sum((pars.model$y-pars.model$fitted.values)^2)/nrow(data))
[1] 4.299426

Yksinkertaisemman mallin osalta on hyvä vielä tarkastella mallin stabiliteettia eli sitä kuinka herkkä on se on aineiston vaihtelulle. Tämä onnistuu komennolla validate(). Se suorittaa taaksepäin eliminaation (bw=TRUE) kokonaismallille, mutta suorittaa sen B=100 kertaa ja lopputuloksena tarkastelemme erityisesti sitä kuinka usein sama muuttujajoukko tulee valituksi suppeampaan malliin.

v<-validate (full.model , B=100 , bw = TRUE , estimates = FALSE , rule = "p")
>print(v)
##           index.orig training    test optimism index.corrected   n
## R-square      0.7350   0.7503  0.7191   0.0312          0.7038 100
## MSE          18.4851  17.1040 19.5961  -2.4921         20.9771 100
## g             7.9905   8.0512  7.8980   0.1532          7.8373 100
## Intercept     0.0000   0.0000  0.5886  -0.5886          0.5886 100
## Slope         1.0000   1.0000  0.9698   0.0302          0.9698 100
## 
## Factors Retained in Backwards Elimination
## 
##  Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle Biceps Forearm Wrist
##                               *       *                           *       *    
##      *                        *                                   *       *    
##  *          *           *     *                      *                    *    
##      *             *          *                                   *       *    
##  *                 *          *       *   *                               *    
##             *                 *       *                                   *    
##  *                            *                            *              *    
##  *                 *          *       *                           *       *    
##  *                      *     *                            *              *    
##             *                 *       *                                   *    
##      *             *          *           *                       *            
##  *                      *     *                                   *       *    
##      *             *          *                                   *       *    
##             *                 *                                           *    
##  *   *             *          *                                   *       *    
##      *                        *           *                       *            
##  *          *                 *                                           *    
##  *   *                        *           *                       *       *    
##      *                        *           *                                    
##      *                        *                                   *       *    
##             *                 *       *                                   *    
##  *                            *                                           *    
##      *                        *           *                       *       *    
##      *             *          *                 *                 *            
##  *                            *                                           *    
##             *      *          *                                                
##  *                 *          *       *                           *       *    
##             *      *    *     *       *                    *                   
##  *                 *          *                                   *       *    
##      *                        *                                           *    
##      *                        *           *                               *    
##      *                        *                                   *       *    
##  *                 *          *       *   *                       *       *    
##  *   *                        *           *                               *    
##             *      *          *                                                
##      *                        *                 *                 *       *    
##      *                        *                                   *       *    
##  *   *             *    *     *           *                       *            
##      *                        *                                   *       *    
##  *                      *     *                                           *    
##             *                 *       *                    *              *    
##  *   *      *           *     *                 *                         *    
##  *                 *          *       *   *                                    
##  *          *                 *                            *              *    
##  *                            *                                           *    
##      *                        *                                   *            
##  *                 *          *                                           *    
##  *                      *     *                                           *    
##  *                 *          *       *   *                               *    
##  *                 *          *       *   *                                    
##             *      *          *                                   *       *    
##      *                        *                            *              *    
##             *           *     *                                           *    
##                               *       *   *                               *    
##  *   *      *           *     *       *   *                               *    
##  *                      *     *                            *              *    
##  *   *                        *           *                       *       *    
##  *                 *          *       *   *     *                 *       *    
##  *                 *          *                                   *       *    
##      *             *          *                                   *       *    
##  *   *             *          *                            *              *    
##      *                        *           *                       *       *    
##  *          *      *          *       *   *                               *    
##      *             *          *                            *                   
##      *                        *                                           *    
##      *      *                 *                                                
##  *   *                        *                                           *    
##  *          *                 *                                           *    
##      *                        *                                   *       *    
##             *      *          *       *   *                               *    
##  *                 *          *                            *              *    
##  *                 *          *                                   *       *    
##  *   *                        *           *                       *            
##      *             *          *                                                
##             *                 *       *                           *       *    
##      *             *          *                                   *            
##      *                        *                                   *            
##      *                        *           *          *            *            
##  *          *                 *                                           *    
##      *             *          *       *                    *                   
##      *                        *                                   *            
##      *                        *                                           *    
##      *                        *                                           *    
##      *             *          *                            *      *       *    
##  *   *             *          *                                   *       *    
##  *                 *          *       *   *                       *       *    
##      *                        *                                           *    
##  *                 *          *       *                    *              *    
##      *                        *                 *                              
##  *   *                        *           *                               *    
##      *             *          *                                   *       *    
##      *             *          *                            *                   
##  *   *             *          *                                                
##      *                        *                 *    *     *              *    
##  *                            *                                           *    
##  *                            *       *         *    *            *       *    
##      *                        *                      *                    *    
##      *                        *                                   *       *    
##      *                        *                                           *    
##  *          *                 *                                           *    
## 
## Frequencies of Numbers of Factors Retained
## 
##  3  4  5  6  7  8 
## 20 30 27 15  6  2

Aikaisemmin siis suppeampaan eli parsimoonisempaan malliin tuli valituksi paino ja vatsan, kyynärvarren ja ranteen ympärysmitta. Ylläolevasta tulosteesta käy ilmi, että kyseinen muuttujajoukko tulee valitukseni vain 7 kertaa 100:sta kun aineiston kokoa hieman vaihdellaan eri otannoilla bootstrap-tekniikalla. Mallin stabiliteetti ei ole siis paras mahdollinen ja suppeamman mallin kohdalla pitää tuloksin suhtautua varauksella. Suuremmalla otoskoolla saisi todennäköisesti stabiilimman mallin.

Lopuksi

Edellä kuvattu prediktiivisen monimuuttujamallin oikeaoppiminen rakentaminen ja muuttujien valinta on hyvin monimutkaista ja sisältää paljon erilaisia edistyneitä tekniikoita. Ensisijaisen tärkeää on perehtyä olemassa olevaan olevaan kirjallisuuteen ja pyrkiä ymmärtämään menetelmien perusteita ja niiden taustaoletuksia. Lisäksi on tiedostaa, että varsinkin lääketieteellisessä tutkimuksessa on hyvin yleistä, että käytetyt menetelmät ovat useimmiten epäsopivia tai jopa vääriä, joten mitä tahansa prediktiivistä tutkimusta lukiessa pitää muistaa olla kriittinen.

Kirjoittanut Aleksi Reito. Vertaisarvioinut Ville Ponkilainen ja Mikko Uimonen.

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 2

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *