Kahden jatkuvan muuttujan vertaaminen – esimerkit

Tilastollinen analyysi Ei kommentteja

Esimerkeissä hyödynnetään hyvin paljon R-ympäristössä käytettyä mtcars -aineistoa, joka sisältää teknisiä tietoja eri automalleista.

Tarkastellaan ovatko käsivaihteiset autot nopeampia neljännesmailin matkalla ja onko niillä suurempi bensan kulutus maililla verrattuna automaattivaihteisiin. Tarkastelemme siis muuttujia qsec sekä mpg suhteessa muuttujaan am.

SPSS

Tarkastellaan ensin muuttujien qsec ja mpg otosjakaumia. Valitaan Analyze > Descriptive Statistics > Frequencies. Siirretään muuttujat qsec ja mpg laatikkoon Variable(s) ja valitaan valikon Charts takaa Histogram. Saamme alla olevat kuvaajat.

Normaalijakaumaoletus vaikuttaisi olevan perusteltu ainakin muuttujalle qsec. Muuttujan mpg osalta jää epävarmuutta voidaanko sen olettaa olevan peräisin normaalijakaumaa noudattavasta populaatiosta. Toisaalta otoskoko on nyt varsin pieni (32), joten kovin vankkoja päätelmiä ei voida tehdä ilman jonkinlaista taustatietoa.

Tarkastellaan ryhmien am=0 ja am=1 eroa muuttujien qsec ja mpg suhteen t-testillä. Valitaan Analyze > Compare Means > Independent-Samples T-test. Valitaan muuttuja qsec Test Variable(s) -kohtaan ja muuttuja am Grouping Variable -kohtaan. Asetetaan Define Group valikon takaa ryhmille arvot 0 ja 1. Näin saamme alla olevan tulosteen.

Ensimmäinen tuloste Group Statistics kertoo ryhmien koot sekä keskiarvot jaoteltuna muuttujan am suhteen sekä keskiarvoja vastaavan keskihajonnan sekä keskivirheen. Toinen tuloste Independent Samples Test sisältää nyt varsinaisen analyysin tulokset.

Kuten riippumattomien otosten t-testin yhteydessä puhuttiin, t-testi voidaan suorittaa olettamalla ryhmien hajontojen olevan yhtä suuret tai olettamalla niiden olevan eri suuret. Studentin t-testi olettaa ryhmien keskihajontojen olevan yhtä suuret. Ensimmäiset kaksi saraketta liittyvät keskihajontojen ja varianssien yhtäsuuruuden testaukseen. Tähän liittyy siis samoja ongelmia kuin normaalijakaumatesteihin. Studentin t-testin tulokset raportoidaan rivillä Equal variances assumed. Welchin t-testin tulokset raportoidaan rivillä Equal variances not assumed. Mekanistinen ohje on lukea ylemmän rivin tulokset, jos Levenen testin Sig. arvo on yli >0.05. Toisen rivin tuloksia pitäisi käyttää, jos Sig. arvo on alle 0.05. Oikeaoppinen tilastoanalyysi ei ole kuitenkaan koskaan mekanistista vaan se vaatii ymmärrystä tutkittavasta ilmiöstä, sen taustoista ja mahdollisista taustaoletuksista. Tulokset kannattaa lukea sen mukaan mikä on näiden mukaan perustellumpaa.

Sarake t kertoo t-testisuureen arvon kummallekin testille. df (degrees of freedom) tarkoittavat testissä käytettyjen vapausasteiden lukumäärää. Sig. (2-tailed) on kyseiselle testisuureelle laskettu p-arvo. Mean Difference tarkoittaa ryhmien välisen eron keskiarvoa ja Std. Error Difference sen keskivirhettä. 95% Confidence Interval of the Difference tarkoittaa ryhmien keskiarvon erotuksen 95% luottamusväliä. Nämä lukemat on kaikista tärkein raportoitava tulos kahden muuttujan vertailussa käytettäessä t-testiä.

Suoritetaan tämän jälkeen ryhmien vertailut käyttämällä parametrittomia testejä. Analyze > Nonparametric Tests -valikon takaa löytyy eri vaihtoehtoja, joista valitsemme riippumattomien otosten testin eli Independent Samples -toiminnon.

Vanhemmissa SPSS-versioissa olleen parametrittomien testien valikko löytyy Legacy Dialogs -valinnan alta. Sieltä pystyy suoraan valitsemaan kahden ryhmän välisen testin eli 2 Independent Samples.

Käytettäessä uudempaa vaihtoehtoa eli toimintoa Independent Samples avautuu laajempi valikko, jossa pystyy valitsemaan eri toimintoja. Objective -välilehdeltä kannattaa pitää valittuna ensimmäinen kohta eli Automatically compare distributions across groups. Fields -välilehdellä asetetaan testattavat muuttujat sekä ryhmät määrittelevät muuttuja. Siirretään mpg ja qsec kohtaan Test Fields ja am kohtaa Groups. Jos ryhmät on määritelty binaarisesti luvuilla 0 ja 1, ne tunnistetaan automaattisesti. Settings välilehdeltä voidaan valita suoritettavat testit. Jos tarkoitus on tehdä vain Mann-Whitneyn testi, mitään ei tarvitse muuttaa. Lopuksi valitaan Run.

Näillä valinnoilla saadaan alla oleva tuloste. Tuloste on melko selkokielinen. Null hypothesis -otsikon alla sanotaan, että nollahypoteesina on oletus, että sekä muuttujan mpg että qsec jakaumat ryhmissä am=0 ja am=1 ovat yhtä suuret. Tätä on testattu riippumattomien otosten Mann-Whitneyn U-testillä. Sig. -otsikon alla on testien p-arvot. Muuttujan mpg jakauma on erilainen am-muuttujan ryhmillä. Nollahypoteesi siis hylätään. Muuttujan qsec osalta jakaumien eri suuruutta ei voida todeta. Se ei tarkoita, että nollahypoteesi on totta (Nollahypoteesin merkitsevyyden testaus)!

R

Katsotaan jälleen ensin muuttujien qsec ja mpg jakaumia histogrammien muodossa. Tämä tehdään komennolla hist().

>hist(mpg)
>hist(qsec)

Ryhmien am=0 ja am=1 vertailu t-testillä tapahtuu komennolla t.test(). Muuttujat syötetään funktiomuotoisena, jossa selitettävä muuttuja on aaltomerkin vasemmalla puolella ja selittävä(t) muuttuja(t) oikealla puolella. Muuttujan qsec vertailu tapahtuu siis komennolla t.test(qsec~am).

>t.test(qsec~am)

	Welch Two Sample t-test

data:  mpg by am
t = -3.7671, df = 18.332, p-value = 0.001374
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -11.280194  -3.209684
sample estimates:
mean in group 0 mean in group 1 
       17.14737        24.39231

Komento antaa suoraan Wechin t-testin tulokset. Tulosteessa on pääpiirteissaan samat osat kuin SPSS:n vastaavassa. Ryhmien keskihajontoja ei kuitenkaan raportoida. Jos halutaan tehdä nimenomaan Studentin t-testi eli oletetaan ryhmien keskihajontojen muuttuja mpg osalta olevan yhtäsuuret, pitää käyttää lisämääritystä var.equal=TRUE.

> t.test(mpg~am,var.equal=TRUE)

	Two Sample t-test

data:  mpg by am
t = -4.1061, df = 30, p-value = 0.000285
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -10.84837  -3.64151
sample estimates:
mean in group 0 mean in group 1 
       17.14737        24.39231 

Samat tulokset voidaan ajaa vastaavasti muuttujalle qsec.

> t.test(qsec~am)

	Welch Two Sample t-test

data:  qsec by am
t = 1.2878, df = 25.534, p-value = 0.2093
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4918522  2.1381679
sample estimates:
mean in group 0 mean in group 1 
       18.18316        17.36000 

> t.test(qsec~am,var.equal=TRUE)

	Two Sample t-test

data:  qsec by am
t = 1.2936, df = 30, p-value = 0.2057
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4763645  2.1226803
sample estimates:
mean in group 0 mean in group 1 
       18.18316        17.36000 

Mann-Whitneyn U-testi suoritetaan komennolla wilcox.test(). Mann-whitneyn testi tunnetaan myös nimellä Wilcoxonin järjestyssumma testi tai Wilcoxon-Mann-Whitneyn testi. Siksi testi kulkee eri nimellä R:ssa kuin SPSS:ssa.

> wilcox.test(qsec~am)

	Wilcoxon rank sum test with continuity correction

data:  qsec by am
W = 153, p-value = 0.2657
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(x = c(19.44, 17.02, 20.22, 15.84, 20, 22.9,  :
  cannot compute exact p-value with ties
> wilcox.test(mpg~am)

	Wilcoxon rank sum test with continuity correction

data:  mpg by am
W = 42, p-value = 0.001871
alternative hypothesis: true location shift is not equal to 0

Warning message:
In wilcox.test.default(x = c(21.4, 18.7, 18.1, 14.3, 24.4, 22.8,  :
  cannot compute exact p-value with tie

R tulostaa nyt p-arvon lisäksi testisuureen W arvon sekä vaihtoehtoisen hypoteesin oletuksen. Varoitusviesti liittyy ns. tarkan p-arvon laskemiseen. Tulostettu p-arvo on ns. asymptomaattinen, mutta näiden merkitys on lähinnä matemaattinen.

Tulosten raportoinnista ja tulkinnasta on kirjoitettu omat artikkelit.

Mitä mieltä olit artikkelin sisällöstä?

Klikkaa tähteä arvostellaksi artikkelin!

Keskiarvo 5 / 5. Arvostelujen lukumäärä: 2

Kukaan ei ole vielä äänestänyt, ole ensimmäinen

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *