Kun aineisto on saatu ajettua R-ympäristöön, on seuraavaksi syytä tutustua siihen tarkemmin ja tarkistaa että muuttujat ovat oikeassa muodossa, jotta ne käyttäytyvät analyyseissä halutulla tavalla. Varsinkin alkuvaiheessa välttyy useilta turhauttavilta erroreilta jos muuttujat ovat halutussa muodossa. Kaikki R-kielessä käytetyilä muuttujilla on oma luokka (class), joka vaikuttaa muuttujan käyttömahdollisuuksiin. Datan käsittelyssä yleisimpiä luokkia ovat: character eli ..

Read more

R on ilmainen ohjelmointikieli, jonka vahvuutena ovat datan muokkaamiseen sekä analysointiin keskittyvät avoimesti saatavilla olevat paketit (package). R on suosittu ohjelmointikieli data-analytiikassa, ja se on erityisesti tunnettu huipputason graafisista kuvaajista, joita ohjelmistolla on helppo luoda. R:llä pystyy tekemään kaiken tarvittavan datan putsaamisesta ja perusanalyyseistä aina koneoppimiseen ja tekoälyyn saakka. R:llä on myös mahdollista tehdä jopa ..

Read more

Suositeltava lukeminen ennen tätä artikkelia Kahden jatkuvan muuttujan vertaaminen Kahden jatkuvan muuttujan vertaaminen – esimerkit t-testin tulosten raportointi Oletetaan, että tutkimuksessa verrataan kahden verenpainelääkkeen tehoa systoliseen verenpaineeseen. Menetelmäkappaleessa pitää kuvata selkeästi käytetyt menetelmät. “Jatkuvia muuttujia verrattiin t-testillä” ei ole oikea tapa kertoa menetelmistä. Käytetty testi pitää raportoida selkeästi, kuten “Jatkuvia muuttujia verrattiin Welchin t-testillä“. Lisäksi ..

Read more

Esimerkeissä hyödynnetään hyvin paljon R-ympäristössä käytettyä mtcars -aineistoa, joka sisältää teknisiä tietoja eri automalleista. Tarkastellaan ovatko käsivaihteiset autot nopeampia neljännesmailin matkalla ja onko niillä suurempi bensan kulutus maililla verrattuna automaattivaihteisiin. Tarkastelemme siis muuttujia qsec sekä mpg suhteessa muuttujaan am. SPSS Tarkastellaan ensin muuttujien qsec ja mpg otosjakaumia. Valitaan Analyze > Descriptive Statistics > Frequencies. Siirretään ..

Read more

Johdanto Kahden jatkuvan muuttujan vertaaminen on yksi yleisimpiä tilastollisia analyysejä. Keskeinen mielenkiinto tällöin on selvittää ovatko ryhmät erilaisia mitattavan muuttujan suhteen. Yleensä kiinnostuksen kohteena on jokin ryhmien keskiluku (eng. central tendency), kuten keskiarvo, mediaani tai moodi. Esimerkkejä kahden jatkuvan muuttujan vertailusta ovat kahden tutkimusryhmän potilaiden iän vertaaminen tai esimerkiksi jonkin kyselykaavakkeeseen perustuvan pistemäärän vertaaminen eri ..

Read more

Tilastollisella voimalla on keskeinen merkitys tieteen toistettavuusongelmassa. Tämä on melko suoraviivainen näkökulma: tilastollinen voima on tutkimuksissa keskimäärin liian pieni, jotta mahdolliset löydökset ja ilmiöt voitaisiin löytää tutkimuksissa. Liian matala voima taas johtuu lähes yksin omaan pienestä otoskoosta. Matala voima ei suinkaan ole mikään uusi ilmiö tai huolenaihe. Asiasta on kirjoitettu psykologian tutkimuksessa jo 1960-luvulta lähtien. ..

Read more

Määritelmä Tilastollinen voima (eng. statistical power) kuvaa todennäköisyyttä havaita tilastollisesti merkitsevä tulos, jos tietyn suuruinen ero ryhmien välillä on todella olemassa. Tämä sopii myös arkijärkeen: hyvällä tutkimuksella kuuluisi olla jonkilainen mahdollisuus löytää se ilmiö, jota tutkimus pyrkii selvittämään olettaen, että ilmiö on olemassa. Tilastollinen voima, aineiston koko sekä oletetun ilmiön suuruus tai koko kuten esimerkiksi ..

Read more

Suositeltava lukeminen ennen tätä artikkelia Hypoteesin testaus – Fisher ja Neyman-Pearson Määritelmä Nollahypoteesin merkitsevyyden testaus (NHMT) on nykylääketieteessä keskeisin tilastotieteellinen menetelmä. NHMT:n keskiössä on p-arvon laskeminen. On tärkeä ymmärtää, että vaikka tutkija käyttäisi esimerkiksi logistisista regressiota analyysiä tutkimuksessaan, NHMT on keskeisessä osassa sitäkin. Selkein esimerkki ja yleisin tilanne NHMT:n käytölle on ryhmien keskiarvojen vertaaminen. Tätä ..

Read more

Frekventistisen tilastotieteen näkökulmasta on hyödyllistä ymmärtää kahden eri hypoteesi testauksen pääpiirteet – Fisherin ja Neyman-Pearsonin menetelmät. Nykyisin lähes universaalisesti käytetty tilastollinen menetelmä nollahypoteesin merkitsevyyden testaus on epälooginen yhdistelmä näitä kahta ja sen heikkouksien ymmärtäminen on oleellinen osa hyvää tilastollista päättelyä. Fisherin menetelmä Ronald Aylmer Fisher oli brittiläinen tilastotieteilijä, jota on pidetty modernin tilastotieteen pioneerinä ja ..

Read more

Määritelmä Frekventistisen tilastotieteen keskeisiä työkaluja ovat p-arvo, luottamusväli sekä vaikutuskoko. Esimerkkejä vaikutuskoosta ovat keskiarvoerotus ja riskisuhde. p-arvosta on muodostunut vuosikymmenten aikana selkeästi käytetyin tilastollisen päättelyn työkalu vaikutuskoon ja luottamusvälin ovat jäädessä vähemmälle huomiolle. P-arvon tulkintaan liittyy runsaasti virhekäsityksiä. P-arvolla tarkoitetaan tilastollista merkitsevyyttä. Sen keksijänä pidetään Ronald Fisheria, joka käytti p-arvoa omassa hypoteesin testaus viitekehyksessään. Hän ..

Read more