Kahden eri ryhmän vertaaminen on yksi keskeisin osa hoitomenetelmien tai interventioiden tehon arviointia lääketieteellisessä tutkimuksessa. Vertailtavat muuttujat voivat olla jatkuvia tai kategorisia.
Jatkuvia muuttujia vertaillaan useimmiten Studentin tai Welchin t-testillä. Yleinen tapa vertailla jatkuvia muuttujia on Mann-Whitneyn U-testi, joka on ns. parametriton testi. Tässä kappaleessa puhutaan vain parametrillisten testien käytöstä.
Kategorisia muuttujia voidaan vertailla käyttämällä Fisherin tarkkaa testiä tai khii-toiseen testiä. Lisäksi kategorisille muuttujille voidaan laskea vetosuhde (eng. odds ratio) tai riskisuhde (eng. risk ratio). Aika-aineistoon pohjautuen voidaan laskea myös vaarasuhde (eng. hazard ratio).
Yleensä tilastollisen testin ja tunnusluvun, kuten t-testin tai vetosuhteen yhteydessä raportoidaan p-arvo, jonka perusteella tehdään varsinainen tilastollinen päättely. Nollahypoteesin merkitsevyyden testaukseen perustuvissa analyyseissä asetetaan aina ennen tutkimusta tilastollisen merkitsevyyden eli p-arvon raja. Tämä arvo on aina lähes universaalisti 0.05.
Jos tilastollisen testin p-arvo on alle ennalta asetetun raja-arvon, kuten 0.05, voidaan todeta, että ryhmien välillä on tilastollisesti merkitsevä ero mitatulla testimuuttujalla. Yleinen päätelmä tämän jälkeen on todeta, että tutkitulla menetelmällä on tilastollista vaikutusta päätemuuttujaan. Monesti käytetään myös termiä, että ryhmien välillä oli tilastollisesti merkitsevä ero.
Oletataan taas, että tutkimuksessa verrattiin kahden eri verenpainelääkkeen tehoa systoliseen verenpaineeseen. Ryhmän 1 keskiarvo oli 130 mmHg keskihajonnan ollessa 20 mmHg ja ryhmän 2 keskiarvo 140 mmHg keskihajonnan ollessa 22 mmHg. Ryhmien välinen ero olkoon siis 10 mg sen 95% luottamusvälin ollessa 2-18 mmHg. Kuten mainittua, ryhmien välinen ero on varsinainen vaikutuskoko ja se tulisi aina raportoida käytettäessa t-testiä.
Tulosten pohjalta voidaan siis todeta: “Systolisen verenpaineen ero ryhmien välillä oli tilastollisesti merkitsevä“. Huolimatta sen yleisyydestä tämä ei ole kuitenkaan suositeltava tapa. Tilastollisesti merkitsevä ero ei anna mitään kliinistä näkökulmaa tulokseen. Tilastollisesti merkitsevä ero voisi olla esimerkiksi 1 mmHg tai 30 mmHg tai mitä tahansa näiden väliltäkin. Pelkkä toteamus ryhmien välisestä erosta ei hyödytä lukijaa. 1 mmHg tai 30 mmHg erolla verenpaineessa on aivan erilaiset kliiniset merkitykset. Suositeltavia vaihtoehtoisia tapoja ovat esimerkiksi seuraavat:
Alle 2mmg:n sekä yli 18mmHg:n ero ryhmien välillä systolisessa verenpaineessa voidaan poissulkea 95%:n luottamusvälillä (tai “5%:n virhetasolla”). (1)
Aineisto oli yhtenevä 2-18 mmHg suuruisen ryhmien välisen eron kanssa systolisen verenpaineen osalta. (2)
Molemmat päätelmät antavat jonkinlaista viitettä siitä miten kliinisesti merkitsevät erot ryhmien välillä asettuvat. Jos esimerkiksi 5-8mmHg suuruinen muutos koetaan kliinisesti merkitseväksi, edellä kuvatut tulokset kertovat kovin heikosti lääkkeiden mahdollisesta erosta systoliseen paineeseen. Jos luottamusväli samalla 10mmHg erolle olisi 7-13 mmHg, voitaisiin tehdä jo paljon parempia päätelmiä tulosten pohjalta. Keskeistä on hyödyntää siis esimerkkien tavoin ryhmien välisen eron luottamusvälejä.
Luottamusvälille on monta tulkintaa. Kätevin lienee ajatella luottamusväliä arvojoukkona, joille p-arvo olisi >0.05. Esimerkki (1) yllä noudattaa tätä tulkintaa. Toinen vaihtoehto on ajatella luottamusväliä arvojoukkoina, jonka kanssa muuttuja, kuten ryhmien välinen ero on parhaiten yhtenevä (eng. compatible). Esimerkki (2) noudattaa taas tätä tulkintaa.
Päätelmät menevät aivan vastaavalla tavalla käytettäessä esimerkiksi veto- tai riskisuhdetta. Suositeltavaa ei ole siis raportoida, että “leikkaus lisää tilastollisesti merkitsevästi kuoleman riskiä” vaan raportoida minkä suuruinen kuoleman riski voidaan poissulkea tulosten perusteella.
Jos taas p-arvo jää yli ennalta asetetun raja-arvon, yleensä siis 0.05, voidaan todeta, että ryhmien välillä ei ole tilastollisesti merkitsevää eroa. Tämän jälkeen hyvin usein päätellään, että ryhmien välillä ei ole eroa (eng. ”no difference”) tai, että tulosmuuttuja, kuten systolinen verenpaine oli yhtä suuri molemmissa ryhmissä (eng. ”groups were equal”). Korrelaation osalta todetaan usein, että muuttujilla ei ole yhteyttä (eng. ”no association”). Huolimatta jälleen päätelmien yleisyydestä mikään edellä mainitusta päätelmistä ei ole oikein.
Frekventistiset testit, kuten Studentin ja Welchin t-testi, Mann-Whitneyn U-testi tai Fisherin testi pohjautuvat nollahypoteesin merkitsevyyden testaamiseen. t-testeissä nollahypoteesina on yleensä ryhmien keskiarvojen yhtäsuuruus. Riski- tai vetosuhteen p-arvon määrittäminen perustuu nollahypoteesiin, joka määrittää, että suhdeluku on 1. p-arvon ollessa alle 0.05 päätelmänä on hylätä nollahypoteesi. p-arvon ollessa yli 0.05 nollahypoteesia ei voida hylätä. Tämä ei tarkoita, että suurempi p-arvo kuin 0.05 vahvistaisi nollahypoteesin voimassaolon. Ainoa päätelmä, joka nollahypoteesin testaamisessa voidaan tehdä, on nollahypoteesin hylkääminen, ei koskaan sen vahvistaminen tai todentaminen. Ryhmillä saattaa olla eroa tai riskisuhde voi olla eri suuri kuin 1, mutta otoskoko ei riittänyt sen toteamiseen.
”Ei eroa”, “ei tilastollista eroa” tai ”ei vaikutusta” ei ole koskaan siis oikea tapa tilastollisessa päättelyssä. Myös ns. negatiivisen tulosten tulkinnassa pitää aina hyödyntää luottamusvälejä kuten edellä. Jos ryhmien välinen ero systolisessa verenpaineessa onkin 4 mmHg 95% luottamusvälin ollessa -4mmHg – 12mmHg voidaan todeta kuten yllä:
Alle -4mmHg:n sekä yli 12mmHg:n ero ryhmien välillä systolisessa verenpaineessa voidaan poissulkea 95%:n luottamusvälillä. (1)
Aineisto oli yhtenevä -4mmHg – 12mmHg suuruisen ryhmien välisen eron kanssa systolisen verenpaineen osalta. (2)
”Ei eroa” päätelmän sijaan olisi siis keskeistä katsoa miten kliinisesti merkityksellinen ryhmien välinen ero tai riskisuhteen arvo sijoittuu luottamusvälille. Jos kyseinen arvo sijaitsee luottamusvälillä, ryhmien väliltä ei voida pois sulkea kliinisesti merkitsevää eroa. Jos väli on hyvin kapea ja kliinisesti merkitsevä arvo ei sisälly siihen, on päätelmämahdollisuus jo erilainen. Ryhmien yhtä suuruutta ei koskaan voida todeta, oli luottamusväli kuinka kapea tahansa.
Käytettäessä veto-, riski- tai vaarasuhdetta päättely on yleisesti hankalampaa, koska kyseisille arvoille on harvemmin määritetty kliinisesti merkitseviä arvoja. Tästä huolimatta tilastollisessa päättelyssä pitää hyödyntää p-arvon ja itse piste-estimaatin lisäksi luottamusvälejä.