Konfidensintervaller – hva kan de fortelle deg?

I forrige nummer skrev vi om p-verdier og noen vanlige misforståelser som er relatert til tolkningen av disse. I denne artikkelen vil vi ta for oss konfidensintervaller, hva de er og hva de ikke er, samt hvordan disse skal tolkes. Vi vil også her simulere en studie for å understreke de aktuelle poengene.

Hva er et konfidensintervall

Når vi gjør en statistisk test får vi ut et estimat som sier noe om den størrelsen på effekten vi observerer, samt en p-verdi som sier noe om sannsynligheten for å observere det vi observerer, eller noe mer ekstremt, dersom nullhypotesen er sann. Et eksempel på et slikt estimat ved sammenligning av to dietter, kan være at den ene dietten i gjennomsnitt gir 10 kg større vekttap. Ettersom gruppene vi sammenligner er to tilfeldige utvalg fra populasjonen, kan den reelle effekten, heretter kalt populasjonsparameteren, avvike fra det vi observerer i våre utvalg. I dette tilfellet den sanne forskjellen mellom de to diettene.

Ettersom populasjonsparameteren er ukjent og ikke kan observeres direkte, bruker vi våre observasjoner som vårt beste estimat. Men ettersom en rekke faktorer kan gjøre at våre observasjoner avviker fra populasjonsparameteren, trenger vi et mål på denne usikkerheten. Konfidensintervall er et slikt mål, som i stedet for å estimere en spesifikk verdi (punktestimat), estimerer et intervall hvor vi ut fra dataene anslår at populasjonsparameteren befinner seg (intervallestimat). Intervallet konstrueres med utgangspunkt i den observerte effekten (punktestimatet), i vårt eksempel 10 kg forskjell, og grensene flyttes i begge retninger basert på variasjonen i dataene og størrelsen på datamaterialet. Vanligvis benyttes 95 % konfidensintervaller, og disse er konstruert slik at dersom vi hypotetisk sett gjennomførte den samme studien uendelig mange ganger, så ville 95 % av konfidensintervallene inneholde populasjonsparameteren. I praksis er vår studie en av disse studiene, og vi kan derfor anta med 95 % sikkerhet at intervallet vi har konstruert inneholder populasjonsparameteren.

Konfidensintervaller er også egnet til å si noe om hvor presise dataene våre er. Jo mindre variasjon vi har i dataene, og jo større, og mer representative utvalg vi har, jo smalere blir konfidensintervallene. Motsatt, dersom vi har mye variasjon og/eller små utvalg, vil konfidensintervallet bli bredere. Dette representerer usikkerheten i datamaterialet vårt. Jo bedre data vi har, jo mer presist vil de representere virkeligheten, og dette gjenspeiles i et smalt konfidensintervall. På den andre siden, dersom vi har små og usikre data, vil dette resultere i et bredere konfidensintervall.

Konfidensintervaller og hypotesetesting

Konfidensintervaller er tett knyttet til hypotesetesting. Dersom nullhypotesen er at våre to dietter i gjennomsnitt ikke gir ulikt vekttap, er det vanlig å forkaste denne dersom den observerte forskjellen er statistisk signifikant. Dersom terskelen for statistisk signifikans er satt til p = 0.05, betyr det at vårt 95 % konfidensintervall rundt den observerte gjennomsnittsforskjellen ikke inneholder null.

Dersom vårt punktestimat er at dietten gir 10 kg større vekttap, med et konfidensintervall fra 8 til 12 kg, gir dette oss mye informasjon (Figur 1, studie A). Vi anslår med 95 % sikkerhet at dietten gir mellom 8 og 12 kg større gjennomsnittlig vekttap, og siden intervallet ikke inneholder null kan vi også slå fast at forskjellen er statistisk signifikant. Men la oss si at vi sammenlignet de samme to diettene i en langt mindre studie. Her observerte vi også i gjennomsnitt 10 kg større vekttap, mens konfidensintervallet strakk seg fra -1 til 21 kg (Figur 1, studie B). Her ser vi at konfidensintervallet inneholder null, og forskjellen mellom gruppene er derfor ikke statistisk signifikant. Dersom vi skulle konkludere basert på statistisk signifikans alene, ville vi konkludert at denne studien ikke fant en forskjell mellom diettene, men er det en god konklusjon? Ikke i våre øyne, og dette er en god illustrasjon på hvorfor det er viktig å vurdere effektstørrelsen og konfidensintervallet, og ikke se seg blind på en p-verdi som er høyere enn en arbitrær terskelverdi. Ser vi på den observerte effektstørrelsen, så gav dietten 10 kg mer vekttap i studien, noe som er en klinisk relevant effekt. Ser vi på konfidensintervallet, så krysser det så vidt null, men hovedsakelig indikerer det at det er en forskjell, at denne er i favør dietten vi studerte, og potensielt er av stor klinisk relevans. Det forteller oss også at datagrunnlaget i denne studien alene er for svakt til å trekke en konklusjon i favør dietten. Små studier kan også komme til riktig svar, men vi må være mer forsiktig i tolkningen. Det rasjonelle valget ville være å teste ut dietten i en større studie, for å få et bedre grunnlag for å konkludere.

Figur 1: Viser punktestimat og korresponderende 95 % konfidensintervall for to individuelle studier.

På denne måten kan, og bør, vi bruke konfidensintervallene aktivt når vi vurderer forskningsresultater. Der p-verdien utelukkende forteller oss hvorvidt konfidensintervallet inneholder null eller ikke, kan konfidensintervallet gi oss verdifull informasjon om hvilken retning og potensiell størrelse effekten har, samt hvor presise estimater datagrunnlaget tillater oss å gi.

Misforståelser

Effektstørrelser utenfor 95 % konfidensintervall kan utelukkes: Dette stemmer ikke, og kan tenkes på som en parallell til at en lav p-verdi ikke avkrefter nullhypotesen. På samme måte som p-verdier vil kunne variere på bakgrunn av egenskaper i våre data, som for eksempel gruppestørrelser, vil dette også være av betydning for det korresponderende konfidensintervallet vi får ut etter en test. Vi estimerer med 95 % sikkerhet at populasjonsparameteren befinner seg i konfidensintervallet, men kan selvfølgelig ikke utelukke at den ligger utenfor, på samme måte som vi ikke kan hevde å ha avkreftet nullhypotesen.

Dersom to konfidensintervaller overlapper er ikke forskjellen mellom grupper statistisk signifikant: Når vi sammenligner to grupper, er vi ute etter den gjennomsnittlige forskjellen mellom gruppene, og konfidensintervallet rundt gjennomsnittsforskjellen. Selv om konfidensintervallene for gjennomsnittsverdien i de to respektive gruppene vi sammenligner kan overlappe betydelig, kan testen for om gruppene er forskjellige fortsatt være signifikant forskjellig fra null. Det er derfor viktig å holde tungen rett i munnen og ha klart for seg om konfidensintervallet er kalkulert for gjennomsnittene i de respektive gruppene eller for gjennomsnittsforskjellen mellom gruppene. Derimot er det verdt å nevne at dersom to konfidensintervaller for de to ulike gruppene ikke overlapper, vil gruppene være statistisk signifikant forskjellig.

Konfidensintervallet inkluderer 95 % av observasjonene i studien: Fordelingen av observasjonene i studien beskrives av gjennomsnittet og standardavviket, og 95 % av observasjonene ligger innenfor +/- 1.96 standardavvik fra gjennomsnittet. Konfidensintervallet er basert på standardfeilen, ikke standardavviket. Det er et intervallestimat for populasjonsgjennomsnittet, altså et anslag for hva gjennomsnittet i den totale populasjonen er, og har ingenting med spredningen i dataene å gjøre.

Konfidensintervallet indikerer at 95 % av totalpopulasjonen vil befinne seg her: Dette er en variant av forrige misforståelse. Dersom dietten vår i gjennomsnitt gir 10kg mer vekttap, med konfidensintervall på 8 – 12 kg, er det mange som tenker at 95 % av de som tester denne dietten vil gå ned 8 – 12 kg mer enn alternativet. Men dette er feil. Konfidensintervallet indikerer at i gjennomsnitt, vil de som går på dietten gå ned 8 – 12 kg mer enn alternativet. Men dette utelukker ikke at mange kan gå ned både langt mer og langt mindre enn dette. Konfidensintervallet er et estimat for gjennomsnittseffekten, og sier ingenting om individuelle utfall.

En simulert studie

For å tydeliggjøre disse konseptene har vi analysert simulerte data hvor vi kjenner populasjonsparameterne. Simuleringen innebærer en sammenligning mellom to dietter for vekttap. Diettene er definert til å gi en effekt med standardavvik på 20 kg, og den ene dietten gir i gjennomsnitt 10 kg større vekttap enn den andre. Dette tilsvarer en Cohen’s D effektstørrelse på 0.5, eller en medium stor effekt. Ved å trekke repeterte utvalg fra disse to hypotetiske fordelingene, og deretter sammenligne dem med en t-test, får vi for hver repetisjon ut et punktestimat, et konfidensintervall og en p-verdi.

Vi har simulert to forsøk, og begge er repetert 50 ganger hver. I første forsøk (Figur 2) valgte vi å ha en statistisk styrke på 80 % for å oppdage en forskjell på 10 kg, noe som tilsvarte 63 personer i hver gruppe. Ettersom det er en reell effekt i populasjonen, vil vi rent statistisk forvente at denne fanges opp 80 % av gangene, altså vil vi forvente at 10 av de 50 repetisjonene ikke fanger opp effekten. Ettersom ernæringsstudier ofte er mindre enn dette, gjorde vi en ny simulering hvor gruppestørrelsen var på 25 personer per gruppe, noe som gav en statistisk styrke på 41 % (Figur 3). Her forventer vi at effekten ikke fanges opp i 29 av de 50 repetisjonene. I begge forsøkene forventes det at 95 % av konfidensintervallene inneholder populasjonsparameteren, og dermed at 2 – 3 konfidensintervaller ikke vil gjøre det.

Figur 2: Viser resultater (punktestimater og korresponderende 95 % konfidensintervaller) fra 50 simulerte studier hvor to tilfeldige utvalg (n=63) er trukket fra de to fordelingene vist øverst og sammenlignet med en t-test. Dette gir en statistisk styrke på 80 %. Den reelle gjennomsnittsforskjellen mellom fordelingene er 10, og indikert med en blå linje, mens den svarte linjen representerer nullverdien (ingen forskjell). I panelet nede til venstre er p-verdiene for de 50 t-testene plottet for å vise hvor mye disse varierer. Konfidensintervaller som ikke inneholder den sanne verdien er markert med rødt.

Figur 3: Viser resultater (punktestimater og korresponderende 95 % konfidensintervaller) fra 50 simulerte studier hvor to tilfeldige utvalg (n=25) er trukket fra de to fordelingene vist øverst og sammenlignet med en t-test. Dette gir en statistisk styrke på 41 %. Den reelle gjennomsnittsforskjellen mellom fordelingene er 10, og indikert med en blå linje, mens den svarte linjen representerer nullverdien (ingen forskjell). I panelet nede til venstre er p-verdiene for de 50 t-testene plottet for å vise hvor mye disse varierer. Konfidensintervaller som ikke inneholder den sanne verdien er markert med rødt.

Resultatene fra forsøkene er gitt i figur 2 og 3. Legg merke til følgende punkter:

  • Punktestimatene varierer mye, men nesten alle konfidensintervallene inkluderer den sanne verdien. Som forventet var det henholdsvis 2 og 3 (merket med rødt) konfidensintervaller for de ulike forsøkene som ikke gjorde det.

  • P-verdiene varierer veldig mye, mens konfidensintervallene i langt større grad lar seg reprodusere og gir et mye bedre bilde av hvor de fleste andre hypotetiske konfidensintervallene vil havne.

  • De aller fleste konfidensintervallene, også der vi ikke oppnår statistisk signifikans, gir oss en god indikasjon på hvilken retning den reelle effekten går.

  • Konfidensintervallene gir oss mye informasjon om presisjonen i studiene. Forsøket med 80 % statistisk styrke resulterer i langt smalere konfidensintervaller enn forsøket med halvparten av teststyrken (som et resultat av færre deltakere).

Konklusjon

Etter å ha lest denne saken, håper vi du ser verdien av konfidensintervaller, og hvorfor disse sammen med effektestimatene bidrar med viktig informasjon, som ofte havner i skyggen av en enkelt p-verdi. I vitenskapen opererer vi med estimater og sannsynligheter, og ikke ja/nei-svar. Vi håper også at denne artikkelen, sammen med den forrige, illustrerer hvorfor det er viktig å replikere vitenskapelige funn, og at det er risikabelt å stole for mye på en studie alene.

Hvordan kalkuleres konfidensintervaller

Gjennomsnitt og standardavvik kjenner de fleste til som deskriptive parametere som beskriver sentraltendensen og spredningen i dataene våre. I et normalfordelt datautvalg, vil 95 % av datapunktene befinne seg innenfor +/- 1.96 standardavvik fra det observerte gjennomsnittet. Tenk deg at vi trekker flere utvalg fra populasjonen og beregner gjennomsnittet i hvert utvalg. Da sitter vi igjen med en rekke gjennomsnittsverdier. Gitt at utvalgene ikke er veldig små, kan vi anta at denne teoretiske fordelingen av gjennomsnittene er normalfordelt rundt det sanne populasjonsgjennomsnittet. Standardavviket for denne teoretiske fordelingen kalles gjennomsnittets standardfeil, og det kan vi kalkulere direkte fra våre data. Dette beregner vi ved å dele vårt observerte standardavvik på kvadratroten av antallet observasjoner. Når vi da beregner et 95 % konfidensintervall rundt vårt estimat for populasjonsgjennomsnittet, bruker vi +/- 1.96 standardfeil. Ved å kjenne til denne formelen, blir det også åpenbart hvorfor store utvalg vil gi smalere konfidensintervaller, fordi vi da deler standardavviket på et høyere tall for å beregne standardfeilen.

Forslag til videre lesning

  • Sedgwick P. Understanding Confidence Intervals, BMJ 2014;349:g6051

  • Sedgwick P. Confidence Intervals: Predicting Uncertainty, BMJ 2012;344:e3147

  • Sedgwick P. Confidence Intervals, P values, and statistical significance, BMJ 2015;50:h1113