Metodehjørnet

Vegard Lysne

Redaksjonsmedlem

Thomas Olsen

Redaksjonsmedlem

Ane Sørlie Kværner

Redaksjonsmedlem

I denne spalten tipser vi om artikler og andre ressurser som tar opp metodiske aspekter som er relevante for ernæringsforskning. Spalten er aktuell både for de som forsker selv, og for de som leser og benytter seg av denne forskningen. Temaene vil variere, så her er det noe for de fleste.

I dette nummeret fokuserer vi på noen aspekter som er relevante for tolkning av randomiserte kontrollerte studier (RCT). Temaene som diskuteres er knyttet til å analysere endring fra baseline innad i grupper kontra mellom gruppene, tolkning av resultater som ikke oppnår statistisk signifikans, det mindre kjente begrepet kontranull, og til slutt en diskusjon av hvordan man bør gå frem når vi analyserer kontinuerlige utfallsmål. For å sette disse temaene inn i kontekst, har vi simulert en hypotetisk RCT av to slankedietter.

Rød eller Blå diett for vekttap? En simulert studie

En forskergruppe ønsker å undersøke effekten av de to diettene, Rød og Blå, på vekttap. De rekrutterer 100 deltakere, som randomiseres til å følge dietten i 6 måneder. Ved studieslutt var gjennomsnittlig (95% konfidensintervall) vekttap i gruppen som fulgte Rød diett -5,3 (-8,2, -2,4) kg, p = 0,001, mens de som fulgte Blå diett gikk ned -2,1 (-5,5, 1,4) kg, p = 0,24. Forskerne konkluderte dermed med at Rød diett førte til vekttap, mens Blå diett ikke gjorde det. Disse resultatene er illustrert i Figur 1. Slike tolkninger forekommer hyppig i litteraturen, men er av grunner vi skal komme tilbake til, problematiske.

Innad-i-gruppe analyser og fravær av bevis

Å presentere resultatene fra en RCT på denne måten er en tilnærming vi stadig møter på. Dette er av flere grunner problematisk, og i en artikkel publisert i American Journal of Nutrition i 2015, går Bland og Altman så langt som å kalle dette direkte misvisende (1). De påpeker at dersom endring fra baseline innad i en gruppe er forskjellig fra null, så viser det at det har skjedd en endring over tid, men det forteller oss ikke om dette var på grunn av den faktoren man studerte (for eksempel en intervensjon). Hensikten med å gjennomføre en RCT er å sammenligne utfallet mellom gruppene, da randomiseringen har som hensikt å balansere det forventede utfallet dersom gruppene behandles likt, noe som gjør at eventuelle forskjeller med større sikkerhet kan tilskrives intervensjonen. Når man analyserer hver gruppe for seg har man i praksis gjennomført to ikke-kontrollerte studier.

Figur 1: Gjennomsnittlig vektendring (95% CI) Sammenligning mot egen baseline.

Et annet problematisk aspekt med å analysere og tolke dataene på denne måten er kjent som «Absence of evidence»-feilslutningen, beskrevet av Bland og Altman (2). Denne beskriver situasjoner hvor man basert på fravær av statistisk signifikans (P > 0,05) konkluderer med at det ikke er noen effekt eller forskjell, slik forskerne her gjorde for effekten av den Blå dietten. Studier som ikke finner et statistisk signifikant resultat omtales gjerne som «negative», og funnene får merkelappen «nullfunn», som begge indikerer at studien har vist at det ikke er en forskjell. Et grunnprinsipp i vitenskapen er at vi bare kan finne evidens mot en hypotese, ikke for den. P-verdien forteller oss hvor godt de observerte dataene passer med en definert hypotese, vanligvis nullhypotesen, antatt at forutsetningene for å kalkulere P-verdien (antagelsene) er oppfylt. Jo lavere P-verdien er, jo mer evidens har vi mot denne hypotesen. En høy P-verdi indikerer at dataene i mindre grad motsier modellen, men det er ikke det samme som at dataene støtter modellen, altså nullhypotesen. Et ikke-signifikant resultat for Blå diett betyr med andre ord ikke at vi kan konkludere med at effekten var lik null, men at null er en av de mange effektene dataene er kompatible med og derfor ikke kan utelukkes.

Kontranull

En interessant parameter i denne sammenhengen er kontranull, som er det estimatet som er like langt unna gjennomsnittet som nullverdien, men på motsatt side (3). Dette punktet, representert ved en firkant med kryss i Figur 1, har nøyaktig like mye støtte i dataene som nullhypotesen. Kontranull illustrerer godt hvorfor vi ikke kan konkludere med at effekten er null selv om resultatet ikke var signifikant. Konklusjonen i vårt eksempel om at Blå diett ikke førte til vekttap er med andre ord like godt underbygget i dataene som en konklusjon om at gjennomsnittlig vekttap ved Blå diett var 4,2 kg.

Forskjellen på signifikant og ikke-signifikant er ikke statistisk signifikant

Dette var tittelen på en provokativ artikkel fra Gelman og Stern, publisert i The American Statistician i 2006 (4). De argumenterer for at vi ikke kan konkludere med at to grupper er forskjellige basert på at resultatet i den ene var statistisk signifikant og den andre ikke, slik forskerne gjorde i eksempelet lengre oppe. For å si noe om forskjellen må vi sammenligne gruppene mot hverandre. Dersom vi skal gjøre dette i vårt eksempel, dukker enda en utfordring opp, nemlig spørsmålet om hvilke parametre som skal sammenlignes. Skal vi sammenligne vekt ved studieslutt, eller skal vi sammenligne endring fra baseline?

Figur 3: Fordeling av vekt ved baseline

Analyse av kontinuerlige utfallsmål

Når vi studerer kontinuerlige utfallsmål, som kroppsvekt, er det viktig å ha i bakhodet at det vil være en betydelig korrelasjon mellom baselineverdien og oppfølgingsverdien, noe som betyr at baselineverdien vil være en sterk forklaringsfaktor for sluttverdien. Disse aspektene diskuteres av Clifton og Clifton (5), som påpeker at uavhengig av om vi sammenligner endring eller sluttverdien, er det viktig å justere analysene for baselineverdien. I boken «Biostatistics for Biomedical Research» (6) diskuterer Harrell og Slaughter en rekke generelle problemer med å bruke endring fra baseline som utfallsmål, og anbefaler å sammenligne sluttverdien justert for baselineverdien.

Figur 4: Gjennomsnittlig vektendring (95% CI) Rød diett sammenligning med Blå diett

I Figur 2 har vi sammenlignet Rød diett mot Blå diett, med henholdsvis vektendring og sluttvekt som utfallsparametre. Her ser vi at selv om endringen fra baseline etter Rød diett var statistisk signifikant, mens endringen etter Blå diett ikke var det, bidrar ikke dataene med god evidens mot nullhypotesen som sier at det ikke er noen forskjell mellom disse diettene. Dette understreker poenget til Gelman og Stern (4). Samtidig kan vi ikke konkludere basert på dette at diettene ikke er forskjellige, da vi ikke ønsker å gjøre en «Absence of evidence»-feilslutning (2), og ved å se på kontranullverdiene kommer det frem at dataene i like liten grad som å avkrefte nullhypotesen kan motbevise at forskjellen er 5,6-6,6 kg i favør Rød diett (3). Videre ser vi at så lenge gruppene er like ved baseline, som er det vi håper på når vi randomiserer, utgjør det ikke en stor forskjell om vi bruker vektendring eller sluttvekt som utfallsparameter. Vi ser derimot at å justere for baselineverdien gir et noe mer presist estimat, som kommer til uttrykk via smalere konfidensintervaller. Dette skyldes at vi i disse modellene tar høyde for den delen av variasjon som forklares av utgangspunktet (5,6).

I vårt eksempel var gruppene veldig like ved baseline, som vist i figur 3, og derfor utgjorde det ikke noen stor forskjell om vi valgte å bruke vektendring eller sluttvekt som utfall. Men selv om deltakerne er randomisert, vil det alltid være enkelte forskjeller, og jo mindre studien er, jo større ubalanser vil vi forvente. Derfor er det en god regel å følge anbefalingene fra Harrell og Slaughter og bruke sluttverdien som utfall i en modell justert for baselineverdien.

Referanser

  1. Bland JM, Altman DG. Best (but oft forgotten) practices: testing for treatment effects in randomized trials by separate analyses of changes from baseline in each group is a misleading approach. Am J Clin Nutr. 2015; 102(5):991-4.

  2. Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485.

  3. Rosenthal R, Rubin DB. The Counternull Value of an Effect Size: A New Statistic. Psychol Sci. 1994;5(6):329–34.

  4. Gelman A, Stern H. The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant. Am Stat. 2006;60(4):328–31.

  5. Clifton L, Clifton DA. The correlation between baseline score and post-intervention score, and its implications for statistical analysis. Trials. 2019;20(1):43.

  6. Harrell FE, Slaughter JC. Transformations [Internet]. Biostatistics for Biomedical Research. [lest 06.05.21]. Tilgjengelig på https://hbiostat.org/bbr/md/change.html