Kronikk: Ernæringsforskning er ikke som annen forskning

Kjøtt har vært et debattert tema den siste tiden, og det er sterke meninger i begge ytterpunkter. I bunn og grunn er ikke dette en debatt om kjøtt, men koker ned til en debatt om hvordan forskning på kosthold og ernæring bør vurderes og tolkes. I denne artikkelen vil vi drøfte ulike aspekter som er viktige når vi vurderer ernæringsforskning og utvikler kostråd.

“Voksne bør fortsette sitt nåværende inntak av rødt og prosessert kjøtt”. Slik lød konklusjonen i en nylig publisert oversiktsartikkel som gikk gjennom grunnlaget for anbefalingen om å redusere inntaket av nettopp disse matvarene. Forskningen som ligger til grunn beskrives som svak, og dermed faller også grunnlaget for anbefalingen på stengrunn, ifølge forfatterne (1). “Fortsett å spise rødt kjøtt” skrev avisene. Dette har skapt mye debatt, også i NTFE, hvor det har blitt konkludert med at kjøtt ikke bør vurderes som noe annet enn en næringsrik matvare (2), men også at rødt og prosessert kjøtt er kreftfremkallende og at inntaket bør begrenses (3). I bunn og grunn er ikke dette bare en diskusjon om kjøtt i seg selv, men berører snarere kvaliteten på forskningen som ligger bak, hvordan den skal tolkes, og hvilket grunnlag man har for å gi spesifikke kostråd. Her vil vi prøve å sette disse tingene i et større perspektiv.

Å lete etter årsakssammenhenger

Hvis vi virkelig skal fastslå om en eksponeringsfaktor faktisk forårsaker et utfall, for eksempel om kjøttinntak er en årsak til kreft, er ikke dette på noen måte rett frem. I en ideell verden kunne vi først eksponert en gruppe mennesker for kjøtt, fulgt de over lang tid, og observert hvem som fikk kreft. Deretter måtte vi rykket tilbake til start, fulgt den samme gruppen mennesker uten at de spiste kjøtt, og observert hva som da skjedde. Så lenge alt annet var helt likt, kunne vi sammenlignet disse og sett om kjøttinntaket endret kreftrisikoen. Men, i fraværet av tidsreiser kan slike kontrafaktuelle scenarioer, der de samme menneskene både er eksponert og ikke-eksponert samtidig, bare eksistere i fantasiens verden. Derfor må vi ta i bruk andre verktøy og metoder.   

Alle deltakerne vil være eksponert for mat. Noe må vi spise. I prinsippet kunne man gjennomført en studie hvor intervensjonsgruppen fikk kjøtt på toppen av sitt vanlige kosthold, og dermed også et høyere totalt energiinntak, mens kontrollgruppen ikke fikk det. Ville da en observert forskjell skyldes kjøttet, eller den ekstra energien? Foto: Shutterstock.com

Randomiserte, kontrollerte studier (RCT-er) beskrives ofte som gullstandarden for å etablere årsakssammenhenger. I slike studier fordeles deltakerne tilfeldig inn i to grupper, hvor en gruppe får en intervensjon (intervensjonsgruppen) mens den andre gruppen ikke får det (kontrollgruppen). Utover dette behandles gruppene likt. Randomiseringen gjør at vi kan forvente at gruppene i utgangspunktet vil oppnå samme utfall, og eventuelle forskjeller mellom gruppene kan dermed tilskrives selve eksponeringen og ikke andre faktorer. Utfallet i kontrollgruppen brukes dermed som et estimat på hva vi antar hadde skjedd dersom intervensjonsgruppen ikke ble eksponert, og motsatt. Denne antagelsen kalles utskiftbarhet. I tillegg får kontrollgruppen ofte en intervensjon uten et aktivt virkestoff for å gardere oss mot eventuelle generelle effekter kun av å motta en intervensjon, såkalte deltakereffekter, eller naturlig variasjon. Aller helst skal verken forskere eller deltakere vite hvem som er i hvilken gruppe, altså skal studien helst være dobbeltblindet, noe som bidrar til å minimere forventningseffekter hos deltakerne og observatøreffekter hos forskerne.

Det å gjennomføre gode RCT-er hvis man vil undersøke effekten av et medikament er relativt enkelt. Enten får man medikamentet, eller så får man det ikke, og alt annet kan være likt. Det er også lett å utvikle et placebo-preparat med samme utseende som det faktiske medikamentet, slik at deltakerne, og forskerne, kan blindes. Å estimere den faktiske effekten av medikamentet er dermed uproblematisk.

Når vi forsker på kosthold er dette av flere grunner ikke like enkelt (4), noe vi vil utdype her. Dersom intervensjonsgruppen skal spise kjøtt, må kontrollgruppen spise noe annet for å få samme energiinntak, for eksempel fisk. Vil da en eventuell forskjell mellom gruppene skyldes at intervensjonsgruppen spiste mer kjøtt, at kontrollgruppen spiste mer fisk, eller en kombinasjon? Dette kalles substitusjonseffekter, og er en sentral utfordring i ernæringsforskning. I motsetning til et medikament, som vi kan være eksponert for eller ikke, vil alle være eksponert for mat. Noe må vi spise. I prinsippet kunne man gjennomført en studie hvor intervensjonsgruppen fikk kjøtt på toppen av sitt vanlige kosthold, og dermed også et høyere totalt energiinntak, mens kontrollgruppen ikke fikk det. Ville da en observert forskjell da skyldes kjøttet, eller den ekstra energien? Dette blir umulig å si. Videre vil vi i begge tilfeller støte på en annen sentral utfordring med forskning på ernæring, nemlig at vi ikke har en ikke-eksponert kontrollgruppe. Vi sammenligner dermed ikke å spise kjøtt mot å ikke gjøre det, men ulike grader av kjøttinntak som går fra null og oppover. Dette vil også være en begrensning dersom vi forsket på kosttilskudd, som i utgangspunktet ville være mulig å sammenligne med placebo. I ernæring starter vi aldri på null, vi er alle eksponert i ulik grad. Det er også tilnærmet umulig å blinde deltakerne når vi studerer kosthold, ettersom gode placebo-matvarer ikke eksisterer, og deltakerne naturligvis vet hva de spiser.

Forskning på ernæring vil fortrinnsvis gjelde forebygging, og ikke behandling, av sykdom. Livs­stilssykdommer som diabetes, hjerte- og karsykdommer og kreft utvikles gjerne over flere tiår, og vi kan anta at sammenhengen mellom kosthold og disses sykdommene først kommer til uttrykk over lang tid. I praksis lar det seg ikke gjøre å randomisere noen til å spise eller ikke spise en matvare over lang nok periode til å studere hvordan denne matvaren påvirker risikoen for kroniske sykdommer. Ettersom mange vil falle fra i løpet av oppfølgingstiden, ville en slik studie i beste fall undersøkt effekten av å be folk om å spise matvaren, ikke effekten av å faktisk spise den. 

Det er altså ikke praktisk mulig å gjennomføre gode, langvarige RCT-er når man skal undersøke hvordan kostholdet påvirker risiko for sykdom. Og dersom det lot seg gjøre, ville studiene fortsatt hatt betydelige begrensninger. Derfor er vi i ernæringsforskningen helt avhengige av observasjonsstudier for å studere langtidseffekter av kosthold.

Se, men ikke røre

Som navnet indikerer innebærer observasjonsstudier at vi passivt observerer en gruppe, uten å aktivt innføre en intervensjon. Følges gruppen fremover i tid, kalles dette for en prospektiv kohortstudie. Da samles relevant informasjon om deltakerne, for eksempel om kosthold, fysisk aktivitet, røykevaner, helsetilstand og medikamentbruk, inn ved oppstart av studien. Deretter registreres endepunkter etterhvert som de oppstår, og til slutt kan vi analysere dataene og se om det er noen sammenhenger mellom livsstilsfaktorer og forskjellige utfall. 

Et eksempel kan være om vi vil undersøke om det å ta kosttilskudd påvirker sykdomsrisiko. Ved å samle inn data på hvem som bruker kosttilskudd, kan vi deretter undersøke om deres risiko skiller seg fra de som ikke tar tilskudd. Her støter vi imidlertid igjen på en rekke utfordringer, for i motsetning til randomiserte studier hvor vi kunne anta at denne forskjellen var på grunn av tilskuddet, kan vi ikke uten videre anta det samme i observasjonsstudier. Dette skyldes at personene selv velger sin egen eksponering, og med stor sannsynlighet er det mange systematiske forskjeller mellom de som velger å bruke kosttilskudd og de som velger å ikke gjøre det. Slike faktorer som påvirker både eksponeringsvariabelen og utfallet, er det vi kjenner som konfunderende faktorer. For eksempel viser undersøkelser at de som bruker kosttilskudd generelt sett spiser sunnere, røyker mindre, er mer fysisk aktive og har mindre overvekt (5). Jevnt over er de mer helsebevisste. Vi sammenligner altså ikke bare effekten av tilskudd, men den samlede effekten av alle disse faktorene. Dersom vi ønsker å isolere effekten av å ta kosttilskudd, må vi derfor ta høyde for alle disse faktorene i analysene. Men, i praksis er det umulig å fullt ut ta høyde for alle slike faktorer, for eksempel fordi de ikke kan måles på en god måte (hvordan måler man helsebevissthet?) eller er ukjente, i tillegg til at de ulike faktorene interagerer med hverandre i et komplekst samspill. En annen potensielt forstyrrende faktor vi må være oppmerksomme på er revers kausalitet, hvor den observerte sammenhengen går motsatt vei. For eksempel viser observasjonsstudier at de som drikker lettbrus er mer overvektige enn de som drikker vanlig brus, men er dette fordi lettbrusen gir overvekt, eller fordi overvektige i større grad velger lettbrus? Sammenligner vi med intervensjonsstudier virker sistnevnte mest sannsynlig (6). Dette vil også medføre at lettbrus assosieres med risikoen for overvektsrelaterte sykdommer. Det samme prinsippet vil gjelde i andre tilfeller der høyrisikoindivider endrer atferd, for eksempel begynne å trene, spise sunnere eller ta kosttilskudd. Den nye atferden kan i seg selv være gunstig, men kan fremstå som ugunstig i dataene, ettersom personene som endrer atferd har en høyere risiko for sykdom i utgangspunktet.

Med andre ord vil det alltid være en del usikkerhet knyttet til forbundet med resultatene fra observasjonsstudier, som må tas med i beregningen når vi tolker resultatene. 

Vurdering av ernæringsforskning er en kompleks øvelse

Ettersom det er tilnærmet umulig å gjennomføre gode, langvarige RCT-er når man skal undersøke sammenhenger mellom kosthold og sykdom, er en stor del av kunnskapsgrunnlaget om disse sammenhengene basert på observasjonsstudier. Som nevnt er disse beheftet med flere svakheter, og vurderes derfor ofte til å være av lavere kvalitet enn intervensjonsstudier. Men som nevnt er heller ikke randomiserte studier på ernæring fri for betydelige begrensninger. Betyr dette at all ernæringsforskning er dårlig, og at alt vi vet om kosthold er feil? Ikke nødvendigvis.

Vi er alle enige om at vi må vektlegge helheten i forskningen, og ikke basere oss på enkeltstudier. Derfor oppsummeres forskning i systematiske oversikter og metaanalyser, som legger grunnlaget for anbefalinger. I denne sammenhengen er det også viktig å vektlegge kvaliteten på forskningen som er gjort, og det er utviklet flere verktøy til dette formålet. Et av disse er GRADE-kriteriene (Grading of Recommendations, Assessment, Development, and Evaluation) (7). Ved å bruke GRADE-kriteriene rangeres kvaliteten på forskningen til fire nivåer, fra veldig lav til høy kvalitet. RCT-er vurderes i utgangspunktet til å være av høy kvalitet, mens observasjonsstudier automatisk vurderes til lav kvalitet. Kvaliteten kan justeres både opp og ned et nivå basert på ulike kriterier. 

Et kriterium for å oppjustere vurderingen av observasjonsstudier er at effekten som observeres er stor. Når det gjelder forskning på kosthold, er dette av flere grunner noe vi sjelden observerer. For det første må denne forskningen nødvendigvis ta utgangspunkt i selvrapporterte kostholdsdata, som er beheftet med en betydelig usikkerhet. I de fleste tilfeller vil dette bidra til å vanne ut sammenhenger, altså fremstår sammenhengene svakere enn de egentlig er (8). I tillegg er de fleste av oss eksponert for de fleste matvarer i ulik grad, fra null og oppover. Derfor må eksponeringen for ulike kostholdsvariabler anses som kontinuerlig, og ikke enten-eller. Når det gjelder kosthold vil vi også forvente en form for dose-respons, hvor en stor endring vil ha større effekt enn en liten endring. Effekten av å spise en ekstra porsjon frukt og grønt i måneden vil være nærmest ubetydelig, mens effekten av å spise en ekstra porsjon daglig både vil fremstå mye større, og kanskje mer relevant. Ettersom den observerte effektstørrelsen vil være direkte knyttet til hvor stor kontrast vi sammenligner, vil enhver vurdering av effektstørrelser utenfor denne konteksten, slik GRADE-kriteriene oppfordrer til, være meningsløs.  

GRADE er selvsagt et nyttig verktøy for å vurdere kvaliteten på forskning hvor det er mulig å gjennomføre randomiserte studier, for eksempel når vi studerer om en medisin virker mot en sykdom eller ikke. Her er eksponeringsfaktoren godt definert, noe som gjør sammenligningen mindre komplisert. For spørsmål som på en god måte kan besvares med RCT-er bør disse typer studier selvsagt tillegges mest vekt, og GRADE er spesifikt utviklet nettopp til denne typen spørsmål. For mer komplekse problemstillinger som ikke kan besvares direkte på denne måten, for eksempel hvordan kosthold påvirker helsen på lang sikt, må det totale forskningsgrunnlaget nødvendigvis vurderes på en annen måte. Vi må også akseptere at vi i denne situasjonen ikke får like sikre svar. Ettersom observasjonsstudier i mange tilfeller er det beste man kan oppnå når vi studerer langtidseffekter av kosthold, er det relevant å vurdere kvaliteten på disse mer spesifikt. Et alternativt verktøy er NutriGRADE, som er utviklet for å bedre vurdere kvaliteten på ernæringsforskning (9). Her vurderes kvaliteten på RCT-er og observasjonsstudier hver for seg, og begge typer studier kan oppnå en poengsum fra 0-10 poeng basert på ulike kriterier knyttet til kjente begrensninger med forskning på kosthold. Dette betyr imidlertid ikke at RCT-er og observasjonsstudier anses som «like gode», men åpner for at en randomisert studie ikke nødvendigvis gir mer sikker kunnskap enn en observasjonsstudie på denne typen problemstillinger. 

Det handler ikke om å stille lavere krav

En innvending som har dukket opp i diskusjoner rundt hvorvidt GRADE bør anvendes på ernæringsforskning, er at man ikke bør stille lavere krav til ernæringsforskning enn til annen medisinsk forskning, noe vi selvsagt er enig i. Men det er viktig å understreke at ernæringsforskning ikke kan vurderes på samme måte som annen medisinsk forskning, fordi forutsetningene er veldig forskjellige. Å kategorisere all ernæringsforskning som svak, basert på at det ikke bygger på dobbelt-blindede, randomiserte, kontrollerte studier er et dårlig utgangspunkt for konstruktiv dialog. En slik ukritisk anvendelse av GRADE-kriteriene, i en situasjon hvor disse ikke var egnet, var bakgrunnen for de mye omtalte konklusjonene om helseeffektene av rødt og prosessert kjøtt. 

Forskning på ernæring har utvilsomt store begrensninger, og resultatene vil alltid være beheftet med stor usikkerhet. Når man skal utforme kostråd blir det derfor desto viktigere å kombinere informasjon fra ulike typer studier, kvaliteten på disse og om resultatene peker i samme retning. Dette inkluderer både godt designede kohortstudier hvor man samler inn så gode data som mulig og så godt det lar seg gjøre tar høyde for konfunderende faktorer, samt kortvarige RCT-er og foringsstudier hvor man undersøker effekten på intermediære endepunkter, og mekanistiske studier i dyr og cellekulturer. Om resultatene fra flere typer studier samsvarer, gir det en sterkere indikasjon. Klarer vi å kartlegge underliggende mekanismer vil dette være en ytterligere styrke. Det vil aldri være mulig å få et fasitsvar med to streker under svaret, men vi kan vurdere helheten i forskningen og hvorvidt den totalt sett peker i samme retning eller spriker. Kostrådene bør baseres på hva forskning som helhet tyder på, og presenteres med forbehold om at det ikke er mulig å påvise noe med 100% sikkerhet.

Til tross for at forskningen tydelig peker mot negative helseeffekter av et høyt kjøttinntak, settes det stadig spørsmålstegn til disse funnene, og fraværet av randomiserte studier brukes som argument for at dataene kan skrotes. Samtidig stilles sjelden tilsvarende spørsmål rundt hvorvidt frukt og grønt er gunstig, eller om fint mel bør byttes ut med fullkorn, til tross for at disse rådene er basert på samme type evidens som rådene om kjøtt. Det er også gode eksempler utenfor ernæringsfeltet, der det for eksempel er få som betviler at fysisk aktivitet er bra, eller at stillesitting er ugunstig. Få vil i dag argumentere for at røyk ikke forårsaker kreft. Men store randomiserte studier på faktorer som røyking og inaktivitet har aldri blitt, og kommer aldri til å bli, gjennomført. Skal vi forholde oss til GRADE-kriteriene, er med andre ord evidensen for disse også svak.

Ernæringsforskning må tolkes i kontekst 

Forskning på ernæring skiller seg fra annen medisinsk forskning på mange områder, og må vurderes i lys av dette. Når vi utarbeider kostråd må vi derfor ta hensyn til ulike typer data, som igjen må tolkes i riktig kontekst. Videre er det flere hensyn å ta. Blant annet skal rådene bidra til å dekke de fysiologiske behovene for energi og næringsstoffer. Kjøtt er en næringsrik matvare, og kan i denne sammenhengen regnes som en viktig matvare å inkludere i kostholdet. Samtidig skal kostrådene ta hensyn til det vi vet om sammenhengene mellom kosthold og helse, og der tyder dataene på at et høyt kjøttinntak ikke er like gunstig. I de senere årene har også hensynet til miljø og klima kommet sterkt, hvor kjøttproduksjon regnes som en versting sammenlignet med andre matvarer. Hvordan de ulike hensynene vektes vil avhenge av hvor i verden vi befinner oss. I vesten, hvor ernæringsstatus i befolkningen jevnt over er god, hvor kjøttinntaket er doblet siden andre verdenskrig og allerede er høyt, og hvor vi har rikelig tilgang på alternativer, er det naturlig at rådene fokuserer på å begrense inntaket. Like naturlig er det at hensyn vil vektes annerledes i andre deler av verden.

Forskningen på ernæring må vurderes som den er, med de begrensningene den kommer med. Vi må akseptere at den gir ikke definitive svar, men samtidig er det viktig å ikke la det perfekte bli det godes fiende. Vi kan ikke holde langvarige randomiserte studier som gullstandard på et felt hvor denne typen studier er en utopi, og forkaste informasjon fordi den er beheftet med usikkerhet. Vi må holde muligheten åpen for at rådene må oppdateres i tråd med ny informasjon, samtidig som vi ikke lar være å handle basert på den informasjonen vi allerede har. 

Referanser

  1. Johnston BC, Zeraatkar D, Han MA et al. Unprocessed Red Meat and Processed Meat Consumption: Dietary Guideline Recommendations From the Nutritional Recommendations (NutriRECS) Consortium. Annals of internal medicine. 2019:10.7326/M19-1621.

  2. By EL, Thorkildsen T, Sødring MS, Henriksen KS. Kronikk: Utfordringer med ernæringsforskningen på rødt kjøtt. Norsk Tidsskrift for Ernæring, 2019 (4).

  3. Kalchenko T, Johansen NC. Kronikk: Kjøttbransjens freidige overprøving av oppsummert vitenskap. Norsk Tidsskrift for Ernæring, 2019 (4).

  4. Blumberg J, Heaney RP, Huncharek M et al. Evidence-based criteria in the nutritional context. Nutrition reviews. 2010;68(8):478-84.

  5. Statista. Healthy habits of users and non-users of dietary supplements among U.S. adults in 2018 [Available from: https://www.statista.com/statistics/308337/dietary-supplement-users-and-non-users-by-healthy-habits/].

  6. Miller PE, Perez V. Low-calorie sweeteners and body weight and composition: a meta-analysis of randomized controlled trials and prospective cohort studies. American journal of clinical nutrition. 2014;100(3):765-77.

  7. Guyatt G, Oxman AD, Akl EA et al. GRADE guidelines: 1. Introduction—GRADE evidence profiles and summary of findings tables. Journal of Clinical Epidemiology. 2011;64(4):383-94.

  8. Lysne V, Olsen T. Feilkilder i ernæringsepidemiologi. Norsk Tidsskrift for Ernæring, 2018 (2).

  9. Schwingshackl L, Knuppel S, Schwedhelm C et al. Perspective: NutriGrade: A Scoring System to Assess and Judge the Meta-Evidence of Randomized Controlled Trials and Cohort Studies in Nutrition Research. Advances in nutrition. 2016;7(6):994-1004.