Er det noe alvorlig galt med den største behandlingsstudien for ME noensinne? – DEL 2

Dette er del 2 av en gjesteartikkel her på siden. Del 1 finner dere her. Del 3 her. Artikkelen er svært lang. Den er også temmelig teknisk. Og på toppen av det hele har jeg oversatt den fra engelsk, noe som ikke var noen enkel oppgave tatt i betraktning at artikkelen er full av forskningsmetodiske detaljer. Dere er herved advart.

Denne artikkelen ble først publisert på bloggen virology.ws. Det er en populær medisinsk blogg redigert av forskeren og professoren ved Columbia University i New York City, Vincent Racaniello. Men det er ikke Racaniello selv som har skrevet artikkelen. Den er skrevet av den amerikanske journalisten David Tuller. Han jobber nå ved University of California som koordinator for et masterprogram i helsepolitikk og journalistikk. Han har tidligere skrevet for noen av verdens fremste aviser som The New York Times og San Francisco Chronicle.

I denne omfattende artikkelen på over 16.000 ord, tar Tuller for seg en omstridt studie på ME-feltet – PACE-studien. Jeg tok kontakt med Tuller etter å ha lest hele artikkelen og spurte om tillatelse til å oversette den og publisere den på min blogg, noe han ga tillatelse til. I første del kan du lese begrunnelsen for hvorfor jeg publiserer teksten.

Jeg publiserer artikkelen i tre deler, slik Tuller selv gjorde på virology.ws. Her finner du de originale artiklene, hvis du foretrekker å lese på engelsk: Del 1  –  Del 2  –  Del 3

Note: I artikkelen brukes både ME, CFS, ME/CFS og kronisk utmattelsessyndrom som navn på sykdommen. 

Tusen takk til David Tuller som tillot at artikkelen ble oversatt og publisert her.

***************************

PRØVING OG FEILING: Problemet med ME/CFS-studien PACE – DEL 2

(Originalteksten finner du her: TRIAL BY ERROR: The Troubling Case of the PACE Chronic Fatigue Syndrome Study)

Skrevet av David Tuller, journalist og koordinator for masterprogrammet i helsepolitikk og journalistikk ved University of California, Berkeley.

For noen få år siden fikk jeg lov av Dr. Racaniello til å bruke bloggen hans til å publisere en lang artikkel om langvarig inkompetanse i det amerikanske CDCs oppfølging av den alvorlige lidelsen organisasjonen selv hadde gitt det misvisende navnet «kronisk utmattelsessyndrom». Nå vender jeg tilbake med en enda lengre artikkel om den kontroversielle og svært innflytelsesrike britiske forskningsstudien PACE. Studien kostet rundt 60 millioner kroner, ble finansiert av britiske myndigheter, og viste angivelig at pasienter kunne «bli friske» fra lidelsen gjennom behandling med to ikke-medikamentelle rehabiliteringsmetoder: gradert treningsterapi, som innebærer en gradvis økning i aktivitet, og en spesialisert form for kognitiv atferdsterapi. Hovedforskerne bak studien, en gruppe britiske fagpersoner innen psykisk helse, publiserte de første resultatene i The Lancet i 2011. Flere resultater ble senere publisert i andre vitenskapelige artikler.

Mye av det jeg skriver i denne artikkelen vil ikke være nytt for pasientmiljøet som har produsert en omfattende mengde kritiske kommentarer til studien på internett. Jeg kunne ikke ha skrevet denne artikkelen uten å dra nytte av disse undersøkelsene, og gjennom hjelp fra noen få kilder med kompetanse i statistikk som har veiledet meg gjennom kompliserte resultater. Jeg står også i takknemlighetsgjeld til kollegaer og venner innen både helsepolitikk og journalistikk som kom med verdifulle innspill og råd etter å ha lest tidligere utkast av artikkelen. Dette er del 2 av artikkelen som publiseres i 3 deler. Her er del 1. Jeg jobbet opprinnelig med denne saken sammen med Retraction Watch, men i sluttfasen ble vi ikke enige om retning og framgangsmåte for artikkelen.

Etter denne artikkelen ble publisert, har forskerne bak PACE-studien svart på artikkelen, og jeg har deretter svart på deres kritikk.

 

SAMMENDRAG AV ARTIKKELEN

Denne undersøkelsen av PACE-studien har avdekket flere store mangler:

* Studien inneholdt et paradoks av det bisarre slaget: da de påbegynte studien kunne deltakernes score på de to primære utfallsmålene fysisk funksjon og utmattelse både karakterisere dem som syke nok til å få delta i studien, men allikevel være ansett som «friske» på de samme utfallsmålene. Dette før de i det hele tatt hadde mottatt noen behandling. Det viste seg at 13 prosent av deltakerne i studien allerede ved starten av studien var ansett som «friske» på ett av disse to utfallsmålene. (jeg har oversatt «primary outcome» med primære utfallsmål – et utfallsmål er et målbart resultat forskerne bruker for å måle effekt av behandling).

* Midtveis i studien publiserte PACE-gruppa et nyhetsbrev for deltakerne som inneholdt entusiastiske sitater fra tidligere deltakere i studien om hvor mye «terapien» og «behandlingen» hadde hjulpet dem. Nyhetsbrevet inneholdt også en artikkel som informerte deltakerne om at de to behandlingene som ble testet i studien, gradert treningsterapi og kognitiv atferdsterapi, hadde blitt anbefalt som behandling av en komité nedsatt av de britiske myndighetene «basert på den beste tilgjengelige forskningen». Artikkelen i nyhetsbrevet nevnte ikke at en av nøkkelpersonene bak PACE-studien også hadde sittet i komitéen som anbefalte behandlingene som skulle testes i PACE-studien.

* PACE-forskerne endret på alle de primære utfallsmålene for å måle fysisk funksjon og utmattelse som var fastsatt i protokollen for studien. Men de gjennomførte ikke nødvendige analyser for å vise at de reviderte metodene og funnene fra disse var robuste. For eksempel gjennom en sensitivitetsanalyse (sensitivity analyses). Forskerne slakket også på alle de fire kriteriene i protokollens definisjon av «å ha blitt frisk» (recovered). Pasienter har bedt om innsyn i resultatene for «bli frisk»-definisjonen slik den er beskrevet i studieprotokollen, men forskerne har avvist slike innsynskrav med begrunnelsen at de kun er sendt «for å plage mottakeren» (OBS: det engelske ordet er «vexatious», og jeg tar gjerne imot en bedre oversettelse).

* PACE-forskernes påstand om vellykket behandling og «friske» pasienter var kun basert på pasientenes selvrapporterte utfallsmål fra spørreskjemaer. Alle objektive utfallsmål i studien – en gå-test, en step-test, og data om arbeidsførhet og mottak av trygdeytelser – ga ingen støtte til påstanden om at behandlingen var vellykket. I etterkant har PACE-forskerne avfeid de objektive utfallsmålene de selv definerte som ikke-objektive, irrelevante eller ikke til å stole på.

* Angående samtykkeerklæringene fra pasientene, brøt PACE-forskerne sin egen protokoll som inneholdt en eksplisitt erklæring om å informere deltakerne om enhver mulig interessekonflikt hos forskerne. Hovedforskerne har i lengre tid hatt bindinger til forsikringsindustrien gjennom konsulentoppdrag hvor de i årevis har gitt råd om at kognitiv atferdsterapi og gradert treningsterapi kunne få pasienter tilbake i arbeid. Allikevel fortalt de ikke deltakere om bindingene til forsikringsindustrien, og denne informasjonen ble ikke inkludert i samtykkeskjemaene. Forskerne informerte om dette under punktet «interessekonflikter» da de publiserte sine studier.

Renommerte forskere som har gått gjennom studien sier den en er full av metodeproblemer som umulig kan forsvares. Her er noen av deres kommentarer:

Dr. Bruce Levin, Columbia University: «Å gi deltakerne informasjon om at behandlingene som testes har blitt anbefalt av en myndighetskomité basert på «den beste tilgjengelige forskningen», slår meg som toppen av amatørmessig klinisk forskning.»

Dr. Ronald Davis, Stanford University: «Jeg er sjokkert over at The Lancet publiserte studien…PACE-studien har så mange mangler, og det er så mange spørsmål knyttet til den, at jeg ikke kan skjønne hvordan den kom gjennom noen form for fagfellevurdering.»

Dr. Arthur Reingold, University of California, Berkeley: «Slik det ser ut, ville det absolutt vært på sin plass med en uavhengig gjennomgang av studien gjennomført av eksperter som ikke var involvert i studien.

Dr. Jonathan Edwards, University College London: «For meg er dette helt umulig å tolke….Alle problemene med studien er svært bekymringsfulle, noe som gjør det mer eller mindre umulig å vurdere den kliniske betydningen av funnene.»

Dr. Leonard Jason, DePaul University: «PACE-forfatterne burde ha gjort noe med åpenbare metodiske problemer som kan så tvil om kredibiliteten til forskningen, slik som å ha overlappende kriterier som gjør at man kan bli regnet som frisk, men samtidig bli regnet som syk nok til å være med i studien.»

 

DEL TO

PACE-studien blir publisert

Rekruttering av studiedeltakere og randomisering til de fire gruppene begynte tidlig i 2005. I 2007 publiserte forskerne en kortversjon av studieprotokollen i tidsskriftet BMC Neurology. Der lovet de følgende resultater for de to primære utfallsmålene:

* «Positiv effekt» for fysisk funksjon ble definert som enten en score på 75 eller høyere på SF-36, eller en 50 prosent bedring i scoren fra utgangspunktet.

* «Positiv effekt» for utmattelse ble definert som enten en score på 3 eller lavere på Chalder Fatigue Scale, eller en 50 prosent bedring i skåren fra utgangspunktet.

* For å bli regnet som en som opplevde bedring (overall improvers) måtte deltakeren ha en score for «positiv effekt» på både fysisk funksjon og utmattelse.

Forskerne lovet også resultater for det de definerte som «å bli frisk» (recovered), et sekundært utfallsmål som inneholdt fire komponenter:

* En score for fysisk funksjon på 85 eller mer.

* En score for utmattelse på 3 eller lavere.

* En score på 1 («veldig mye bedre») ut av 7 på skalaen Clinical Global Impression, et skjema hvor pasientene selv rapporterer endring i helsetilstanden.

* At pasienten ikke lenger oppfyller noen av de tre diagnosekriteriene som ble brukt i studien (Oxford, CDC, ME-kriteriet).

Tom Kindlon lette i protokollen for å finne detaljerte opplysninger om de objektive utfallsmålene som ble lovet. Han visste at selvrapportering fra pasienter gjennom spørreskjemaer, kunne bli påvirket av faktorer som forholdet til terapeuten, eller ønsket om virkelig å tro på behandlingen. Han visste også at tidligere studier av slike behandlinger for sykdommen, hadde vist at det ofte ikke var noen bedring på objektive utfallsmål selv om studiene viste bedring på de subjektive målene pasientene selv rapporterte.

«Hvis du vil måle effekten av slanking, vil du ikke spørre folk om de opplever å ha gått ned i vekt, du veier dem,» sier Kindlon.

Protokollens objektive utfallsmål for fysisk kapasitet og funksjon innebar:

* En seks minutters gå-test.

* En step-test (på en krakk/benk).

* Data om jobbsituasjon, lønn og trygdeytelser.

***

På nettsiden til studien publiserte PACE-gruppa av og til «nyhetsbrev» med oppdateringer om finansiering, rekruttering til studien og annen relevant informasjon. Det tredje nyhetsbrevet, datert desember 2008, inneholdt skryt av studien fra statsministerens kontor i tillegg til en artikkel om at de britiske myndighetene hadde offentliggjort nye retningslinjer for behandling av CFS.

Ifølge nyhetsbrevet var de nye retningslinjene «basert på den beste tilgjengelige forskningen» og anbefalte behandling med kognitiv atferdsterapi og gradert treningsterapi, de samme typene behandling som ble undersøkt i PACE. Nyhetsbrevet nevnte ikke at en av hovedforskerne bak PACE, fysioterapeut Jessica Bavington, også hadde sittet i den offentlig utnevnte komitéen som hadde gitt støtte til behandlingene brukt i PACE.

I det samme nyhetsbrevet var det en rekke sitater fra deltakere i studien som handlet om de positive effektene av «terapien» og «behandlingen». Hvilken terapi eller behandling de siktet til ble imidlertid ikke navngitt. Nyhetsbrevet inneholdt kun positive sitater, og ingen sitater fra deltakere med dårlige erfaringer. Ifølge en oversikt over rekrutteringen til studien var det på det tidspunktet fortsatt rundt en tredjedel av deltakerne – omkring 200 ut av 641 – som hadde en eller flere behandlingstimer igjen.

«Terapien var storartet,» skrev en deltaker. En annen var «så fornøyd med at denne behandlingen/studien hadde ført til stor bedring i søvn!». En tredje skrev: «Å få være med i denne studien har vært til enorm hjelp. (Behandlingen) er nå blitt et levesett for meg». En fjerde skrev: «(Terapeuten) er svært behjelpelig og gir svært nyttige råd i tillegg til å motivere meg». Legen til en av deltakerne skrev om de «positive endringene» hos pasienten som et resultat av «terapien» og erklærte at studien «åpenbart har potensiale til å forandre livene til mange mennesker». Legen gratulerte PACE-gruppa med det «suksessrike programmet», det til tross for at ingen resultater fra studien ennå var blitt offentliggjort.

Arthur Reingold er leder for epidemiologiavdelingen ved University of California Berkeley (og en kollega av meg). Han har fagfellevurdert en hel rekke kliniske studier gjennom flere tiår som forsker. Han har aldri sett et tilfelle hvor forskerne midtveis i studien har spredt denne type pasienterfaringer og sitater som skryter av behandlingene som blir testet. Det reiser bekymringer om hele integriteten til funnene i studien, sier Reingold.

Han legger til at selv om de spesifikke behandlingene ikke ble navngitt, kan slike pasientsitater allikevel påvirke tilbakemeldingene fra alle deltakerne i behandlingsgruppene i positiv retning. Eller det kan forårsake andre uforutsigbare effekter – særlig med tanke på at de primære utfallsmålene var selvrapportering fra pasientene. (Han har heller ikke sett noen studier hvor deltakerne kunne være regnet som syke nok til å få være med i studien, mens de med samme score på samme utfallsmål ville være regnet som å ha «blitt friske» på slutten av studien).

«Gitt de subjektive primære utfallsmålene, ser det ut til at å spre pasientsitater fra deltakere i behandlingsgruppene bryter med de grunnleggende prinsippene for forskningsdesign. Det kan potensielt føre til i betydelig grad å påvirke tilbakemeldingene og informasjonen fra studien,» sier Reingold. «Jeg kan ikke huske å sett en tilsvarende tilnærming i andre behandlingsstudier. Slik det ser ut, ville det absolutt vært på sin plass med en uavhengig gjennomgang av studien gjennomført av eksperter som ikke var involvert i studien».

***

Så fort Lancet-artikkelen var offentliggjort, begynte Kindlon å dele inntrykk med andre via nettet. «Det var som en bikube,» sier han. «Gradvis oppdaget folk forskjellige problemer og publiserte disse, og du kunne se hullene i studien».

I tillegg til å hevde at kognitiv atferdsterapi og gradert treningsterapi var moderat effektive behandlinger, erklærte forskerne i Lancet-artikkelen at behandlingene var trygge og uten tegn på alvorlige bivirkninger, tross bekymringene fra pasienter. Pacing-behandlingen viste seg å ikke være noe bedre enn vanlig oppfølging av en spesialist. Den viste også at de to undergruppene som ble definert ut fra andre diagnosekriterier, ikke skilte seg vesentlig fra resten av deltakerne når det kom til effekt.

Det tok ikke lang tid før Kindlon og andre la merke til noe uvanlig – forskerne hadde gjort en rekke endringer i utfallsmålene underveis i studien. Det inkluderte endringer i begge de primære utfallsmålene. PACE-forskerne forklarte i Lancet-artikkelen at de på grunn av treg rekruttering av deltakere elleve måneder ut i studieforløpet, hadde avgjort å slakke på grenseverdien for fysisk funksjon for å kunne være med i studien. De økte grenseverdien fra opprinnelig å ha vært 60, til isteden å være 65, noe som er en friskere score. Angående målet for utmattelse bestemte de seg for å gå bort fra det bimodale scoringssystemet hvor pasientsvarene ble scoret med 0 og 1. Isteden brukte de et annet system hvor pasientsvarene ble scoret fra 0 til 3. De skrev at det ble gjort for å kunne «mer presist teste våre hypoteser». (De innsamlede dataene gjorde det mulig å endre dette scoringssystemet underveis).

De forklarte ikke hvorfor de valgte å endre denne scoringsmetoden underveis i studien, framfor å gjøre det før studiestart. De forklarte heller ikke hvorfor de ikke like godt publiserte resultatene fra begge de to metodene. De nevnte ikke at FINE-studien fra 2010 – en mindre studie for sykere og hjemmeværende pasienter hvor det ble testet et behandlingsregime beslektet med behandlingene i PACE – rapporterte at de ikke fant noen signifikante forskjeller mellom de forskjellige gruppene i studien da de brukte de samme spørreskjemaene for fysisk funksjon og utmattelse som i PACE.

Analysen av pasientsvarene på Chalder Fatigue Scale i FINE-studien var bimodale, slik forskerne i PACE også lovet i sin protokoll for PACE. Forskerne bak FINE rapporterte imidlertid senere at en analyse i etterkant (post-hoc analyse), hvor de heller brukte et scoringssystem fra 0 til 3, viste moderat effekt av behandlingen. Året etter kopierte PACE-gruppa den samme reviderte metoden i Lancet-artikkelen.

FINE-studien ble også finansiert av det britiske forskningsrådet i 2003, og PACE-gruppa refererte til denne som sin søster-studie. Teksten i Lancet-artikkelen nevnte allikevel ikke de negative funnene fra FINE-studien med et eneste ord.

***

I tillegg til disse endringene publiserte ikke forskerne de dataene de hadde lovet i protokollen: resultatene for «positiv effekt» på utmattelse og fysisk funksjon, og for de som opplevde bedring («overall improvers») gjennom «positiv effekt» på begge disse målene. De skrev isteden at endringer var godkjent av kontrollkomitéer før forskerne gikk gjennom dataene. Så introduserte de andre statistiske metoder for å vurdere scorene for utmattelse og fysisk funksjon. Alle resultatene viste da moderat bedring etter kognitiv atferdsterapi og gradert treningsterapi.

Først sammenlignet de endringene i gjennomsnittsscoren for fysisk funksjon og utmattelse for alle gruppene ett år etter behandlingsstart. Men i motsetning til metoden de skrev i protokollen at de ville bruke, ga ikke den nye målemetoden noe informasjon om en viktig faktor – det faktiske antallet deltakere i hver gruppe som rapporterte at de var blitt bedre eller verre.

Gjennom en annen metode de kalte en post-hoc-analyse (dvs. at målemetoden er fastsatt i etterkant) beregnet de andelen deltakere i hver gruppe som nådde det de definerte som en «klinisk nyttig» bedring. Det innebar en økning på minst åtte poeng på skalaen for fysisk funksjon, og en nedgang på minst to poeng på skalaen for utmattelse. I motsetning til den første analysen, ga denne post-hoc-analysen svarene på individnivå framfor kun et samlet svar. Det er allikevel slik at post-hoc-analyser aldri blir sett på som like gode som de som er spesifisert på forhånd.

For å definere noe som en «klinisk nyttig» bedring var det i tillegg slik at kravene for det var satt lavere enn det som var kravet for å nå protokollens grenseverdier for «positiv effekt». Protokollens grenseverdier for «positiv effekt» var en økning på ti poeng på skalaen for fysisk funksjon, fra inngangsverdien på 65 og opp til 75, og en reduksjon på tre poeng på skalaen for utmattelse, fra inngangsverdien på 6 og ned til 3.

En tredje metode i Lancet-artikkelen var enda en post-hoc-analyse. Den målte hvor mange deltakere i hver gruppe som nådde det forskerne kalte «normalområdet» for utmattelse og fysisk funksjon. De regnet ut «normalområdet» med utgangspunkt i tidligere studier med resultater for SF-36 og Chalder Fatigue Scale fra store populasjoner. I gruppene som fikk kognitiv atferdsterapi og gradert treningsterapi scoret henholdsvis 30 og 28 prosent av deltakerne innenfor «normalområdet» for både utmattelse og fysisk funksjon sammenlignet med representative populasjoner, rapporterte forskerne. Det var omkring dobbelt så mange som i de to andre gruppene i studien.

Av de viktigste objektive utfallsmålene fra protokollen, var det kun resultatene fra en seks minutters gå-test som ble opplyst om i Lancet-artikkelen. Gruppa som fikk gradert treningsterapi hadde en moderat økning på 67 meter i distansen de klarte å gå. Det innebar en økning fra 312 meter ved begynnelsen av behandling til 379 meter etter ett år. Deltakerne i de andre gruppene, inkludert de som fikk kognitiv atferdsterapi, viste ingen betydelig bedring etter ett år.

Like fullt var resultatet fra gruppa som fikk gradert treningsterapi fortsatt indikasjon på alvorlig nedsatt funksjon. Resultatene viste at de presterte dårligere enn gjennomsnittet til friske kvinner mellom 70 og 79 år (490 meter), personer med pacemaker (461 meter), pasienter med hjertesvikt klasse II (558 meter) og pasienter med cystisk fibrose (626 meter). Rundt tre fjerdedeler av PACE-deltakerne var kvinner. Gjennomsnittsalderen var 38 år.

***

Kindlon så at Trudie Chalder trakk fram post-hoc-analysen av «normalområdet» for de to primære utfallsmålene, da hun uttalte seg på pressekonferansen i forbindelse med PACE-studien. Hun trakk fram at det i gruppene som fikk kognitiv atferdsterapi og gradert treningsterapi var «dobbelt så mange» deltakere som kom seg «tilbake til normalen». Men Kindlon visste at «normalområdet» var en statistisk konstruksjon, og det betydde ikke det samme som «tilbake til normalen» eller «å bli frisk» i medisinsk forstand.

Lancet-artikkelen inneholdt ingen resultater for å ha «blitt frisk» fra sykdommen slik dette var definert gjennom fire kriterier i protokollen. Kindlon mente derfor at Chalders uttalelser skapte unødvendig forvirring, da hun viste til at deltakere var kommet «tilbake til normalen». I tillegg mente han at kollegaer av PACE-forskerne forsterket det problemet gjennom en ledsagende kommentarartikkel i Lancet, hvor de hevdet at studien viste at 30 prosent av deltakerne var «blitt friske» (recovered), noe som var basert på analysene av å være innenfor «normalområdet».

Kindlon, og andre med han, la også merke til noe veldig underlig ved dette «normalområdet». Det overlappet med kriteriene for å få lov til å være med i studien. Mens en score for fysisk funksjon på 65 ble regnet som bevis for at man var syk nok til å få være med i studien, hadde forskerne nå fastsatt at en score på 60 eller bedre var «innenfor normalområdet». Man kunne dermed få lov til å være med i studien med en score for fysisk funksjon på 65, bli dårligere i løpet av studien og etter ett år ha en score på 60, men like fullt bli regnet som det PACE-studien hadde satt til å være innenfor «normalområdet».

Det samme bisarre paradokset gjaldt målet for utmattelse, hvor en lavere score indikerer mindre utmattelse. Det var krav om å score minst 6 ut av 11 på Chalder Fatigue Scale for å være syk nok til å være med i studien. I den reviderte målemetoden for Chalder Fatigue Scale, ble denne grensen regnet om til å være 12 eller høyere på en skala til 30. Allikevel var PACE-studiens «normalområde» for utmattelse regnet å være en score på 18 eller lavere. En deltaker kunne dermed bli tatt inn i studien med en score for utmattelse på 12, bli mer utmattet gjennom studien og score 18 etter ett år, men like fullt bli regnet som å være innenfor «normalområdet».

«Det var absurd at kriteriet for «normal» utmattelse og fysisk funksjon var lavere enn kriteriet for å være syk nok til å få bli med i studien,» sier Kindlon.

Kindlon skjønte at det innebar at noen av deltakerne Chalder beskrev som «tilbake til normalen» fordi de var innenfor «normalområdet», i realiteten egentlig kunne ha blitt dårligere i løpet av studien. Det samme gjaldt den ledsagende kommentarartikkelen til PACE-studien, hvor det ble sagt at deltakerne som møtte dette underlige målet for «normalområdet» var «blitt friske» ifølge «strenge kriterier». Denne definisjonen av å «bli frisk» ble åpenbart godkjent av PACE-forskerne da de før publisering gikk gjennom kommentarartikkelen.

Det overrasket ikke Tom Kindlon at påstandene om «tilbake til normalen» og «blitt friske» ble hovedfokus for mye av nyhetsdekningen rundt studien. Det irriterte han voldsomt at Chalder og forfatterne av den ledsagende kommentarartikkelen var i stand til å skape så mye positiv publisitet ut fra noe som tross alt var en post-hoc-analyse. En analyse som tillot at deltakere som ble regnet som å ha alvorlig nedsatt funksjon på samme tid kunne regnes som «tilbake til normalen» eller å ha «blitt friske».

***

Medlemmene i et av nettforumene var også overrasket, og de sjekket opp de populasjonsstudiene som PACE-studien viste til som beregningsgrunnlaget for «normalområdet». Da oppdaget de et alvorlig problem. I disse studiene fikk man ingen klassisk Bell-kurve for resultatene fra spørreskjemaene for fysisk funksjon og utmattelse. En slik kurve kalles en normaldistribusjon av data. Isteden var resultatene svært skjevfordelt, siden mange av svarene klumpet seg sammen i den friskeste enden av skalaen. Dette er et vanlig fenomen i helseundersøkelser på befolkningsnivå. Allikevel benyttet PACE-forskerne en standard statistisk metode for å regne ut sitt «normalområde». Dette innebar å ta gjennomsnittsverdien pluss/minus et standardavvik. I et tallmateriale med en normaldistribusjon vil en da plukke ut et spenn som inkluderer 68 prosent av personene i referansebefolkningen.

Standardavvik

Her er en Bell-kurve. Pluss/minus ett standardavvik vil inkludere 34 prosent på hver side av gjennomsnittet (100). I en normaldistribuert populasjon vil det dermed inkludere 68 prosent av populasjonen.

 

I en artikkel fra 2007, hvor Peter White var medforfatter, påpekte de at en slik beregningsmetode for normalområdet «antok en normaldistribusjon av resultatene». De skrev at man ville få andre resultater hvis dette ikke var tilfellet – altså hvis resultatene ikke hadde en normaldistribusjon. Whites artikkel fra 2007 påpekte også at resultatene på fysisk funksjon fra SF-36 i befolkningsundersøkelser ikke hadde normaldistribusjon. De skrev også at man ved bruk av statistiske metoder som er spesifikt beregnet for slik skjevfordeling, ville få andre resultater for hva som er normalområdet

skewed_distribution_

Her ser man en Bell-kurve til venstre med normaldistribusjon sammenlignet med en kurve hvor dataene er skjevfordelt til høyre. I det skjevfordelte datasettet vil gjennomsnittet (mean) forskyves. La oss si at de aller fleste personene i datasettet er friske og klumper seg sammen helt opp mot høyre ende, mens noen få er svært syke og har en veldig dårlig score helt til venstre. Da vil det fåtallet som har veldig mye dårligere helse enn resten, trekke gjennomsnittet uforholdsmessig mye ned. Gjennomsnittet vil ikke gjenspeile at det klare flertallet har en score som helt friske. Hvis man da regner ut et «normalområde» ut fra gjennomsnittet pluss/minus et standardavvik, vil dette «normalområdet» inkludere folk med langt dårligere helse enn det klare flertallet i utvalget.

For å beregne «normalområdet» for utmattelse brukte PACE-gruppa en 2010-artikkel hvor Chalder var medforfatter. Denne artikkelen viste befolkningsbaserte resultater fra Chalder Fatigue Scale. På samme måte som for SF-36-skjemaet, ga heller ikke svarene på Chalder Fatigue Scale en normaldistribusjon. Isteden klumpet resultatene seg i den friskeste enden av skalaen, noe som også ble påpekt i Chalders artikkel.

Til tross for at White påpekte slike feilkilder i artikkelen fra 2007, var det ingen advarsler i PACE-artikkelen om denne viktige kilden til skjevheter i beregningen av «normalområdet» for både fysisk funksjon og utmattelse. I Lancet-artikkelen verken nevnte eller diskuterte de betydningen av det merkelige resultatet som gjorde at utfallsmålene som skulle indikere bedring faktisk indikerte dårligere helse enn kriteriene for å være syk nok til å være med i studien.

Biostatistiker ved Columbia University, Bruce Levin, sier at det finnes enkle statistiske formler for å regne ut et område som inkluderer 68 prosent av verdiene selv om dataene ikke er normaldistribuert. Disse kunne vært anvendt på dataene fra befolkningsundersøkelsene PACE-forskerne brukte for å regne ut «normalområdet» for fysisk funksjon og utmattelse. Å bruke den vanlige regnemetoden på datasett som er svært skjevt fordelt, kan ifølge Levin føre til «svært misvisende» resultater.

***

Å stille kritiske spørsmål til endringene som ble gjort i PACE-protokollen var absolutt i samsvar med filosofien til tidsskriftet som publiserte den. BioMed Central, utgiveren av BMC Neurology, påpeker på sin nettside at et av hovedmålene med å publisere studieprotokoller er å «gjøre lesere i stand til å sammenligne hva som var den opprinnelige intensjonen, og hva som faktisk ble gjort, og gjennom det forebygge både tilsløring av data og post-hoc-revisjoner av målsettinger i studier». Redaktørkommentaren i BMC Neurology, som var lenket til PACE-protokollen, understreket meldingen om at forskere bør ettergås.

Biostatistiker Bruce Levin sier at det aldri er å anbefale å endre protokollen, og at dette særlig er problematisk i ublindede studier som PACE. Han sier at forskerne i slike studier lett kan snappe opp hvilken vei studien ser ut til å gå, lenge før de faktisk får se resultatdataene. Den kunnskapen kan påvirke hvordan de gjør endringer fra protokollen, ifølge Levin.

Han legger til at selv når slike endringer er godkjent av kontrollkomitéer, må forskerne ta nødvendige forholdsregler for å vurdere hvordan det kan påvirke resultatene. Slike forholdsregler kan innebære å rapportere resultatene fra både den opprinnelige og den revidere metoden gjennom sensitivitetsanalyser, ifølge Levin. Da kan man måle om andre antakelser eller betingelser vil gi betydelige forskjeller i resultatene.

«Og i de tilfellene hvor det er betydelige forskjeller i resultatene, må forskerne forklare hvorfor forskjellene oppstår og overbevise et skeptisk publikum hvorfor de reviderte funnene bør ilegges mer vekt enn funnene gjort med de opprinnelige metodene,» sier Levin. Han påpeker at PACE-forfatterne ikke tok slike forholdssregler.

***

Noen av deltakerne i PACE syntes det var en ubehagelig overraskelse da de først etter at studien var ferdig, fikk vite om forskernes økonomiske bindinger til forsikringsbransjen gjennom å ha tatt konsulentoppdrag. Forskerne informerte om disse bindingene som en «interessekonflikt» i Lancet-artikkelen. Men de hadde også lovet å etterfølge Helsinkideklarasjonen, som er internasjonale retningslinjer for forskningsetikkk. Disse krever at deltakere i studier informeres om «enhver mulig interessekonflikt» og «tilknytninger» forskerne har.

Deltakerinformasjonen og samtykkeerklæringene i den siste godkjente protokollen inneholdt ikke noe av denne informasjonen. Av fire deltakere som er blitt intervjuet i forbindelse med denne saken, tre av dem ansikt til ansikt og en via telefon, opplyser alle at de ikke ble informert om forskernes bindinger til forsikringsselskaper verken før eller underveis i studieløpet. To fortalte at de ville ha blitt med på studien uansett, fordi de ikke hadde andre alternativer. Mens to fortalte at denne informasjonen ville ha påvirket beslutningen deres om å være med.

Rhiannon Chaffer sier at hun sannsynligvis ville ha avslått å være med i studien, hvis hun hadde visst dette på forhånd. «Jeg er skeptisk til alt som er støttet av forsikringsbransjen. Derfor ville det ha utgjort en forskjell for meg, fordi jeg hadde følt at studien ikke var uavhengig,» sier Chaffer, en dame midt i trettiårene som ble syk i 2006 og gikk til et studiesenter for PACE i Bristol.

En annen av de fire trakk samtykket sitt i ettertid og forbød forskerne å bruke hennes data i studien. «Ærlig talt så ble jeg ikke gitt anledning til å være informert,» sier deltakeren som ønsker å være anonym på grunn av en pågående rettstvist i forbindelse med sykdommen. «Jeg ble temmelig forbanna og følte meg lurt. Jeg følte at de løy gjennom å utelate dette.»

(Ingen av de fire deltakerne, hvor tre var i gruppen som fikk kognitiv terapi, følte at studien hadde reversert sykdommen. Jeg vil komme tilbake til pasientenes opplevelser senere.)

DEL 3 FINNER DU HER.

6 kommentarer

Filed under Uncategorized

6 responses to “Er det noe alvorlig galt med den største behandlingsstudien for ME noensinne? – DEL 2

  1. Tilbaketråkk: Er det noe alvorlig galt med den største behandlingsstudien for ME noensinne? – DEL 1 | De Bortgjemte

  2. Maria

    Dette er sikkert kjempepirkete av meg, men det heter «forholdsregler.» Det er ingenting som heter «forhåndsregler» (i ordboka i alle fall😉 ).

    Ellers er det helt strålende at du oversetter dette, og stoffet er utrolig interessant! Tusen takk.

    • Det er selvsagt ikke pirkete, og du har selvsagt helt rett🙂 Det skal så klart være forholdsregler, og det er nå rettet opp. Ble nok litt svimmel underveis i all oversettingen. Tusen takk for påpekningen!

  3. Tilbaketråkk: Er det noe alvorlig galt med den største behandlingsstudien for ME noensinne? – DEL 3 | De Bortgjemte

  4. nofu

    Takk for oversettelsen, du gjorde en kjempejobb!

    Tuller skriver også om FINE, denne ukjente søsterstudien til PACE her:

    http://www.virology.ws/2015/11/09/trial-by-error-continued-why-has-the-pace-studys-sister-trial-been-disappeared-and-forgotten/

    Som nevnt var deltakerne her sykere (husbunden) og terapeuten/sykepleieren kom på hjemmebesøk. Behandlingsopplegget fikk et fancy navn, «pragmatisk rehabilitering», men det hjalp ikke for det – ett år etter at behandlingen med kognitiv adferdsterapi og gradert treningsterapi var avsluttet, var ingen blitt bedre. Kanskje på tide å dra studien fram i den norske debatten?

  5. Tilbaketråkk: Forskere nekter innsyn i ME-studie | De Bortgjemte

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s