De media staan de laatste maanden bomvol met uitkomsten van wetenschappelijk onderzoek, om over social media maar te zwijgen. En het is lastig om door de bomen het bos nog te zien, helemaal wanneer beweringen op facebook soms als even waar worden beschouwd als grote onderzoeken in wetenschappelijke tijdschriften. Maar, waarom zijn deze twee eigenlijk niet evenveel waard? En waarom is het ene wetenschappelijk onderzoek beter of betrouwbaarder dan het andere? En bovendien, waarom wordt niet al het wetenschappelijk onderzoek gedaan op het beste, of hoogste, niveau? Daarover meer in deze blog (en mijn Instagram kanaal @makesciencework.)
De basis
Allereerst is het belangrijk te beseffen dat wetenschappelijk onderzoek er is in allerlei soorten en maten. Van kleine eenvoudige experimenten tot grote onderzoeken verricht in meerdere centra of zelfs landen. Hiernaast is er wetenschappelijk onderzoek dat wordt gedaan in een laboratorium, bij dieren, en bij mensen. Er is wetenschappelijk onderzoek waarbij met terugwerkende kracht wordt gekeken naar een bepaalde vraagstelling, en wetenschappelijk onderzoek dat gericht is op de toekomst. Er is onderzoek dat wordt verricht door een groepje onderzoekers, die al dan niet aan een universiteit of ziekenhuis gelinkt zijn, en onderzoek dat wordt verricht door bedrijven of de industrie. En zo zijn er nog veel meer verschillende soorten onderzoek. Om orde te scheppen in deze chaos is een gestandaardiseerde manier gevonden om de betrouwbaarheid van wetenschappelijk onderzoek in bepaalde categorieën in te delen.
Level of evidence
Deze categorieën heten level of evidence. Hoe hoger een onderzoek scoort in deze level of evidence (waarbij level 1 het hoogste is), hoe groter de kans is dat het een “goed” onderzoek betreft, en dat de uitkomsten van het onderzoek de waarheid benaderen. Benaderen inderdaad, want in de wetenschap hebben we het eigenlijk nooit over dé waarheid. Wat wetenschappelijk onderzoek namelijk doet is de kans bepalen dat een antwoord op een bepaalde vraagstelling waar is. Kort door de bocht gezegd: hoe hoger het level of evidence, hoe groter de kans dat de uitkomsten van dat onderzoek zo veel mogelijk kloppen met de werkelijkheid en niet op toeval berusten.
Indeling van wetenschappelijk onderzoek
De indeling op level of evidence gaat op basis van de methode van het onderzoek, dus de manier waarop het is opgezet. Er zijn verschillende manieren waarop deze level of evidence wordt beschreven, soms in cijfers (bijv. 1-7) en soms in letters (bijv. A,B,C). In deze blog beschrijf ik de indeling op basis van cijfers.
Level 7, 6 en 5
De allerlaagste categorie level of evidence gaat over meningen van experts, dit is level of evidence 7. Wanneer er bijvoorbeeld weinig wetenschappelijk onderzoek gedaan is of weinig bekend is over een ziekte of aandoening (bijvoorbeeld bij zeldzame aandoeningen of toen er in het begin van de Covid19 epidemie nog nauwelijks iets bekend was over SARS-Cov-2) moeten we varen op de meningen en expertise van deze experts. Omdat dit vooral gestoeld is op hun ervaringen, en het niet heel hard te maken is, is dit het laagste level of evidence. Toch is dit wat je ook veel in de kranten ziet: experts aan het woord. Het is daarom altijd belangrijk om te weten of de mening die zij verkondigen op basis is van onderzoek, of op basis van hun expertise alleen. Dit laatste is eigenlijk alleen erg interessant op het moment dat er niets beters beschikbaar is, dus wanneer er geen goed wetenschappelijk onderzoek gedaan is.
Dat kan beter!
Level 6 in de level of evidence is onderzoek dat hoger gerangschikt wordt dan de meningen van experts, maar nog niet supergoed onderzoek is, en gaat over uitkomsten van een enkel beschrijvend onderzoek of kwalitatieve studie. In beschrijvend onderzoek wordt er met terugwerkende kracht beschreven wat, hoe, of wanneer iets is gebeurd, zonder dat wordt onderzocht waarom iets is gebeurd. Een voorbeeld hiervan zou zijn wanneer ik onderzoek doe naar hoe veel mensen vorig jaar antibiotica hebben gekregen. Ik kan dan opschrijven dat ik in een database een bepaald aantal mensen heb gevonden die antibiotica hebben gekregen, en zelfs welke antibiotica en of dat er meer waren dan het jaar daarvoor. Maar waarom ze antibiotica hebben gekregen, en of dit wel echt nodig was (en of ze het misschien net zo goed niet hadden kunnen krijgen), dat kan ik niet beantwoorden met deze studiemethode. Een ander voorbeeld hiervan is een case report: een beschrijving van 1 of een paar patiënten met een bepaalde aandoening, waarin de aandoening en het beleid beschreven wordt. Momenteel zijn er bijvoorbeeld een aantal case reports bekend van patiënten die twee keer geïnfecteerd zijn geraakt met SARS-CoV-2. Dit heeft in de media voor veel ophef gezorgd. Echter, er zijn grotere en betere studies (met hoger level of evidence) die laten zien dat re-infectie in korte tijd nauwelijks lijkt voor te komen. Dit zegt in ieder geval dat we er op grote schaal waarschijnlijk helemaal niet zo bang voor hoeven te zijn.
En de kwalitatieve studies? Daarbij doe je onderzoek door middel van vragenlijsten of interviews, vaak met meerdere experts. Hierbij kun je dus niet rekenen met cijfers, of kansen bepalen. Het zegt vooral iets over de heersende praktijk of mening.
Level 5 op de schaal van level of evidence gaat over onderzoek dat een samenvoegsel is van onderzoeken die behoren tot level 6. Als er bijvoorbeeld veel onderzoeken zijn gedaan naar antibioticagebruik, in bijvoorbeeld verschillende landen, kun je die onderzoeken op één hoop gooien en opnieuw in zijn totaliteit beschrijven. Je hebt dan meer informatie en bewijs over het antibioticagebruik in een grote groep, maar kunt nog steeds niets zeggen over het waarom van het antibioticagebruik, en of het wel nodig was. Ook samenvoegen van kwalitatieve studies geeft iets meer bewijs: als veel experts dezelfde dingen antwoorden in interviews of vragenlijsten dan is de kans groter dat iets klopt. Maar, het blijven meningen, en geen hard bewijs.
Bij level 4 onderzoek wordt het serieuzer
Dit zijn de onderzoeken waarbij er echt wordt gekeken naar patiënten, en de uitkomsten van bepaalde interventies. Bij de opzet van dit soort onderzoeken wordt er bijvoorbeeld naar gekeken of patiënten die een blaasontsteking hebben die ik antibiotica geef eerder opknappen dan patiënten met een blaasontsteking die ik geen antibiotica geef. Dit kan ik doen door met terugwerkende kracht te kijken wie wel of geen antibiotica van mij kreeg, en die groepen met elkaar te vergelijken. Maar ik zou dit ook kunnen opzetten en vanaf nu data gaan verzamelen. Dit zorgt er vaak voor dat gegevens veel beter verzameld worden, en het onderzoek daardoor beter uitgevoerd wordt. Dat zou dan een level 3 studie kunnen zijn. Het allermooiste is wanneer ik het onderzoek dan zo op zou zetten dat of iemand wel of niet antibiotica krijgt voor zijn blaasontsteking niet door mij wordt bepaald, maar bijvoorbeeld door een computer en willekeurig. Dit zorgt ervoor dat de invloed van bijvoorbeeld mijn persoonlijke voorkeur (om bij wijze van spreken vrouwen of oudere mensen vaker antibiotica te geven) wordt weggenomen, en dat deze dus geen invloed kan hebben op de onderzoeksresultaten. Dit soort onderzoek heet een randomized controlled trial, en heeft level of evidence 3. Nog mooier zou het zijn wanneer patiënten in dit onderzoek sowieso een middel toegediend kregen, bijvoorbeeld òf antibiotica, òf een placebo (nep medicijn). Wanneer ik als onderzoeker en arts niet weet of de patiënt al dan niet de antibiotica heeft gehad, kan deze kennis dus ook niet de manier waarop ik naar de resultaten kijk (en dus de manier waarop ik mijn onderzoek uitvoer) beïnvloeden. Dit valt onder level 2 onderzoek. Een van de belangrijkste onderzoeken van deze tijd, het onderzoek naar het Coronavaccin, is een level 2 onderzoek.
De meesters: Level 1
Level 1 onderzoek, dus het hoogste niveau, is onderzoek waarbij deze hele goede level 2 of 3 onderzoeken op 1 hoop worden gegooid en samen worden gevoegd en beschreven (systematic review), en waarbij bij voorkeur berekeningen worden gedaan over deze enorme groep (meta analyse). De uitkomsten van dit soort onderzoeken zien we grofweg als het beste “bewijs” dat er is, en deze zullen het meest bij “de waarheid” in de buurt komen. Echter, dit geldt alleen wanneer de onderzoeken die op 1 hoop worden gegooid daadwerkelijk zelf ook van goede kwaliteit zijn (level 2 of 3).
Maar er is meer
Het is echter niet alleen deze indeling die belangrijk is voor hoe wetenschappers bepalen of wetenschappelijk onderzoek nou goed wetenschappelijk onderzoek is of niet. In deze blog beschrijf ik daarom nog drie belangrijke onderdelen: het wetenschappelijke blad waarin een onderzoek gepubliceerd wordt, peer review, bias en belangenverstrengeling.
Wetenschappelijke tijdschriften
Wanneer een onderzoeker of onderzoeksgroep klaar is met het verrichten van wetenschappelijk onderzoek schrijven ze daarover een wetenschappelijk artikel. Dit is een artikel met een verplichte vorm en opmaak. Zo moet er onder andere duidelijk beschreven worden welke methode en statistische tests de onderzoekers hebben gebruikt (hieraan is ook deels het level of evidence af te lezen), en moeten ze de resultaten (de cijfers) laten zien. Binnen de wereld van wetenschappelijke tijdschriften zijn er veel verschillende smaken, waarbij bepaalde tijdschriften veel hoger aangeschreven staan. Dit aanzien hebben ze vaak verkregen doordat ze kritisch zijn, en alleen belangrijke, vernieuwende en goede onderzoeken publiceren. Voorbeelden hiervan zijn the Lancet en The New England Journal of Medicine. In zo’n hoog aangeschreven tijdschrift gepubliceerd worden is erg moeilijk. Wanneer het onderzoekers lukt om in een dergelijk tijdschrift te worden gepubliceerd is dat in onderzoeksland een big deal. Omdat dit niet zomaar gaat, moet je onderzoek over het algemeen wel echt van goede kwaliteit zijn. Daardoor zegt het type tijdschrift waarin het onderzoek wordt gepubliceerd ook deels wat over hoe goed een onderzoek is. Een andere belangrijke factor, ook voor deze grote bladen, is peer review.
Peer review
Peer review heeft niets te maken met de peer als vrucht, maar gaat over het Engelse “peer”: een gelijke. Wanneer je als onderzoeker je onderzoek en artikel aanbiedt ter publicatie in een wetenschappelijk tijdschrift, wordt er bij voorkeur een controle uitgeoefend op jouw onderzoek door wetenschappers die jij niet kent. Deze wetenschappers zijn aangesloten bij het tijdschrift, of worden door het tijdschrift gevraagd. Zij controleren of wat jij zegt klopt, of je geen valse beweringen doet, en of er onduidelijkheden zijn in je verhaal die je eerst moet oplossen voordat het stuk gepubliceerd kan worden. Wanneer de peer reviewers het onderzoek niet goed genoeg vinden, wordt het niet gepubliceerd. Dit is ontzettend belangrijk als controle op wetenschappelijk onderzoek, om het kaf van het koren te scheiden en bijvoorbeeld slechte onderzoeken of onderzoeken met niet kloppende uitkomsten uit de wetenschappelijke wereld te weren. Het is dus bij gepubliceerd onderzoek ontzettend belangrijk om te evalueren of er ook een peer review heeft plaatsgevonden. In het begin van de Covid19 pandemie werden allerlei onderzoeken zonder peer review gepubliceerd, omdat men de urgentie zag van het vlot delen van uitkomsten in een noodsituatie. Achteraf bleek, na peer review, dat bepaalde onderzoeken eigenlijk niet zo goed in elkaar zaten. Hierdoor moesten uitkomsten worden aangepast of teruggetrokken. Dit kan niet alleen schadelijk zijn voor de kwaliteit van wetenschap, maar ook voor de gezondheidszorg.
Bias
Bias is een ingewikkeld concept en omvat allerlei redenen waarom uitkomsten van een onderzoek vertekend kunnen zijn. Een belangrijke vorm van bias die ik hier wil uitlichten is publicatie bias. Dit omvat het gegeven dat onderzoeken die een positieve uitkomst hebben, dus bijvoorbeeld onderzoeken die een positief effect van antibioticagebruik laten zien, vaker gepubliceerd worden door een medisch tijdschrift dan onderzoeken die geen positief effect laten zien. Waarom? Omdat men het tot voor kort niet interessant genoeg vond om te weten of iets niet werkte. Het is immers ook een beetje een saai verhaal wanneer er niets interessants uit een onderzoek komt. Dit zorgt er echter wel voor dat er een vertekend beeld ontstaat, bijvoorbeeld doordat de onderzoeken die geen effect laten zien ook niet worden meegewogen in een meta-analyse (level of evidence 1), omdat ze gewoonweg niet te vinden zijn. De laatste jaren is hier in de medische wereld, en bij de medische tijdschriften, meer aandacht voor.
Belangenverstrengeling
Zoals ik al zei aan het begin van deze blog kunnen onderzoeken ook worden uitgevoerd door bedrijven of de industrie. Ook kunnen onderzoekers hier nauwe banden mee onderhouden, of door hen betaald of gesponsord worden. Dit heet in het Engels conflict of interest, en dient altijd vermeld te worden omdat dit uiteraard belangenverstrengeling kan opleveren. En deze belangenverstrengeling kan invloed hebben op de uitkomsten van onderzoek. Zo zal een antibiotica- fabrikant natuurlijk graag willen dat antibioticagebruik een positief effect heeft op blaasontstekingen. Hierdoor kunnen de uitkomsten van zo’n onderzoek dan bijvoorbeeld net iets meer positief verwoord worden dan ze misschien zijn. Oftewel: als er belangenverstrengeling in het spel is, is er een kans dat het onderzoek mogelijk minder goed is gedaan. Zelfs bij een hoge level of evidence. Dit moet dus meewegen in je oordeel over of wetenschappelijk onderzoek al dan niet goed en betrouwbaar is.
Hoe onderscheid ik fake news rondom wetenschappelijk onderzoek?
Als je online onderzoeken tegen komt, zoals nu veel over Covid19, is het belangrijk om te onderzoeken wat de bron van een onderzoek is. Een krantenartikel of een mening van een expert is geen onderzoek, maar kan wel verwijzen naar een onderzoek. Vervolgens kijk ik als eerste waar het onderzoek gepubliceerd is. Is dit een bekend tijdschrift, of bestaat het helemaal niet? Hoe goed is dit tijdschrift eigenlijk (dit kun je onder andere afmeten aan de hoogte van de impact factor, een maat van impact van een tijdschrift, en dit kun je gewoon googelen). Is er op dit onderzoek door dit tijdschrift ook een peer review verricht? Als ik op 1 van deze vragen met “nee” moet antwoorden is het in ieder geval niet goed genoeg, en wellicht zelfs nep, en ga ik mijn tijd er niet mee verdoen. Als het onderzoek door deze criteria heen komt dan kijk ik naar het level of evidence. Wat voor type onderzoek is het, en hoe veel waarde moet ik er daarmee aan hechten? Ik ben vooral geïnteresseerd vanaf een level of evidence 4, maar bij voorkeur hoger. Daarna kijk ik naar de auteurs, hebben zij een belangenverstrengeling, en kunnen zij daardoor beïnvloedbaar zijn? Als ik dan nog geïnteresseerd ben ga ik het onderzoek zelf lezen en beoordelen.
Waarom is niet al het wetenschappelijk onderzoek van de hoogste kwaliteit?
Het simpele antwoord is: omdat het soms niet anders kan en omdat het heel moeilijk is. Van sommige nieuwe of zeldzame ziektebeelden is het niet mogelijk om grote onderzoeken te doen, omdat er simpelweg (nog) niet genoeg patiënten zijn. Bovendien moeten voor onderzoek van de hoogste kwaliteit (bijvoorbeeld een meta-analyse van clinical trials) er eerst clinical trials gedaan zijn. Zo kan er nog geen meta-analyse gedaan worden naar de effectiviteit van Coronavaccins, omdat de onderzoeken die in de meta-analyse geanalyseerd moeten worden nog bezig zijn. Onderzoeken van hoge kwaliteit kosten vaak jaren aan tijd en geld, en dat is er simpelweg niet altijd. Of eigenlijk: vaker niet dan wel. Hierdoor is het soms beter om eerst een aantal kleinere onderzoeken te doen, met minder hoge level of evidence, om te gebruiken als basis voor beter onderzoek. Doordat deze basis dan is gelegd, is er meer kans op bijvoorbeeld subsidies om tijd, mankracht en mogelijkheden te financieren om groter en beter onderzoek te verrichten.
Op de hoogte blijven? Volg ook mijn Instagramkanaal @makesciencework.
Disclaimer: Deze blog is geschreven vanuit mijn perspectief als arts en wetenschapper. Ik ben geen expert op het gebied van politiek, of economie, en schrijf daar dus ook niet over. Een pandemie, die in deze blog af en toe wordt gebruikt als voorbeeld, is voor ons allemaal nieuw. Voor artsen, wetenschappers, voor de overheid, voor iedereen. Beleid maken op het onbekende, met informatie en wetenschap die morgen alweer achterhaald kan zijn, is super moeilijk. Dat vergt mijns inziens ballen. En daarmee kunnen de keuzes die vandaag gemaakt worden, met de kennis van vandaag, over een half jaar zowel onzinnig als heel goed blijken. Dat is wat voortschrijdend inzicht is, ook in de wetenschap.