|
|
|
3. Schritt: Welches "Level of evidence" liegt vor?
Die einzelnen Studientypen haben für die relevanten Fragestellungen sehr unterschiedliche Bedeutung.
So ist eine Querschnittsstudie für eine therapeutische Fragestellung völlig unzureichend (etwa: ich befrage meine
Praxispatienten nach Angina pectoris und Medikamenteneinnahme, und versuche so herauszufinden, ob
Betablocker gegen Angina pectoris helfen); bei der Evaluation eines diagnostischen Tests ist dies aber in
aller Regel das bestmögliche Design. Folgerichtig differenziert diese Klassifikation, die überwiegend auf
dem Studientyp beruht, nach Fragestellung. Implizit gehen wir davon aus, daß der Studientyp ein
"Qualitätsmarker" ist5 6; eine Studienleiterin, die sich die Mühe macht, einen denkbaren
Kausalzusammenhang mit Hife einer Kohortenstudie zu untersuchen, wird auch in anderen
Aspekten von Planung und Durchführung mehr Sorgfalt anwenden als diejenigen, die sich
mit einem Querschnittsdesign zufriedengeben. Es gibt Fragestellungen, bei denen der Studientyp
selbst keine klare Qualitätsunterscheidung erlaubt (diagnostische Tests, symptomevaluierende
Studien); hier führen wir auch andere Qualitätskriterien an.
Fragestellung: Therapie
| Level |
Empfehlung |
Definition |
| T I a |
A |
Meta-analyse, systematische Übersichtsarbeit von RCTs, oder 'Megatrial' |
| T I b |
einzelne(r) RCT(s) |
| T II a |
B |
Kohortenstudie mit Kontrollgruppe/nicht randomisierter CT, quasiexperimentelle St. |
| T II b |
Fall-Kontroll-St. |
| T III |
Querschnitts-, ökologische Studie, Kohorte ohne Kontrollgruppe (Anwendungsbeobachtung), Fallserie |
| T IV |
C |
Expertenmeinung, Grundlagenforschung |
Erläuterungen:
(R)CT - (randomisierte) kontrollierte Interventionsstudie, Megatrial: mehr als 1000 Pat. insgesamt. Bei Übersichtsarbeiten ist entscheidend, daß eine
systematische Suche nach einschlägigen Arbeiten durchgeführt worden ist, die das Risiko übersehener
Publikationen minimiert; ob die Ergebnisse einzeln referiert werden oder durch ein mathematisches Verfahren
kombiniert werden (Meta-analyse), ist zweitrangig.
Bei therapeutischen Fragestellungen (Wirksamkeit) sind die Levels II a+b kaum noch, Level III definitiv nicht
diskutabel, zumindest bei medikamentösen Behandlungen.
Fragestellung: Kausalität
| Level |
Empfehlung |
Definition |
| K I |
A |
RCT |
| K II |
Kohorten-Studie |
| K III a |
B |
Fall-Kontroll-Studie |
| K III b |
Querschnitts-, ökolog. Studie, Fallserie/-bericht |
| K IV |
C |
Expertenmeinung, Grundlagenforschung |
Erklärungen für Abkürzungen siehe "Therapie"
Erläuterungen:
Bei allen nicht-therapeutischen Fragestellungen werden Meta-analysen/systematische Übersichtsarbeiten nicht gesondert berücksichtigt. Die Einordnung erfolgt also nach der Einzelstudie mit dem stärksten Studiendesign.
Ein RCT wird bei ätiologischen/Risikofaktoren-Fragestellungen nur ausnahmsweise zu erwarten sein (man kann kaum eine Gruppe zum Rauchen einteilen, die andere zum Nichtrauchen, um die Schädlichkeit nachzuweisen). Bei häufiger auftretenden
Nebenwirkungen von Medikamenten, die hier codiert werden, ist aber die Auswertung von RCTs sinnvoll.
Fragestellung: Prognose
| Level |
Empfehlung |
Definition |
| P I |
A |
prospektive Kohorte |
| P II |
B |
retrospektive Kohorte oder Kontrollgruppe eines RCT |
| P III |
Fallserie/-bericht |
| P IV |
C |
Expertenmeinung |
Erklärungen für Abkürzungen siehe "Therapie"
Fragestellung: Diagnostischer Test
| Level |
Empfehlung |
Definition |
| D I |
A |
unabhängige, verblindete Beurteilung, konsekutive Patienten, angemessenes Spektrum |
| D II |
B |
wie oben, aber Kriterien "konsekutive Patienten" und/oder "angem. Spektrum" nicht erfüllt |
| D III |
übrige Studien mit Vergleich zu "Goldstandard" |
| D IV |
C |
Expertenmeinung, Grundlagenforschung |
Erklärungen für Abkürzungen siehe "Therapie"
Erläuterungen:
Studien vergleichen grundsätzlich eine Prüf- und eine Referenzmethode (letztere als "Goldstandard" angenommen).
Unabhängige, verblindete Beurteiler: diagnost. Einordnung beim einzelnen Patienten erfolgt ohne das Wissen über das
Ergebnis der jeweils anderen Methode; konsekutive Patienten: jeder während eines definierten Zeitraums in die Studienpraxis
(o. ä.) kommende Patient wird eingeschlossen; angemessenes Spektrum: nicht nur Extreme (sind uninteressant, da diagnostisch
offensichtlich) oder nur ganz enges Spektrum von Schweregraden der Erkrankung (für andere Patienten nicht anwendbar).
Dazu gleich ein Beispiel: es soll untersucht werden, ob mit Hilfe der Perkussion des Kopfes ein Schlaganfall (ischämisch oder
hämorrhagisch) diagnostiziert werden kann; als "Goldstandard" wird das CT festgegelegt. Das Kriterium "konsekutive Aufnahme"
in die Studie ist dann erfüllt, wenn jeder mit einem akut aufgetretenen neurologischen Defizit auf die teilnehmenden Abteilungen
aufgenommene Patient eingeschlossen wird, und nicht nur eine willkürliche Auswahl. "Unabhängige, verblindete" Beurteilung
verlangt, daß CT-Befundung und Perkussion durch verschiedene Beurteiler erfolgen, denen der Befund des anderen nicht
mitgeteilt wird, die auch sonst keine Hinweise zu dem individuellen Patienten erhalten, sei es aus den Unterlagen oder durch
direkte Beobachtung. "Angemessenes Spektrum" beeinhaltet, daß Patienten verschiedener Schweregrade eingeschlossen
werden, gerade auch solche mit geringer ausgeprägter Symptomatik/Befunden, die diagnostisch ja meist die größeren Probleme bereiten.
Fragestellung: Symptomevaluierende Studie
| Level |
Empfehlung |
Definition |
| S I |
A |
konsekutive Patienten oder vollständige Erhebung nach Patientenregister/-liste, Vergleichsgruppe ohne Symptom, jeweils identische Diagnostik/Beurteilung, Follow-up |
| S II |
obige Kriterien erfüllt, aber keine Vergleichsgruppe und/oder kein Follow-up |
| S III |
B |
übrige Studien |
| S IV |
C |
Expertenmeinung |
Erklärungen für Abkürzungen siehe "Therapie"
Erläuterungen:
Ein optimales Studiendesign liegt vor, wenn jeder in den Studienpraxen sich mit dem Symptom präsentierende
Patient eingeschlossen wird ("konsekutiv"), ein Vergleich mit einer Kontrollgruppe
ohne das Symptom stattfindet, sämtliche Patienten die gleichen Untersuchungen
durchlaufen (Fragebögen zu Depression, apparative Diagnostik usw.) und schließlich
ein Follow-up stattfindet (Ätiologien werden klarer, Information über Prognose usw.).
Anwendungsbeispiele
In den Leitlinien der DEGAM werden Empfehlungen mit Hilfe der levels of evidence einem bestimmten
Grad von Verläßlichkeit zugeordnet. Dabei kann die jeweils in der Leitlinie behandelte Einzelfragestellung
sich von der Fragestellung der einschlägigen Originalarbeit unterscheiden.
So beruht die Empfehlung (siehe DEGAM Leitlinie "Brennen beim Wasserlassen"), übertriebene Genitalhygiene zu vermeiden
(Fragestellung Therapie/Prävention), auf einer Studie mit einer Kausalitäts-/Risikofaktoren-Fragestellung
(Risikofaktoren für Harnwegsinfekte bei jungen Frauen). Bei der Codierung der Fragestellung im Rahmen der DEGAM-Leitlinien ist die Originalarbeit ausschlaggebend, die Fragestellung der Leitlinienempfehlung wird ja aus dem Kontext klar. Da es sich um eine Kausalitäts-/Risikofaktorenstudie mit Kohorten-Design handelt, wird ein level of evidence K [für Kausalität] II angegeben. Der Leser weiß dann, daß die Empfehlung nicht auf einer auf Therapie/Prävention angelegten Studie basiert; gleichzeitig aber auch, daß das Studiendesign für eine Kausal-Fragestellung vergleichsweise valide war.
Eine Kongruenz ergibt sich bei den medikamentösen Empfehlungen zur Behandlung des akuten Harnwegsinfektes. Sowohl die
Empfehlung der Leitlinie ist eindeutig therapeutisch als auch die zugrundeliegenden Originalarbeiten (level of evidence T [Therapie] I b).
Liegen innerhalb einer Fragestellung mehrere verschiedene Studiendesigns vor, ist das höchste level of evidence anzugeben.
So ist bei einer therapeutischen Problematik, zu der Fall-Kontroll-Studien, Kohorten-Studien und randomisierte kontrollierte Studien
vorliegen, nur die letztere Gattung zu berücksichtigen, also level of evidence T I b. Liegen zu einer Empfehlung der Leitlinie Studien mit mehreren verschiedenen Fragestellungen vor, sollte diejenige angeführt werden, die der Empfehlung sachlich am nächsten ist (z.B. ist bei einer therapeutischen Empfehlung Evidenz mit therapeutischer Fragestellung einer solchen mit kausaler/ätiologischer Problematik vorzuziehen).
Die Empfehlung, beim Symptom Müdigkeit genau nach den Symptomen einer Depression zu fragen (siehe DEGAM-Leitlinie
"Müdigkeit"), beruht auf mehreren Studien von Praxispatienten, die über das Symptom geklagt haben; hier fanden sich bei den
"Müden" depressive Störungen häufiger als in einer Vergleichsgruppe. Obwohl die Empfehlung selbst diagnostischer Natur ist, beruht sie auf symptomevaluierenden Studien, level of evidence S I (hier liegt eine Publikation7 vor, die sämtliche Kriterien der obersten Stufe bei symptomevaluierenden Studien erfüllt).
Das Autorenmanual will dazu beitragen, daß Leitlinien präzise und transparente Begründungen für Empfehlungen geben.
Die bisher veröffentlichten Skalen zu "Levels of evidence" wurden dabei aufgegriffen und an die Probleme der allgemeinärztlichen Praxis adaptiert, um eine angemessene Darstellung allgemeinärztlich relevanter Evidenz zu ermöglichen. Dabei ist die Einstufung nach einer Skala wie der hier beschriebenen natürlich immer eine Vergröberung, die aber der Transparenz und schnellen Orientierung des Lesers dient. Im konkreten Fall müssen bei der Bewertung von relevanten Publikationen weitere Qualitätsmerkmale berücksichtigt werden.
Literatur
5 Colditz GA, Miller JN, Mosteller F. How study design affects outcomes in comparisons of therapy. I: Medical. Stat Med 1989;8:441-54.
6 Colditz GA, Miller JN, Mosteller F. How study design affects outcomes in comparisons of therapy. II: Surgical. Stat Med 1989;8:455-66.
7 Cathébras PJ, Robbins JM, Kirmayer LJ, Hayton BC. Fatigue in Primary Care: Prevalence, Psychiatric Comorbidity, Illness Behavior and Outcome. J Gen Int Med 1992;7:276-86.
|
|
zurück
|
|
|