Startseite  
 Fenster schließen
 Problemstellung
 1. Fragestellung
 2. Studientyp
 3. Level of evidence
      Startseite
3. Schritt: Welches "Level of evidence" liegt vor?

Die einzelnen Studientypen haben für die relevanten Fragestellungen sehr unterschiedliche Bedeutung. So ist eine Querschnittsstudie für eine therapeutische Fragestellung völlig unzureichend (etwa: ich befrage meine Praxispatienten nach Angina pectoris und Medikamenteneinnahme, und versuche so herauszufinden, ob Betablocker gegen Angina pectoris helfen); bei der Evaluation eines diagnostischen Tests ist dies aber in aller Regel das bestmögliche Design. Folgerichtig differenziert diese Klassifikation, die überwiegend auf dem Studientyp beruht, nach Fragestellung. Implizit gehen wir davon aus, daß der Studientyp ein "Qualitätsmarker" ist5 6; eine Studienleiterin, die sich die Mühe macht, einen denkbaren Kausalzusammenhang mit Hife einer Kohortenstudie zu untersuchen, wird auch in anderen Aspekten von Planung und Durchführung mehr Sorgfalt anwenden als diejenigen, die sich mit einem Querschnittsdesign zufriedengeben. Es gibt Fragestellungen, bei denen der Studientyp selbst keine klare Qualitätsunterscheidung erlaubt (diagnostische Tests, symptomevaluierende Studien); hier führen wir auch andere Qualitätskriterien an.


Fragestellung: Therapie

Level Empfehlung Definition
T I a A Meta-analyse, systematische Übersichtsarbeit von RCTs, oder 'Megatrial'
T I b einzelne(r) RCT(s)
T II a B Kohortenstudie mit Kontrollgruppe/nicht randomisierter CT, quasiexperimentelle St.
T II b Fall-Kontroll-St.
T III Querschnitts-, ökologische Studie, Kohorte ohne Kontrollgruppe (Anwendungsbeobachtung), Fallserie
T IV C Expertenmeinung, Grundlagenforschung

Erläuterungen:
(R)CT - (randomisierte) kontrollierte Interventionsstudie, Megatrial: mehr als 1000 Pat. insgesamt. Bei Übersichtsarbeiten ist entscheidend, daß eine systematische Suche nach einschlägigen Arbeiten durchgeführt worden ist, die das Risiko übersehener Publikationen minimiert; ob die Ergebnisse einzeln referiert werden oder durch ein mathematisches Verfahren kombiniert werden (Meta-analyse), ist zweitrangig.
Bei therapeutischen Fragestellungen (Wirksamkeit) sind die Levels II a+b kaum noch, Level III definitiv nicht diskutabel, zumindest bei medikamentösen Behandlungen.


Fragestellung: Kausalität

Level Empfehlung Definition
K I A RCT
K II Kohorten-Studie
K III a B Fall-Kontroll-Studie
K III b Querschnitts-, ökolog. Studie, Fallserie/-bericht
K IV C Expertenmeinung, Grundlagenforschung

Erklärungen für Abkürzungen siehe "Therapie"

Erläuterungen:
Bei allen nicht-therapeutischen Fragestellungen werden Meta-analysen/systematische Übersichtsarbeiten nicht gesondert berücksichtigt. Die Einordnung erfolgt also nach der Einzelstudie mit dem stärksten Studiendesign.
Ein RCT wird bei ätiologischen/Risikofaktoren-Fragestellungen nur ausnahmsweise zu erwarten sein (man kann kaum eine Gruppe zum Rauchen einteilen, die andere zum Nichtrauchen, um die Schädlichkeit nachzuweisen). Bei häufiger auftretenden Nebenwirkungen von Medikamenten, die hier codiert werden, ist aber die Auswertung von RCTs sinnvoll.


Fragestellung: Prognose

Level Empfehlung Definition
P I A prospektive Kohorte
P II B retrospektive Kohorte oder Kontrollgruppe eines RCT
P III Fallserie/-bericht
P IV C Expertenmeinung

Erklärungen für Abkürzungen siehe "Therapie"


Fragestellung: Diagnostischer Test

Level Empfehlung Definition
D I A unabhängige, verblindete Beurteilung, konsekutive Patienten, angemessenes Spektrum
D II B wie oben, aber Kriterien "konsekutive Patienten" und/oder "angem. Spektrum" nicht erfüllt
D III übrige Studien mit Vergleich zu "Goldstandard"
D IV C Expertenmeinung, Grundlagenforschung

Erklärungen für Abkürzungen siehe "Therapie"

Erläuterungen:
Studien vergleichen grundsätzlich eine Prüf- und eine Referenzmethode (letztere als "Goldstandard" angenommen). Unabhängige, verblindete Beurteiler: diagnost. Einordnung beim einzelnen Patienten erfolgt ohne das Wissen über das Ergebnis der jeweils anderen Methode; konsekutive Patienten: jeder während eines definierten Zeitraums in die Studienpraxis (o. ä.) kommende Patient wird eingeschlossen; angemessenes Spektrum: nicht nur Extreme (sind uninteressant, da diagnostisch offensichtlich) oder nur ganz enges Spektrum von Schweregraden der Erkrankung (für andere Patienten nicht anwendbar).
Dazu gleich ein Beispiel: es soll untersucht werden, ob mit Hilfe der Perkussion des Kopfes ein Schlaganfall (ischämisch oder hämorrhagisch) diagnostiziert werden kann; als "Goldstandard" wird das CT festgegelegt. Das Kriterium "konsekutive Aufnahme" in die Studie ist dann erfüllt, wenn jeder mit einem akut aufgetretenen neurologischen Defizit auf die teilnehmenden Abteilungen aufgenommene Patient eingeschlossen wird, und nicht nur eine willkürliche Auswahl. "Unabhängige, verblindete" Beurteilung verlangt, daß CT-Befundung und Perkussion durch verschiedene Beurteiler erfolgen, denen der Befund des anderen nicht mitgeteilt wird, die auch sonst keine Hinweise zu dem individuellen Patienten erhalten, sei es aus den Unterlagen oder durch direkte Beobachtung. "Angemessenes Spektrum" beeinhaltet, daß Patienten verschiedener Schweregrade eingeschlossen werden, gerade auch solche mit geringer ausgeprägter Symptomatik/Befunden, die diagnostisch ja meist die größeren Probleme bereiten.


Fragestellung: Symptomevaluierende Studie

Level Empfehlung Definition
S I A konsekutive Patienten oder vollständige Erhebung nach Patientenregister/-liste, Vergleichsgruppe ohne Symptom, jeweils identische Diagnostik/Beurteilung, Follow-up
S II obige Kriterien erfüllt, aber keine Vergleichsgruppe und/oder kein Follow-up
S III B übrige Studien
S IV C Expertenmeinung

Erklärungen für Abkürzungen siehe "Therapie"

Erläuterungen:
Ein optimales Studiendesign liegt vor, wenn jeder in den Studienpraxen sich mit dem Symptom präsentierende Patient eingeschlossen wird ("konsekutiv"), ein Vergleich mit einer Kontrollgruppe ohne das Symptom stattfindet, sämtliche Patienten die gleichen Untersuchungen durchlaufen (Fragebögen zu Depression, apparative Diagnostik usw.) und schließlich ein Follow-up stattfindet (Ätiologien werden klarer, Information über Prognose usw.).



Anwendungsbeispiele


In den Leitlinien der DEGAM werden Empfehlungen mit Hilfe der levels of evidence einem bestimmten Grad von Verläßlichkeit zugeordnet. Dabei kann die jeweils in der Leitlinie behandelte Einzelfragestellung sich von der Fragestellung der einschlägigen Originalarbeit unterscheiden.
So beruht die Empfehlung (siehe DEGAM Leitlinie "Brennen beim Wasserlassen"), übertriebene Genitalhygiene zu vermeiden (Fragestellung Therapie/Prävention), auf einer Studie mit einer Kausalitäts-/Risikofaktoren-Fragestellung (Risikofaktoren für Harnwegsinfekte bei jungen Frauen). Bei der Codierung der Fragestellung im Rahmen der DEGAM-Leitlinien ist die Originalarbeit ausschlaggebend, die Fragestellung der Leitlinienempfehlung wird ja aus dem Kontext klar. Da es sich um eine Kausalitäts-/Risikofaktorenstudie mit Kohorten-Design handelt, wird ein level of evidence K [für Kausalität] II angegeben. Der Leser weiß dann, daß die Empfehlung nicht auf einer auf Therapie/Prävention angelegten Studie basiert; gleichzeitig aber auch, daß das Studiendesign für eine Kausal-Fragestellung vergleichsweise valide war.

Eine Kongruenz ergibt sich bei den medikamentösen Empfehlungen zur Behandlung des akuten Harnwegsinfektes. Sowohl die Empfehlung der Leitlinie ist eindeutig therapeutisch als auch die zugrundeliegenden Originalarbeiten (level of evidence T [Therapie] I b).

Liegen innerhalb einer Fragestellung mehrere verschiedene Studiendesigns vor, ist das höchste level of evidence anzugeben. So ist bei einer therapeutischen Problematik, zu der Fall-Kontroll-Studien, Kohorten-Studien und randomisierte kontrollierte Studien vorliegen, nur die letztere Gattung zu berücksichtigen, also level of evidence T I b. Liegen zu einer Empfehlung der Leitlinie Studien mit mehreren verschiedenen Fragestellungen vor, sollte diejenige angeführt werden, die der Empfehlung sachlich am nächsten ist (z.B. ist bei einer therapeutischen Empfehlung Evidenz mit therapeutischer Fragestellung einer solchen mit kausaler/ätiologischer Problematik vorzuziehen).

Die Empfehlung, beim Symptom Müdigkeit genau nach den Symptomen einer Depression zu fragen (siehe DEGAM-Leitlinie "Müdigkeit"), beruht auf mehreren Studien von Praxispatienten, die über das Symptom geklagt haben; hier fanden sich bei den "Müden" depressive Störungen häufiger als in einer Vergleichsgruppe. Obwohl die Empfehlung selbst diagnostischer Natur ist, beruht sie auf symptomevaluierenden Studien, level of evidence S I (hier liegt eine Publikation7 vor, die sämtliche Kriterien der obersten Stufe bei symptomevaluierenden Studien erfüllt).

Das Autorenmanual will dazu beitragen, daß Leitlinien präzise und transparente Begründungen für Empfehlungen geben. Die bisher veröffentlichten Skalen zu "Levels of evidence" wurden dabei aufgegriffen und an die Probleme der allgemeinärztlichen Praxis adaptiert, um eine angemessene Darstellung allgemeinärztlich relevanter Evidenz zu ermöglichen. Dabei ist die Einstufung nach einer Skala wie der hier beschriebenen natürlich immer eine Vergröberung, die aber der Transparenz und schnellen Orientierung des Lesers dient. Im konkreten Fall müssen bei der Bewertung von relevanten Publikationen weitere Qualitätsmerkmale berücksichtigt werden.



Literatur


5 Colditz GA, Miller JN, Mosteller F. How study design affects outcomes in comparisons of therapy. I: Medical. Stat Med 1989;8:441-54.
6 Colditz GA, Miller JN, Mosteller F. How study design affects outcomes in comparisons of therapy. II: Surgical. Stat Med 1989;8:455-66.
7 Cathébras PJ, Robbins JM, Kirmayer LJ, Hayton BC. Fatigue in Primary Care: Prevalence, Psychiatric Comorbidity, Illness Behavior and Outcome. J Gen Int Med 1992;7:276-86.

 zurück
Impressum DEGAM intern