Klassifikation von Krankheiten

Prinzipien der Entscheidungsunterstützung

Bisher wurden quantitative Methoden zur Beurteilung der therapeutischen Wirksamkeit sowie zur Beurteilung unerwünschter Wirkungen behandelt. Diese statistischen Methoden beziehen sich auf die Entscheidungsunterstützung bei der Beurteilung des Erfolges therapeutischer Maßnahmen sowie auf die Beurteilung und Vermeidung möglicher unerwünschter Wirkungen. Es handelt sich hierbei um globale Entscheidungen, d.h. um statistische Tests, die sich auf die Auswahl einer optimalen Behandlung für eine spezifische Krankheit beziehen.

Eine andere Form der Entscheidungsunterstützung durch Methoden der medizinischen Biometrie und der medizinischen Informatik bezieht sich auf das eigentliche ärztliche Handeln, d.h. auf Entscheidungen über die individuelle patientenbezogene Diagnose, Prognose und Therapie.

In diesem Kapitel sollen einige Prinzipien zur medizinischen Entscheidungsunterstützung (medical decision support) dargestellt werden. In den fünfziger Jahren des letzten Jahrhunderts, als die ersten Röhrenrechner verfügbar waren, wurde bereits daran gedacht, den Computer zur Unterstützung der medizinischen Diagnostik einzusetzen. Dafür mussten Rechenverfahren (Algorithmen) entwickelt und programmiert werden, die den Rechner in die Lage versetzen, individuelle Entscheidungen zu treffen und zu beurteilen.

Mit Hilfe der Prädikatenlogik, die letztlich auf Aristoteles zurückgeht, hat R.S. Lindley im Jahre 1959 ein Modell für ärztliche Entscheidungen aufgestellt, das durch einen Rechner bearbeitet werden kann. Es werden drei medizinische Wissens- bzw. Erfahrungsbereiche unterschieden:

Mit Hilfe dieses Wissens lässt sich ein logisches Modell für diagnostische und prognostische Schlussweisen in der Medizin angeben:

E ⇒ {S ⇒ D}.

Das Zeichen ⇒ bedeutet Implikation und S ⇒ D heißt aus S folgt D. Die Formel kann folgendermaßen interpretiert werden: Aus ärztlicher Erfahrung E folgt, dass ein bestimmtes Muster von Symptomen S ein bestimmtes Muster von Krankheiten D zur Folge hat. Das Modell berücksichtigt also Polymorbidität.

Ein Computer kann nicht selbständig denken oder gar selbständig über medizinische Sachverhalte entscheiden. Das erforderliche ärztliche Wissen bzw. die ärztliche Erfahrung über einen diagnostischen oder prognostischen Prozess muss dem Rechner von einem menschlichen Experten in Form von Regeln mitgeteilt werden.

Entscheidungstabellen

Die Schlussweise regelbasierter Systeme lässt sich mit Hilfe von Entscheidungstabellen erläutern. Als konkretes Beispiel nehmen wir den Schluss von Symptomen auf Erreger in der Bakteriologie.

Wir betrachten drei Symptome S = (s1, s2, s3) und fünf Krankheiten D = (d1,d2,d3,d4,d5), siehe Tab. 1. Dabei sind sk und dj logische Variable und sk = 0 bzw. dj = 0 bedeutet, dass das Symptom k bzw. die Krankheit j nicht vorliegt, während sk = 1 bzw. dj = 1 anzeigt, dass das Symptom k bzw. die Krankheit j vorliegt.

Von einem menschlichen Experten muss der Wahrheitswert E über die Zuordnung zwischen den Symptomen S und den Krankheiten D angegeben werden. Dabei gilt E = 1 für eine zutreffende und E = 0 für eine nicht-zutreffende Eigenschaft.

Aussage  
1
2
3
4
5
6
Symptom
S
           
Indol-Bildung
s1
0
0
0
1
0
1
Gas-Bildung
s2
0
0
0
0
1
1
Säure-Bildung
s3
0
1
1
1
1
1
Keimart
D
           
Coli-Gruppe
d1
0
0
0
0
0
1
Paratyphus-Gruppe
d2
0
0
0
0
1
0
Typhus-Gruppe (ohne Flexner-Ruhr)
d3
0
0
1
0
0
0
Flexner-Ruhr
d4
0
1
0
1
0
0
Alkaligenes
d5

1

0
0
0
0
0
Wahrheitswert
E
1
1
1
1
1
1
Tab. 1: Entscheidungstabelle zur Diagnose von Keimarten

Tabelle 1 zeigt die von einem Experten getroffene Zuordnung zwischen Symptomen und Erregern. Theoretisch sind bei drei Symptomen und fünf Erregergruppen insgesamt 23*25 = 256 verschiedene Entscheidungen möglich. Aber nur die sechs obigen Aussagen haben den Wahrheitswert E = 1, d.h. diese Zuordnungen wurden von dem Experten als richtig klassifiziert. Die Tabelle ist spaltenweise zu lesen. Zum Beispiel besagt die erste Spalte, dass, falls keines der drei Symptome vorliegt, d.h. S = (0,0,0), ein alkaligener Erreger vorhanden sein muss, d.h. D = (0,0,0,0,1).

Der Einsatz regelbasierter Systeme in der Medizin stößt an gewisse Grenzen. Zum einen ist deutlich, dass bei komplexeren Fragestellungen, d.h. bei einer größeren Zahl von Symptomen und Krankheiten, die Zahl der von einem Experten zu machenden Entscheidungen sehr rasch wächst und möglicherweise für den Experten nicht überschaubar bleibt. Bei der Zuordnung von 10 Symptomen zu 10 Krankheiten ergeben sich bereits über eine Million mögliche Entscheidungen, genauer gesagt gibt es 210*210 = 1.048.576 verschiedene Entscheidungen. Für einen Computer wäre eine solche Zahl zwar gering, nicht jedoch für den medizinischen Experten, der diese Entscheidungen zu treffen hätte.

Eine andere Restriktion der Anwendung der Entscheidungstabellen-Technik in der Medizin besteht darin, dass ein erheblicher Teil der diagnostischen Aussagen und sämtliche prognostischen Aussagen in der Medizin nicht deterministisch im Sinne der Prädikatenlogik modelliert werden können. Dies zeigt sich bereits an unserem einfachen Beispiel aus der Bakteriologie. Die Aussagen 2 und 4 führen bei verschiedenen Symptomen zu gleichen Erregern und die Aussagen 2 und 3 führen bei gleichen Symptomen zu verschiedenen Erregern. Tabelle 1 ist also nicht eindeutig und nicht widerspruchsfrei.

Prädikative Programmiersprachen

Sogenannte prädikative Programmiersprachen, z.B. LISP (list processor language) oder PROLOG (programming in logic), würden den Experten automatisch auf solche Widersprüche hinweisen und die Annahme widersprüchlicher Regeln verweigern.

Solche Sprachen sind ferner in der Lage, aus vorhandenem Wissen neues Wissen abzuleiten. Als einfaches Beispiel betrachten wir folgende drei Größen A={Sokrates}, B={Philosoph} und C={Mensch} und verknüpfen diese mit Hilfe der Prädikatenlogik:

Wenn A ⇒ B und B ⇒ C dann A ⇒ C.

Diese Formel kann folgendermaßen interpretiert werden: Wenn Sokrates ein Philosoph ist und wenn jeder Philosoph ein Mensch ist, dann ist Sokrates ein Mensch. Die Regel A C, d.h. Sokrates ist ein Mensch, würde von einer prädikativen Programmiersprache selbständig erzeugt werden, falls die Regeln A B, d.h. Sokrates ist ein Philosoph, und B C, d.h. jeder Philosoph ist ein Mensch, dem Rechner bekannt sind.

Wissenserwerb bei Ungewissheit

Wir haben gesehen, dass deterministische Expertensysteme, d.h. Systeme, die gesichertes Wissen in Form von deterministischen Regeln voraussetzen, nur begrenzt für die Medizin anwendbar sind. In der Medizin und in allen biologischen Fächern ist das Wissen im allgemeinen nicht so gesichert, dass es sich stets eindeutig und widerspruchsfrei nach den Regeln der Prädikatenlogik formulieren lässt.

Aber die Entscheidungstabellen-Technik kann auch auf den Zustand der Ungewissheit übertragen werden, indem die Wahrheitswerte E nicht ausschließlich die Werte 0 oder 1 besitzen, sondern jeden Wert in diesem Intervall annehmen können. Man würde dann von Unsicherheits-Faktoren (uncertainty factors) sprechen. So würde z.B. E = 0.9 bedeuten, dass die getroffene Aussage mit einer Sicherheit von 90% gilt, während E = 0 eine falsche Aussage und E = 1 eine richtige Aussage kennzeichnen.

Es können also subjektive Wahrscheinlichkeiten angegeben werden, mit denen der Grad der Gewissheit, z.B. der Sicherungsgrad einer Diagnose, dargestellt werden kann. Ein solcher Ansatz mit Uncertainty Factors wurde in dem bakteriologischen Expertensystem MYCIN von E.H. Shortliffe erfolgreich verwendet.

Aber auch dieser Ansatz ist nur begrenzt in der Medizin anwendbar, wenn man bedenkt, dass alle Regeln explizit von einem menschlichen Experten angegeben werden müssen. Für die Medizin müssen daher Methoden zur Verfügung stehen, die eine indirekte Erfassung medizinischen Wissens und medizinischer Erfahrung gestatten. Hierbei wird das medizinische Wissen nicht von einem Experten explizit vorgegeben, sondern indirekt aus vorhandenen Behandlungsverläufen extrahiert, die in Datenbanken abgespeichert sind.

Satz von Bayes

Eine methodische Grundlage zur indirekten Erfassung medizinischen Wissens und zur Bestimmung des Sicherungsgrades diagnostischer Aussagen bildet der Satz von Bayes, der im Jahre 1762 posthum veröffentlicht wurde. Dieser Satz ermöglicht eine induktive Schlussweise, den sogenannten Umkehrschluss.

Medizinisches Bücherwissen besteht in der Regel darin, dass zu einer Krankheit D die Symptome S beschrieben werden, d.h. in Büchern werden Aussagen der Form

D ⇒ S

getroffen. Mit Hilfe einer Patienten-Datenbank lässt sich der Sicherungsgrad einer solchen Aussage leicht quantifizieren, indem man innerhalb der Gruppe der Kranken D den Anteil derjenigen Patienten auszählt, die das Symptom S aufweisen. Bei hinreichend großer Fallzahl wäre dies die Wahrscheinlichkeit dafür, dass das Symptom S auftritt, falls die Krankheit D vorliegt

Dabei steht p für Wahrscheinlichkeit (probability) und p (S|D) bedeutet, dass das Ereignis S eintritt, falls das Ereignis D bereits eingetreten ist (bedingte Wahrscheinlichkeit). Ferner ist

die Wahrscheinlichkeit, dass das Symptom S auftritt, falls die Krankheit nicht vorliegt. Auch diese Wahrscheinlichkeit lässt sich einfach bestimmen, in dem man eine geeignete Kontrollgruppe von Personen betrachtet, die die Krankheit D nicht aufweisen, und in dieser Gruppe das Auftreten des Symptoms S auszählt.

Gesucht ist jedoch kein Bücherwissen, sondern eine diagnostische Aussage der Form

S ⇒ D

wobei gleichzeitig der Sicherungsgrad dieser diagnostischen Aussage angegeben werden sollte. Gesucht ist also die (bedingte) Wahrscheinlichkeit dafür, dass die Krankheit D vorliegt, falls das Symptom S diagnostiziert wird

Der Satz von Bayes besagt nun folgendes: Falls die Wahrscheinlichkeiten für das Auftreten des Symptoms bei den Kranken und den Kontrollen bekannt ist und falls die Prävalenz der Erkrankung p (D) zusätzlich bekannt ist, dann kann man daraus den Umkehrschluss ziehen und die Wahrscheinlichkeit für das Auftreten der Krankheit bei gegebenem Symptom berechnen:

Die Wahrscheinlichkeit dafür, dass die Krankheit nicht vorliegt, lässt sich aus der Prävalenz der Krankheit berechnen, es gilt

Beurteilung diagnostischer Verfahren                           

Als einfache Anwendung betrachten wir die TBC-Diagnostik mit Hilfe des Thorax-Röntgenbefundes. Die Daten wurden in einem Gesundheitsamt einer deutschen Großstadt ermittelt und beziehen sich auf 100.000 Einwohner.

 
gesicherte Diagnose
 
Röntgen-Befund
TBC
kein TBC
Gesamt
TBC
80
120
200
kein TBC
20
99780
99800
Gesamt
100
99900
100000
Tab. 2: Kontingenztafel zur TBC-Diagnostik

Da es sich um eine epidemiologische Totalerhebung handelt, gibt

die Prävalenz der TBC-Krankheit in dieser Stadt an, d.h. den Anteil der Einwohner, die an TBC leiden.

Sicherungsgrad diagnostischer Verfahren

Aus der Tab.2 kann die diagnostische Wertigkeit der Thorax-Röntgenuntersuchung also direkt berechnet werden. Der positive prädiktive Wert beträgt

und der negative prädiktive Wert lautet

Der positive prädiktive Wert (positive predictive value) ist der Anteil der Symptomträger, die die Krankheit aufweisen und der negative prädiktive Wert (negative predictive value) ist der Anteil der Nicht-Symptomträger, die die Krankheit nicht aufweisen.

Die Wahrscheinlichkeit, dass TBC auftritt, falls der Röntgenbefund positiv ist, beträgt also 40%, während die Wahrscheinlichkeit, dass kein TBC auftritt, falls der Röntgenbefund negativ ist, 99.98% beträgt.

Die prädiktiven Werte geben den Sicherungsgrad eines diagnostischen Verfahrens an, d.h. 40% der Personen mit positivem Röntgenbefund leiden wirklich unter TBC und 99.98% der Personen mit negativem Röntgenbefund sind tatsächlich TBC-gesund.

Für die Anwendung des Bayesschen Satzes muss nicht die gesamte Tabelle bekannt sein, sondern nur der Anteil der Kranken, die ein positives Symptom aufweisen

der Anteil der Gesunden, die ein positives Symptom aufweisen

sowie der Anteil der Kranken bzw. der Gesunden

und

Dann folgt aus dem Satz von Bayes

Dies stimmt mit obiger Berechnung überein. Die TBC-Diagnostik mit Hilfe der Thorax-Röntgenaufnahme besitzt also keinen allzu großen positiven Sicherungsgrad.

Dies ist darauf zurückzuführen, dass die prädiktiven Werte direkt von der Prävalenz der Erkrankung abhängen und dass die Prävalenz der TBC in Deutschland äußerst gering ist.

Prävalenz-Abhängigkeit prädiktiver Werte

Um die Prävalenz-Abhängigkeit diagnostischer Aussagen zu erläutern, nehmen wir an, dass die Daten der Tab. 2 nicht in einer Totalerhebung, sondern in einer Fall-Kontroll-Studie ermittelt wurden. Bei einer Fall-Kontroll-Studie kann die Prävalenz der Krankheit nicht aus den Daten ermittelt werden, da die Anzahl der Fälle (Kranke) und die Anzahl der Kontrollen (Gesunde) fest vorgegeben sind.

Bei Fall-Kontroll-Studien muss die Prävalenz der Krankheit also zusätzlich bekannt sein. Falls die Prävalenz der TBC nun nicht 0.1%, sondern z.B. 50% betragen würde, d.h.

ergäbe sich aus den Daten in Tab. 2 nach dem Satz von Bayes ein positiver prädiktiver Wert von

und 99.85% der Symptomträger wären TBC-krank. Gleichzeitig würde aber auch der negative prädiktive Wert von der Prävalenz der Krankheit beeinflusst

 

d.h. bei einer Prävalenz der TBC-Krankheit von 50% wären nach der Datenlage in Tab. 2 nur 83.3% der Patienten mit einem negativen Röntgenbefund TBC-gesund.

Trennschärfe diagnostischer Verfahren

Diagnostische Maßzahlen, die nicht von der Prävalenz der Erkrankung abhängen und die Trennschärfe diagnostischer Verfahren beurteilen, sind die Sensitivität

und die Spezifität

Dies bedeutet, dass 80% der TBC-Kranken einen positiven und 99.88% der TBC-Gesunden einen negativen Röntgenbefund aufweisen.

Sensitivität (sensitivity) ist der Anteil der richtig erkannten Kranken und Spezifität (specificity) ist der Anteil der richtig erkannten Gesunden.

Diese Maßzahlen für die Trennschärfe eines diagnostischen Verfahrens müssen paarweise interpretiert werden. Die Angabe nur einer der beiden Maßzahlen gibt keine Auskunft über die Trennschärfe.

Man könnte nämlich eine 100%-ige Sensitivität erzeugen, indem ein Symptom S betrachtet wird, das alle untersuchten Personen aufweisen. Dann würden sämtliche Kranke, die sich in dem diagnostizierten Personenkreis befinden, korrekt als krank klassifiziert. Allerdings ist eine solche diagnostische Prozedur völlig wertlos, da kein Gesunder als gesund klassifiziert würde, d.h. die Spezifität betrüge 0%.

Ein Symptom S, das stets bei den Kranken und nie bei den Gesunden auftritt, würde optimal trennen und sowohl eine Sensitivität von 100% als auch eine Spezifität von 100% besitzen. Gleichzeitig hätte ein solches Symptom sowohl einen positiven als auch einen negativen prädiktiven Wert von 100%, unabhängig von der Prävalenz der Krankheit.

Bewerten wir die Ergebnisse der TBC-Diagnostik mit Hilfe des Röntgenbefundes in Tab. 2, so ergibt sich wegen der geringen Prävalenz der Erkrankung zwar ein geringer Sicherungsgrad, aber dennoch eine gute Trennschärfe, d.h. eine Sensitivität von 80% und eine Spezifität von 99.88%.

Grading-Systeme            

In allen Bereichen der klinischen Medizin werden Grading-Systeme zur Klassifikation des Schweregrades von Krankheiten und zur Prognose des Ausgangs therapeutischer Maßnahmen benutzt. Weltweit im klinischen Einsatz befindliche Grading-Systeme sind z.B. der APGAR-, der APACHE- und der GCS-Score. Der von Virginia Apgar im Jahre 1953 entwickelte APGAR-Score dient zur Beurteilung der Vitalität von Neugeborenen, der APACHE-Score wurde zur Befundung Schwerkranker auf Intensivstationen entwickelt, und die Glasgow Coma Scale (GCS) ist ein Standardinstrument zur Befundung von Schädel-Hirnverletzten in neurochirurgischen Kliniken.

In diesem Abschnitt sollen Methoden zur Beurteilung von Grading-Systemen dargestellt werden. Als konkretes Anwendungsbeispiel betrachten wir den Mannheimer Peritonitis-Index (MPI). Dieser Score beurteilt Schweregrad und Ausgang der Peritonitiskrankheit während der Operation, siehe Tab. 3.

Befund
Ladung
Alter über 50 Jahre
5
Geschlecht weiblich
5
Organversagen
7
Malignom
4
Präop. Peritonitisdauer > 24 Std.
4
Ausgangspunkt nicht Dickdarm
4
Ausbreitung diffus
6
Exsudat (nur eine Antwort)  
klar
0
trüb-eitrig
6
kotig-jauchig
12
Summe der ja Antworten: Score =
____
Tab. 3: Mannheimer Peritonitis-Index

Aus den Befunden in Tab. 3 kann für jeden Patienten ein individueller Score-Wert errechnet werden, der den Schweregrad der Erkrankung dieser Person wiedergeben soll. Die möglichen Score-Werte des Mannheimer Peritonitis-Indexes reichen von 4 bis 47, wobei steigende Score-Werte steigendes Risiko anzeigen sollen.

Über quantitative Methoden zur Validierung von Grading-Systemen scheint in der medizinischen Literatur bisher noch eine gewisse Unklarheit zu bestehen. Im folgenden sollen Eigenschaften dargestellt werden, nach denen Grading-Systeme objektiv beurteilt werden können.

Handhabbarkeit

Grading-Systeme werden sowohl unter klinischen Routinebedingungen als auch zum Zwecke der medizinischen Forschung eingesetzt. Als eine elementare Eigenschaft von Grading-Systemen sollte daher zuerst deren Handhabbarkeit (feasibility) untersucht werden.

Systeme, die primär zum Zwecke der medizinischen Forschung konzipiert wurden, z.B. der APACHE-Score, berücksichtigen Befunde, die unter Routinebedingungen gewöhnlich nicht erhoben werden können. Während bei Routinesystemen, z.B. beim APGAR-Score und beim GCS-Score, darauf geachtet wurde, dass die Befunde einfach zu erheben sind und dass die Berechnung der Score-Werte bzw. die Einteilung in Krankheitsstadien (grading), schnell und ohne großen technischen Aufwand erfolgen kann.

Dies bezieht sich auch auf die Anzahl der Befunde, die ein Grading-System erfasst. Ein System mit über 30 Befunden (APACHE) ist erheblich komplizierter zu handhaben, als ein System mit nur drei Befunden (GCS).

Ein anderer Aspekt der Handhabbarkeit, der allen Grading-Systemen gemeinsam ist, ist die Reliabilität der Befundung. Vor Einführung von Grading-Systemen sollte sichergestellt sein, dass der zu erhebende klinische Befund von verschiedenen Ärzten gleich oder zumindest sehr ähnlich beurteilt wird.

Als Beispiel kann in Tab. 3 die Befundung von Organversagen oder die Befundung des Exsudats herangezogen werden. Um wirklich sicherzustellen, dass verschiedene Ärzte eine übereinstimmende Befundung des Exsudats vornehmen, müsste eine Reliabilitäts-Studie durchgeführt werden. Dabei wird verschiedenen Beurteilern der gleiche Befund bestimmter Patienten vorgelegt.

Ein statistisches Maß für die Übereinstimmung der Befundung ist das Cohen's kappa, das in seiner Aussage der eines (intra-class) Korrelationskoeffizienten entspricht. Wir begnügen uns mit diesem Hinweis. Auf eine beispielhafte Berechnung von kappa wird im Rahmen dieses Kapitels verzichtet.

Vorhersageeigenschaft

Es gibt Grading-Systeme, die ausschließlich eine standardisierte klinische Befundung zum Ziel haben, z.B. der APGAR-Score. Solche Grading-Systeme dienen der einheitlichen Klassifikation von Krankheitsstadien und stellen nicht den Anspruch auf Vorhersage des Ausgangs der Krankheit. Sie bedürfen zum Nachweis ihrer Validität also ausschließlich der Durchführung von Reliabilitäts-Studien und für ihre internationale Verbreitung eine entsprechende Anerkennung in Fachkreisen.

Andere Grading-Systeme, z.B. die Glasgow Coma Scale (GCS), sollen zusätzlich eine Prognose über den Ausgang der Erkrankung ermöglichen. Um die Vorhersageeigenschaft eines Scores prüfen zu können, muss ein Außenkriterium vorhanden sein. Ein solches Außenkriterium ist bei Schädel-Hirnverletzten die Glasgow Outcome Scale (GOS).

Um objektiv festzustellen, ob ein Score tatsächlich prognostische Eigenschaften aufweist, muss eine entsprechende empirische Validierungs-Studie durchgeführt werden.

Wir wollen dies am Beispiel des Mannheimer Peritonitis-Index (MPI) erläutern. Als Außenkriterium wird die Letalität betrachtet. Es wurde eine multizentrische Kohortenstudie durchgeführt. An zwei chirurgischen Kliniken wurden innerhalb eines Jahres sämtliche Peritonitis-Operationen und deren postoperativer Verlauf prospektiv erfasst. Von 212 Peritonitis-Patienten verstarben 49 Patienten während der postoperativen Liegezeit, d.h. die Letalität betrug 23%.

Um die prognostische Wertigkeit des MPI nachzuweisen, betrachten wir die empirischen Verteilungen der Score-Werte bei den Verstorbenen und den Überlebenden, siehe Abb. 1. Diese Häufigkeits-Verteilungen sind die Basisdaten einer Validierungsstudie, aus denen sich sämtliche Aussagen über die Güte eines Scores ableiten lassen.

Für jeden Score-Wert ist die absolute Häufigkeit des Auftretens des erwünschten und des unerwünschten Ereignisses abgetragen.

            

   Abb. 1: Empirische Verteilungen: Überlebende (oben) und Verstorbene (unten).

Die prognostische Wertigkeit eines Scores wird ermittelt, in dem für jeden Score-Wert der Anteil der unerwünschten Ereignisse berechnet wird, siehe Abb. 2. Betrachten wir als Beispiel den Score-Wert x=30 in Abb. 1, dann erleiden 5 von 10 Patienten das unerwünschte Ereignis. Beim Score-Wert 30 beträgt das beobachtete Risiko also 50%.

Zu beachten ist, dass bis zum Score Wert x=18 kein unerwünschtes Ereignis auftritt. Ferner erkennt man deutlich, dass der Score eine gute prognostische Eigenschaft besitzt, denn die Letalität steigt offensichtlich mit steigenden Score-Werten.

Wir sehen allerdings auch Ausnahmen, z.B. den Wert x=29, der ein beobachtetes Risiko von 0% aufweist. Dies liegt daran, dass der Score-Wert 29 nur von einem einzigen Patienten erreicht wurde, bei dem kein unerwünschtes Ereignis auftrat, siehe Abb. 1. Da die Berechnung der beobachteten Risiken bei einigen Score-Werten auf sehr kleinen Fallzahlen beruht, ergeben sich dort entsprechende Ungenauigkeiten.

Eine Wahrscheinlichkeits-Kurve, siehe gestrichelte Linie in Abb. 2, glättet die beobachteten Risiken und gestattet eine individuelle Prognose des Ausgangs therapeutischer Maßnahmen. Wir betrachten die Wahrscheinlichkeit, dass das unerwünschte Ereignis D eintritt, falls ein bestimmter Score-Wert S = x vorliegt

  

und modellieren diese Wahrscheinlichkeit als log-logistische Funktion, in der Pharmakodynamik auch als Michaelis-Menten-Gleichung zur Beschreibung von Dosis-Wirkungs-Beziehungen bekannt.

Die Parameter der log-logistischen Regression werden mit Hilfe der Maximum-Likelihood-Methode bestimmt. Der Parameter θ = 30 gibt den Score-Wert an, bei dem die Prognose-Wahrscheinlichkeit 50% beträgt, und τ = 7.5 beschreibt die Krümmung der Kurve.

Mit diesen Parametern kann aus obiger Formel für jeden Score-Wert die Wahrscheinlichkeit für das Auftreten des unerwünschten Ereignisses berechnet werden, siehe gestrichelte Kurve in Abb. 2.

Trenn- und Zuordnungseigenschaft

Wir haben gesehen, dass der MPI prognostische Eigenschaften besitzt, d.h. steigende Score-Werte entsprechen tatsächlich steigendem Risiko. Eine individuelle Prognose wäre mit diesem Score also möglich.

Ein Grading-System kann auch zur Entscheidungsunterstützung in der Medizin verwandt werden, z.B. kann gefragt werden, ab welchem Score-Wert ein Patient als so gefährdet betrachtet wird, dass eine spezifische Intervention erfolgen sollte.

Um die Trenneigenschaft und den Sicherungsgrad solcher Entscheidungen zu demonstrieren, betrachten wir einen bestimmten Score-Wert als Trennpunkt (threshold), z.B. θ = 27, und prognostizieren für eine Person mit Score-Wert x ≥ θ das unerwünschte Ereignis, während für eine Person mit einem Score-Wert von x < θ  das erwünschte Ereignis vorhergesagt wird.

Tab. 4 zeigt die Maßzahlen für die Güte einer solchen prognostischen Aussage am Trennpunkt θ = 27. Es ergibt sich eine Sensitivität von 84% und eine Spezifität von 80%, während der Sicherungsgrad einer positiven Vorhersage 56% und einer negativen Vorhersage 94% beträgt. Die Bedeutung dieser Maßzahlen wurde im vorhergehenden Abschnitt ausführlich diskutiert.

Score-Wert
Außenkriterium
Exitus               kein Exitus
gesamt
Prädiktiver Wert
≥ 27
41
32
73
positiv 56%
< 27
8
131
139
negativ 94%
gesamt
49
163
212
 
 
84% Sensitivität
80% Spezifität
 
81% Richtigkeit
Tab. 4: Berechnung der Trenn- und Zuordnungseigenschaft für den Trennpunkt θ = 27.

Man kann nun jeden möglichen Score-Wert als Trennpunkt q = 4,5,..,47 wählen, und wie in Tab. 4 jeweils die Maßzahlen für den Sicherungsgrad und die Trennschärfe berechnen. Man erhält damit den "Fingerabdruck" eines Grading-Systems, siehe Abb. 3 und Abb. 4.

Die Trennschärfe eines Grading-Systems wird durch eine Receiver Operating Characteristic (ROC) Kurve dargestellt, in der die Sensitivität und die Spezifität für jeden Score-Wert angegeben wird. Ein Grading-System ist um so trennschärfer, je größer die Fläche unter der ROC-Kurve ist.

Eine direkte Abhängigkeit von den Trennpunkten besteht in einer ROC-Kurve nicht mehr. Mit Hilfe von ROC-Kurven können daher unterschiedliche Grading-Systeme, die das gleiche Außenkriterium vorhersagen, objektiv bezüglich ihrer Trennschärfe verglichen werden. Ein statistischer Vergleich von ROC-Flächen ist mit dem Test von DeLong und Clark-Pearson möglich.

Diskriminanzanalyse

Um ein Grading-System zur Entscheidungsunterstützung einzusetzen, muss ein optimaler Trennpunkt θ gefunden werden.

Nach der Zuordnungsregel von Bayes (Bayes allocation rule) sollte man denjenigen Trennpunkt wählen, der die Gesamtwahrscheinlichkeit für eine korrekte Entscheidung maximiert. Der Trennpunkt sollte also so gewählt sein, dass der Anteil der richtig klassifizierten Personen maximal ist.

Maximale Richtigkeit wird für denjenigen Trennpunkt erreicht, bei dem die Prognose-Wahrscheinlichkeit 50% beträgt. Der optimale Trennpunkt ist also q = 30, siehe Abb. 2. An diesem Punkt wird bei 175 von 212 Patienten der Ausgang der Operation (Überleben oder Tod) korrekt vorhergesagt, siehe Tab. 5. Wir erhalten also eine Richtigkeit von 83%.

Score-Wert
Außenkriterium
Exitus               kein Exitus
gesamt
Prädiktiver Wert
≥ 30
31
19
50
positiv 62%
< 30
18
144
162
negativ 89%
gesamt
49
163
212
 
 
63% Sensitivität
88% Spezifität
 
83% Richtigkeit
Tab. 5: Berechnung der Trenn- und Zuordnungseigenschaft für den Trennpunkt θ = 30.

Nun haben aber Fehlklassifikationen in der Medizin unterschiedliche Konsequenzen. Es kommt bei einem Grading-System weniger darauf an, möglichst viele Personen korrekt zu klassifizieren, sondern vielmehr darauf, möglichst viele Kranke korrekt als krank zu klassifizieren, oder wie in unserem Beispiel, möglichst viele unerwünschte Ereignisse korrekt vorherzusagen, um gegebenenfalls intervenieren zu können.

Das heißt, nicht die Richtigkeit, sondern die Sensitivität sollte möglichst groß sein; allerdings bei akzeptabler Spezifität. Wir suchen daher das durch die Prävalenz der Erkrankung gewichtete Mittel von Sensitivität und Spezifität.

Der optimale Trennpunkt für diese Fragestellung ist derjenige Score-Wert, bei dem die Prognose-Wahrscheinlichkeit mit der Prävalenz der Erkrankung übereinstimmt. Die Prävalenz des unerwünschten Ereignisses (Letalität) beträgt in unserem Beispiel 23% und aus Abb. 2 entnehmen wir den Trennpunkt θ = 27.

Die Trenn- und Zuordnungseigenschaften dieses Punktes sind in Tab. 4 dargestellt. Wir erhalten eine Sensitivität von 84% und eine Spezifität von 80%. Die Richtigkeit dieser Entscheidung beträgt jedoch nicht mehr 83%, sondern nur noch 81%.

Übertragbarkeit von Grading-Systemen

Evaluation

Die Entwicklung medizinischer Grading-Systeme erfolgt gewöhnlich an Hand eines spezifischen Patientendatensatzes (training sample). Man könnte die Ladungen der zu erhebenden Befunde, also deren Wertigkeit, auf empirischer Basis bestimmen und den Trainingsdatensatz nach dem trial-and-error-Prinzip solange auswerten bis ein akzeptables Ergebnis vorliegt. Üblich ist jedoch die Anwendung biometrischer Verfahren der Diskriminanzanalyse zur Bestimmung der Ladungen.

Hier spielt die logistische Regression eine besondere Rolle, auf die bereits in einem eigenen Kapitel eingegangen wurde. Wir betrachten einen Score x mit m Befunden Sk, die entweder den logischen Wert Sk = 1 für positiv oder Sk = 0 für negativ annehmen

Die Ladungen bk beschreiben die Wertigkeit des k-ten Befundes. Die Wahrscheinlichkeit, dass die Krankheit D auftritt, falls ein bestimmter Score-Wert S = x vorliegt

wird als logistische Funktion modelliert. Die Ladungen bk und der Parameter q , bei dem die Vorhersage-Wahrscheinlichkeit 50% beträgt, werden mit der Maximum-Likelihood-Methode aus den Daten der Trainingsstichprobe ermittelt.

Andere Diskriminanzverfahren, wie die log-logistische Regression, sind ebenfalls anwendbar. Hiermit können schiefe Verteilungen der Einflussvariablen modelliert werden, während die logistische Regression in der Regel Normalverteilungen voraussetzt.

Validierung

Nachdem ein Grading-System an Hand einer Trainings-Stichprobe von Patientendaten entwickelt ist, muss die Reliabilität des Grading-Systems sichergestellt werden. Dies bedeutet, es muss nachgewiesen werden, dass die Trenn- und Zuordnungseigenschaften nicht zu optimistisch ausfallen. Der Score darf nicht ausschließlich die Trainings-Stichprobe gut beschreiben, sondern muss auf andere Patientendatensätze übertragbar sein.

Nach Fertigstellung des Scores sollte dieser daher an einer anderen Gruppe von Patienten, der sogenannten Test-Stichprobe (test sample), validiert werden. Validierungsmethoden wurden im vorhergehendem Abschnitt ausführlich diskutiert. In einer solchen Validierungsstudie wird sich herausstellen, dass Trenn- und Zuordnungseigenschaften des Scores bei weitem nicht so gut sind, wie vorher an der Trainings-Stichprobe berechnet.

Um die Schätzung der Trenneigenschaften in der Trainingsstichprobe zu robustifizieren, können Bootstrap-Verfahren eingesetzt werden, die auch als Jack-Knife-Techniken bekannt sind. Hierbei werden nicht alle Daten der Trainingsstichprobe zur Bestimmung der Parameter verwendet, sondern es werden jeweils ein oder mehrere Werte ausgelassen und mit diesen reduzierten Datensätzen mehrmals die Parameter berechnet, die anschließend gemittelt werden.

Es ist klar, dass ein solches Verfahren zu einer robusten Berechnung der Ladungen führt. Das heißt, dass bereits in der Trainingsstichprobe sehr konservative Ergebnisse erzielt werden, die daher in der Teststichprobe sehr ähnlich ausfallen werden, also reliabel sind.

Portabilität

Eine elementare Anforderung an Grading-Systeme besteht darin, dass diese innerhalb einer Klinik zu weitgehend übereinstimmenden Ergebnissen führen sollten. Es stellt sich die Frage nach der Übertragbarkeit des Grading-Systems auf andere Kliniken.

Man muss davon ausgehen, dass in verschiedenen Kliniken auch verschiedene Prävalenzen, sowohl für die Befunde als auch für das Außenkriterium auftreten. Dies würde die Aussagekraft eines Grading-Systems stark beeinflussen. Daher sollte das Grading-System bezüglich der Prävalenzen für jede Klinik adjustiert werden.

Bei einer Änderung des Anwendungsbereiches des Grading-Systems, z.B. wenn ein Score, der ausdrücklich für die Peritonitis im engeren Sinne entwickelt wurde, in einer anderen Klinik für alle Peritoniden angewendet wird, kann es leicht vorkommen, dass die Trenn- und Zuordnungseigenschaften verloren gehen. Bei einer Applikation, die den Anwendungsbereich erweitert oder sogar andere Erkrankungen einbezieht, müsste der Score also neu evaluiert werden.

Schließlich muss darauf hingewiesen werden, dass der routinemäßige Gebrauch eines Grading-Systems zu einer Interaktion zwischen therapeutischen Maßnahmen und der Aussagekraft des Scores führen kann. Wenn sich die therapeutischen Interventionen tatsächlich nach der Höhe des jeweiligen Score-Wertes richten würden, könnten sich die prognostischen Eigenschaften des Grading-Systems durch diese Anwendung verändern.

Analog zu Ringversuchen zur Qualitätssicherung in der klinischen Chemie, sollten daher in der Routine eingesetzte Grading-Systeme von Zeit zu Zeit multizentrisch überprüft werden.