Methodik
Datengrundlage, Evaluationsverfahren und Bewertungskriterien
Warum GerMedBench?
Im Gesundheitswesen gelten strenge Datenschutz- und Regulierungsanforderungen. Patientendaten dürfen in der Regel nicht an externe Cloud-Dienste übermittelt werden — in der Praxis bedeutet das, dass Kliniken und Gesundheitsunternehmen auf Open-Weights-Modelle angewiesen sind, die lokal oder on-premise betrieben werden können.
Allgemeine LLM-Leaderboards wie Artificial Analysis und LM Arena messen Modelle auf englischsprachigen, domänenübergreifenden Tasks. GerMedBench ergänzt diese um eine Dimension, die dort fehlt: die Evaluation von Open-Weights-Modellen auf deutschen klinischen Texten mit fachspezifischen Aufgaben wie ICD-10-Kodierung, Arztbrief-Zusammenfassung und Differentialdiagnostik — genau die Modelle, die im klinischen Alltag tatsächlich einsetzbar sind.
Datengenerierung
Die Benchmark-Daten werden synthetisch generiert. Ein Frontier-Modell (gemini-3-flash-preview) erstellt für jeden Task fokussierte klinische Texte mit passender Ground Truth. Jeder Task erhält Texte in der optimalen Länge und mit dem passenden Detailgrad:
- — ICD-10-Kodierung: Kurzepikrisen (150–300 Wörter)
- — Arztbrief-Zusammenfassung: Vollständige Entlassbriefe (600–1000 Wörter)
- — Klinisches Reasoning: Fallvignetten ohne explizite Diagnose (200–400 Wörter)
- — Medikamentenextraktion: Texte mit Medikamentenlisten (150–300 Wörter)
- — Medizinisches Wissen: IMPP-Stil MC-Fragen mit Fallvignette (5 Antwortmöglichkeiten)
- — Patientenverständliche Erklärung: Medizinische Fachtexte (Befundberichte, Histopathologie, Laborbefunde, 100–250 Wörter)
Alle Texte variieren über neun Fachbereiche (Innere Medizin, Kardiologie, Pneumologie, Neurologie, Gastroenterologie, Onkologie, Orthopädie/Unfallchirurgie, Psychiatrie/Psychosomatik, Gynäkologie/Geburtshilfe) und drei Komplexitätsgrade. Die synthetische Generierung vermeidet Datenschutzprobleme und ermöglicht eine kontrollierte Variation. Langfristig ist die Integration öffentlicher Korpora (GraSCCo, GGPONC 2.0) sowie community-beigetragener anonymisierter Fälle geplant.
Evaluationsverfahren
Aufgabe: Das Modell erhält einen klinischen Freitext und soll alle kodierbaren ICD-10-GM Codes extrahieren, inklusive der Klassifikation als Haupt- oder Nebendiagnose.
Evaluation: Vollautomatisch, kein LLM-as-Judge erforderlich. Drei Metriken:
- Exact Match F1 — Precision und Recall auf Ebene der vollständigen ICD-10-GM Codes (z.B. I21.0). Misst, ob das Modell die exakten Codes findet.
- Category F1 — Matching auf Kategorie-Ebene (z.B. I21 statt I21.0). Erkennt, ob das Modell zumindest die richtige Diagnose-Kategorie identifiziert, auch wenn die letzte Stelle abweicht.
- Hauptdiagnose Accuracy — Ob das Modell die korrekte Hauptdiagnose identifiziert. Klinisch besonders relevant, da die Hauptdiagnose abrechnungsrelevant ist.
Aufgabe: Das Modell erhält eine klinische Fallvignette mit Anamnese, Untersuchungsbefund, Laborwerten und ggf. Bildgebung. Es soll eine geordnete Differentialdiagnose-Liste mit klinischer Begründung erstellen.
Evaluation: Hybrid — automatische DDx-Metriken plus LLM-as-Judge. Diagnose-Namen werden per LLM-assistiertem Matching verglichen (Gemini Flash Lite), um Synonym-Varianten korrekt zu erkennen (z.B. "Bakterielle Pneumonie" ↔ "Ambulant erworbene Pneumonie"). Sechs Metriken:
- Top-1 Accuracy — Hat das Modell die korrekte Diagnose an erster Stelle?
- Top-3 Recall — Ist die korrekte Diagnose unter den ersten drei Differentialdiagnosen?
- DDx Overlap F1 — Überlappung der vorgeschlagenen mit den Referenz-Differentialdiagnosen.
- Reasoning-Qualität — Sind die Begründungen klinisch nachvollziehbar und befundbasiert?
- DDx-Plausibilität — Ist die Reihenfolge der Differentialdiagnosen klinisch sinnvoll?
- Red-Flag-Bewusstsein — Werden gefährliche Differentialdiagnosen angemessen berücksichtigt?
Aufgabe: Das Modell erhält einen klinischen Text mit Medikamentenangaben und soll für jedes Medikament Wirkstoff, Dosis und Einnahmefrequenz strukturiert extrahieren.
Evaluation: Vollautomatisch. Wirkstoff-Matching per LLM-assistiertem Vergleich (Gemini Flash Lite), um Handelsnamen, Salzformen und Abkürzungen korrekt zuzuordnen (z.B. "ASS" ↔ "Acetylsalicylsäure"). Drei Metriken:
- Wirkstoff F1 — F1 auf Ebene der Wirkstoff-Erkennung (fuzzy Matching). Primäre Leaderboard-Metrik.
- Partial F1 — Wirkstoff korrekt und mindestens Dosis oder Frequenz stimmen.
- Exact F1 — Wirkstoff, Dosis und Frequenz alle korrekt.
Aufgabe: Das Modell erhält eine klinische Multiple-Choice-Frage im Stil des IMPP M2 Staatsexamens (Zweiter Abschnitt der Ärztlichen Prüfung). Jede Frage enthält eine kurze Fallvignette und fünf Antwortmöglichkeiten (A–E), von denen genau eine korrekt ist.
Evaluation: Vollautomatisch, kein LLM-as-Judge erforderlich. Eine Metrik:
- Accuracy — Anteil korrekt beantworteter Fragen. Misst klinisches Fachwissen über Diagnostik, Therapie, Pharmakologie und Pathophysiologie auf Staatsexamen-Niveau.
Aufgabe: Das Modell erhält einen komplexen medizinischen Fachtext (Befundbericht, Laborbefund, Histopathologie, OP-Bericht) und soll diesen so erklären, dass ein Patient ohne medizinische Vorkenntnisse alles versteht.
Evaluation: LLM-as-Judge (gemini-3-flash-preview) bewertet jede Erklärung anhand einer strengen Rubrik mit drei Dimensionen (je 1–5):
- Verständlichkeit — Ist der Text für einen Laien ohne Vorkenntnisse verständlich? Jeder unerklärte Fachbegriff ist ein Fehler.
- Medizinische Korrektheit — Sind alle medizinischen Sachverhalte korrekt vereinfacht? Keine irreführenden Vereinfachungen.
- Vollständigkeit — Sind alle klinisch relevanten Informationen kommuniziert?
Aufgabe: Das Modell erhält einen vollständigen Entlassbrief und soll eine strukturierte Zusammenfassung mit vier Feldern erstellen: Hauptdiagnose, Therapie, Procedere und offene Fragen.
Evaluation: LLM-as-Judge (gemini-3-flash-preview) bewertet jede Zusammenfassung anhand einer strengen klinischen Rubrik mit drei Dimensionen (je 1–5, alle Ankerpunkte definiert):
- Faktentreue — Sind alle genannten Fakten korrekt und im Original belegbar? Halluzinationen zählen als schwere Fehler.
- Vollständigkeit — Sind alle klinisch relevanten Informationen aus dem Gold Standard enthalten? Punkt-für-Punkt-Vergleich.
- Klinische Präzision — Ist die Zusammenfassung spezifisch und klinisch verwertbar? Generische Formulierungen werden bestraft.
Modell-Inferenz
Open-Source-Modelle werden über Together AI und DeepInfra evaluiert. Jedes Modell erhält denselben Prompt mit dem klinischen Text und soll die Ergebnisse in einem strukturierten JSON-Format zurückgeben. Die Inferenz erfolgt mit Temperatur 0 für maximale Reproduzierbarkeit. Antworten, die nicht als gültiges JSON geparst werden können, werden als Parse-Fehler gewertet — auch das ist eine relevante Metrik für die klinische Einsatzfähigkeit eines Modells.
Einschränkungen und Transparenz
- — Die aktuelle Datengrundlage ist synthetisch. Synthetische Texte können systematische Muster aufweisen, die in echten klinischen Texten nicht vorkommen.
- — GerMedBench verwendet Frontier-Modelle (Gemini) als Ground-Truth-Generator und LLM-as-Judge. Die Qualität der Benchmark-Daten und der generativen Bewertungen ist damit durch die Fähigkeiten dieser Modelle begrenzt — insbesondere bei deutschem medizinischem Fachvokabular können auch Frontier-Modelle Fehler machen.
- — ICD-10-GM Kodierung ist ein komplexer Prozess, der in der Praxis Kontextwissen erfordert, das über den reinen Text hinausgeht (z.B. Kodierrichtlinien, DRG-Relevanz).
- — Die Benchmark-Ergebnisse sind nicht direkt auf klinische Einsatzszenarien übertragbar, sondern dienen als vergleichende Orientierung.
- — Alle Daten, Prompts und Evaluations-Logik sind Open Source und reproduzierbar.
GerMedBench ist ein Open-Source-Projekt von der ThalamiQ GmbH.