// Sven C. Preusker
Bisherige Versuche, künstliche Intelligenz (KI) und maschinelles Lernen zur Erkennung psychiatrischer Störungen anzuwenden, haben nur mäßige Erfolge erbracht. Die Einbeziehung klinischer Bewertungen allerdings scheint die Verbesserung von Vorhersagemodellen und dadurch perspektivisch klinische Anwendungen zu ermöglichen. Die Natur klinischer Daten stellt dabei eine erhebliche Herausforderung dar. Medizinischer Freitext, insbesondere in der Psychiatrie, enthält viele Informationen über die Pathologie und das Wohlbefinden eines Patienten – geprägt von der Struktur seines Denkens und Fühlens. Diese Informationen sind von entscheidender Bedeutung, bleiben aber aufgrund ihrer unstrukturierten Natur für Analysen oft unzugänglich.
Eine kürzlich veröffentlichte Studie hat nun gezeigt, dass große Sprachmodelle (Large Language Models, LLMs), insbesondere das Modell Llama-2, Informationen über Suizidalität aus psychiatrischen Aufzeichnungen präzise extrahieren und dabei den Schutz der sensiblen Patientendaten gewähren können. Die Ergebnisse legen nahe, dass LLMs Anwendung in Überwachungssystemen für psychiatrische Notfälle finden könnten und das klinische Management von Suizidalität durch Verbesserung der systematischen Qualitätskontrolle und Forschung verbessern könnten.
Richtig genutzte Daten können Leben retten
Selbstmordgedanken und -versuche sind für viele psychiatrische Notfalleinweisungen verantwortlich. Dabei sind Suizide oft vermeidbar. Durch entsprechende Bemühungen könne eine erhebliche Senkung der Selbstmordrate bei stationären Patienten erreicht werden, von 4,2 auf 0,74 pro 100.000 Aufnahmen, so die Wissenschaftler. Ausgangspunkt der Studie ist die Hypothese der Forschenden, dass automatisierte Tools dabei helfen könnten, das Selbstmordrisiko bei stationären Patienten anhand bisher unzureichend genutzter klinischer Aufzeichnungen zu ermitteln. Darüber hinaus könnten LLMs über die klinische Anwendung hinaus automatisch potentielle Suizidalität in elektronischen Gesundheitsakten (EHRs) identifizieren und extrahieren, um die Forschung zu verbessern.
Durchgeführt haben die Studie Forschende des Else Kröner Fresenius Zentrums (EKFZ) für Digitale Gesundheit der Technischen Universität (TU) Dresden gemeinsam mit Medizinern der Klinik und Poliklinik für Psychiatrie und Psychotherapie am Universitätsklinikum Carl Gustav Carus Dresden. Die Studie wurde kürzlich in der Fachzeitschrift „The British Journal of Psychiatry“ veröffentlicht.
Gute Ergebnisse auch mit nicht spezifisch trainiertem Modell
Für die Analyse von Texten aus der psychiatrischen Anamnese nutzten die Autoren ein neues großes Sprachmodell der Familie „Llama-2“. Die Wissenschaftler wollten wissen, wie gut ihr Modell den Suizidalitätsstatus bei Patienten identifizieren kann – etwa ob lebensmüde Gedanken oder ein Todeswunsch bestehen. Dafür untersuchten sie einhundert Aufnahmedokumente und zeigten, dass das verwendete Modell diese Fälle zuverlässig und mit hoher Genauigkeit erkennen kann. Die Wissenschaftler nutzten dabei lokale, klinikinterne Server, um sensible persönliche Daten optimal zu schützen und die Privatsphäre zu wahren.
Die Forschenden verglichen in der Studie die Leistung mehrerer Varianten des Open-Source-LLMs „Llama-2“ beim Extrahieren des Suizidalitätsstatus aus psychiatrischen Berichten mit einer von menschlichen Experten definierten Grundwahrheit und bewerteten Genauigkeit, Sensitivität, Spezifität und F1-Score anhand verschiedener Eingabestrategien.
Ein deutsches, fein abgestimmtes Llama-2-Modell zeigte dabei die höchste Genauigkeit (87,5 %), Sensitivität (83,0 %) und Spezifität (91,8 %) bei der Identifizierung von Suizidalität, mit signifikanten Verbesserungen bei Sensitivität und Spezifität über verschiedene Eingabedesigns hinweg.
„Wir konnten zeigen, dass Hinweise auf Suizidalität bei Patientinnen und Patienten automatisiert aus elektronischen Gesundheitsakten extrahiert werden können – mithilfe von großen Sprachmodellen. Unsere Ergebnisse unterstreichen das große Potenzial dieser Large Language Models für die Medizin. Obwohl wir ein nicht speziell für die Analyse von psychiatrischen Daten entwickeltes Modell verwendet haben, waren die Ergebnisse zuverlässig und präzise. Und sie lassen sich durch weitere Anpassungen noch weiter verbessern. Mögliche Anwendungen in der Klinik umfassen Frühwarn- und Überwachungssysteme für psychiatrische Notfälle, eine verbesserte Qualitätssicherung sowie die Analyse von psychiatrischen Symptomen innerhalb großer Datenmengen“, so Falk Gerrik Verhees, einer der Erstautoren der Studie und Psychiater am Universitätsklinikum Carl Gustav Carus Dresden.
Die Forschenden wiesen darauf hin, dass es nun weiterer Untersuchungen bedürfe, bis diese Modelle tatsächlich erfolgreich in den Klinikalltag integriert werden könnten. Mit ihrer Publikation zeigen sie, dass lokal genutzte, große Sprachmodelle in der Lage sind, klinische Informationen aus freiem Text mit hoher Genauigkeit zu extrahieren. Durch die Verwendung von lokalen Lösungen mit geringen Hardwareanforderungen sinken auch die Hürden für eine Umsetzung in die Praxis.
„Diese KI-Methoden könnten medizinisches Fachpersonal in ihren Entscheidungen künftig unterstützen und die medizinische Dokumentation erleichtern. Das würde nicht nur unmittelbar die Qualität der Gesundheitsversorgung verbessern, sondern auch die medizinische Forschung langfristig voranbringen“, so Dr. med. Isabella C. Wiest, Erstautorin der Studie, Ärztin am Universitätsklinikum Carl Gustav Carus Dresden und Forscherin am EKFZ für Digitale Gesundheit.
Originalpublikation: Isabella C. Wiest, Falk Gerrik Verhees et al. Detection of Suicidality from Medical Text Using Privacy-Preserving Large Language Models. The British Journal of Psychiatry, 2024. https://doi.org/10.1192/bjp.2024.134.
Dieser Beitrag stammt aus dem medhochzwei Newsletter 02-2025. Abonnieren Sie hier kostenlos, um keine News aus der Branche mehr zu verpassen!