Förderkennzeichen: | 01ZZ2314E |
Fördersumme: | 200.346 EUR |
Förderzeitraum: | 2023 - 2024 |
Projektleitung: | Prof. Dr. Fabian Prasser |
Adresse: |
Charité - Universitätsmedizin Berlin, Berliner Institut für Gesundheitsforschung Sauerbruchweg 3 10117 Berlin |
Das Hauptziel von GeMTeX ist die Generierung eines großen annotierten Textkorpus deutscher medizinischer Texte aus der Routineversorgung von Patientinnen und Patienten. Es ist geplant Dokumente von prospektiv einwilligenden Patienten aus den elektronischen Gesundheitsakten (ePA) von sechs Universitätsklinika zu extrahieren. In einer konzertierten Aktion werden daraus annotierte Textkorpora generiert und tiefe Annotationen in mehreren Dimensionen bereitgestellt. Nach der Anonymisierung ermöglicht GeMTeX die gemeinsame Nutzung dieser Dokumente und wird neue Ressourcen für Forschung und Entwicklung schaffen. Der Fortschritt des klinischen Natural Language Processing (NLP) wird entscheidend von speziell trainierten Sprachmodellen abhängen, die authentische klinische Dokumente erfordern. Das Verbundprojekt wird zwei wesentliche Engpässe adressieren, die deutsche klinische Sprachmodelle bisher verhindert haben, nämlich 1) die Zugänglichkeit von Daten und 2) die Annotation von Daten. Die Medizininformatik-Initiative (MII) bietet eine einzigartige Gelegenheit, klinische Dokumente in großem Umfang zugänglich zu machen und mit Annotationen anzureichern. Ein deutscher medizinischer Textkorpus wird die Entwicklung von NLP-Ressourcen fördern, die die Analyse deutscher klinischer Texte unterstützen. GeMTeX wird eine technische und organisatorische Struktur schaffen, um anonymisierte Texte prospektiv zu sammeln und sie nach Annotationsrichtlinien zu annotieren. GeMTeX wird ein breites Spektrum von Annotationsaufgaben abdecken. Sie werden erprobt, validiert und in großem Maßstab angewandt, um eine einzigartige Ressource zu schaffen. KI-Modelle, die mit dieser Ressource trainiert wurden, werden im Hinblick auf ihren Wert in konkreten disziplinären Anwendungsszenarien analysiert. Die annotierten Textdokumente und die Modelle werden über die Zentralbibliothek für Medizin (ZBMED) und über das DFG-geförderte Projekt NFDI4Health, mit dem GeMTeX eng zusammenarbeitet, öffentlich zugänglich gemacht.