Use Case 2 – From Data to Knowledge

Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

Im Use Case 2 „From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen“ wurden valide Vorhersagemodelle mithilfe von Techniken des maschinellen Lernens, insbesondere Deep Learning, entwickelt. Dabei diente der schrittweise inhaltliche Ausbau der DIZ an den MIRACUM Standorten als solide Datenbasis, um Patientenkohorten anhand klinischer Parameter, Biomarker und molekularer/genomischer Untersuchungen in Subgruppen zu stratifizieren. Das Konsortium strebte außerdem an, entstehende Vorhersagemodelle mittels SmartApps schnellstmöglich in den Klinikalltag zu integrieren, um Ärzte in ihren diagnostischen und therapeutischen Entscheidungen zu unterstützen. Der klinische Fokus lag hierbei zunächst auf medizinische Fragestellungen aus dem Bereich Asthma/COPD und Hirntumoren.

Die Daten in MIRACUM wurden als besonders schützenswert angesehen. Eine zentrale Sammlung über alle Standorte hinweg wurde als zu großes Risiko betrachtet. Daher verfolgte man das Ziel, die Analyse zu den Daten zu bringen und nicht umgekehrt. Nur aggregierte und anonyme Daten sollten die Standorte verlassen. Dieses Prinzip wurde mit der Software DataSHIELD umgesetzt, die an der Universität Newcastle entwickelt wurde und unter einer Open-Source-Lizenz frei nutzbar ist. DataSHIELD bot verschiedene statistische Verfahren an, von einfachen Kennzahlen bis zu komplexen Regressionsmodellen. Zudem ermöglichte die Software die Entwicklung neuer Methoden der künstlichen Intelligenz. Das MIRACUM-Konsortium arbeitete eng mit dem Entwicklerteam und der DataSHIELD-Community zusammen.

Zusätzlich zur Verwendung anonymer aggregierter Daten wurde die Nutzung synthetischer Daten erforscht, um den Datenschutz zu gewährleisten. Synthetische Daten, die keine realen Patienteninformationen enthalten, sondern statistische Beziehungen realer Daten nachbilden, wurden pro Standort erstellt. Diese Daten konnten gemeinsam genutzt und für verschiedene Analysekonzepte eingesetzt werden. Die Erzeugung synthetischer Daten erfolgte durch maschinelles Lernen, insbesondere mittels generativer Modelle und Deep Learning-Techniken. Die Generierung virtueller Patientendaten wurde verteilt über verschiedene MIRACUM-Standorte durchgeführt, ebenfalls unter Nutzung der DataSHIELD-Infrastruktur. So konnten etablierte Analyseverfahren und die Entwicklung neuer datenschutzkonformer Methoden parallel vorangetrieben werden.

Wir möchten dem Use Case 2-Team für fünf Jahre sehr engagierter und fruchtvoller Zusammenarbeit danken.


MIRACUM – Gemeinsam gegen Asthma und COPD (Quelle: BMBF)