Use Case 2 – From Data to Knowledge

Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

Im Use Case 2 „From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen“ wurden valide Vorhersagemodelle mithilfe von Techniken des maschinellen Lernens, insbesondere Deep Learning, entwickelt. Dabei diente der schrittweise inhaltliche Ausbau der DIZ an den MIRACUM Standorten als solide Datenbasis, um Patientenkohorten anhand klinischer Parameter, Biomarker und molekularer/genomischer Untersuchungen in Subgruppen zu stratifizieren. Das Konsortium strebte außerdem an, entstehende Vorhersagemodelle mittels SmartApps schnellstmöglich in den Klinikalltag zu integrieren, um Ärzte in ihren diagnostischen und therapeutischen Entscheidungen zu unterstützen. Der klinische Fokus lag hierbei zunächst auf medizinische Fragestellungen aus dem Bereich Asthma/COPD und Hirntumoren.

Die Daten in MIRACUM wurden als besonders schützenswert angesehen. Eine zentrale Sammlung über alle Standorte hinweg wurde als zu großes Risiko betrachtet. Daher verfolgte man das Ziel, die Analyse zu den Daten zu bringen und nicht umgekehrt. Nur aggregierte und anonyme Daten sollten die Standorte verlassen. Dieses Prinzip wurde mit der Software DataSHIELD umgesetzt, die an der Universität Newcastle entwickelt wurde und unter einer Open-Source-Lizenz frei nutzbar ist. DataSHIELD bot verschiedene statistische Verfahren an, von einfachen Kennzahlen bis zu komplexen Regressionsmodellen. Zudem ermöglichte die Software die Entwicklung neuer Methoden der künstlichen Intelligenz. Das MIRACUM-Konsortium arbeitete eng mit dem Entwicklerteam und der DataSHIELD-Community zusammen.

Zusätzlich zur Verwendung anonymer aggregierter Daten wurde die Nutzung synthetischer Daten erforscht, um den Datenschutz zu gewährleisten. Synthetische Daten, die keine realen Patienteninformationen enthalten, sondern statistische Beziehungen realer Daten nachbilden, wurden pro Standort erstellt. Diese Daten konnten gemeinsam genutzt und für verschiedene Analysekonzepte eingesetzt werden. Die Erzeugung synthetischer Daten erfolgte durch maschinelles Lernen, insbesondere mittels generativer Modelle und Deep Learning-Techniken. Die Generierung virtueller Patientendaten wurde verteilt über verschiedene MIRACUM-Standorte durchgeführt, ebenfalls unter Nutzung der DataSHIELD-Infrastruktur. So konnten etablierte Analyseverfahren und die Entwicklung neuer datenschutzkonformer Methoden parallel vorangetrieben werden.

Wir möchten dem Use Case 2-Team für fünf Jahre sehr engagierter und fruchtvoller Zusammenarbeit danken.


MIRACUM – Gemeinsam gegen Asthma und COPD (Quelle: BMBF)


Ein konkretes Beispiel: Alpha-1-Antitrypsin-Mangel (AATM) ist eine Erbkrankheit, bei der das Enzym Alpha-1-Antitrypsin im Körper fehlt. Infolgedessen kann es zu Gewebeschäden in Lunge und Leber kommen, die bereits in jungen Jahren zu einer chronisch obstruktiven Lungenerkrankung (COPD) führen. Daher unterscheiden sich COPD-Patienten mit und ohne AATM oft grundlegend – sowohl im Alter als auch in der Rauchergeschichte, den größten Risikofaktoren für COPD. Das Problem ist, dass COPD mit AATM eher selten ist, weshalb prognostische Faktoren für Komplikationen und neu auftretende Komorbiditäten meist in COPD-Akten von Patienten ohne AATM ermittelt wurden. Der Anwendungsfall „From Data to Knowledge“ will nun untersuchen, ob diese Faktoren trotz der grundlegenden Unterschiede auch für COPD-Patienten mit AATM genutzt werden können.

Die entsprechenden Daten in MIRACUM sind aus datenschutzrechtlicher Sicht als besonders schützenswert anzusehen. Eine zentrale Erfassung über alle Standorte hinweg ist potenziell ein zu großes Risiko. Ziel ist es daher nicht, die Daten zur Analyse zu bringen, sondern die Analyse zu den Daten. Genauer gesagt: Nur aggregierte und anonymisierte Daten sollen die Standorte verlassen. Dieses Prinzip wird durch die Software DataSHIELD umgesetzt, die an der Universität von Newcastle entwickelt wurde. Die Software ist unter einer Open-Source-Lizenz veröffentlicht und kann frei verwendet werden. DataSHIELD bietet verschiedene Prozeduren, die Teil des statistischen Werkzeugkastens sind. Diese reichen von der Berechnung einfacher Kennzahlen wie Mittelwerte oder Häufigkeiten bis hin zu komplexeren Regressionsmodellen, die in der oben beschriebenen klinischen Anwendung verwendet werden. Neben diesen bereits implementierten Analyseverfahren bietet DataSHIELD auch eine flexible und erweiterbare Infrastruktur, um neuartige Methoden der künstlichen Intelligenz zu entwickeln und auf vernetzte Daten anzuwenden. Zu diesem Zweck steht das MIRACUM-Konsortium in engem Austausch mit dem Entwicklungsteam und der DataSHIELD-Community.

Neben der Verwendung von anonymen aggregierten Daten wird in Anwendungsfällen die Verwendung von synthetischen Daten erforscht, um Datenschutzanforderungen zu erfüllen. Synthetische Daten sind Daten, die keine realen Beobachtungen und Patienteninformationen enthalten, sondern allgemeine Merkmale und statistische Beziehungen von realen Daten nachbilden. Für die Verwendung von Daten in der Forschung bedeutet dies, dass für jeden Standort virtuelle Patientendaten erstellt werden, die nicht an die Daten eines einzelnen Patienten gebunden sind. Solche Daten können dann gemeinsam genutzt werden und erlauben die Anwendung verschiedener Analysekonzepte, wie z. B. statistische Standardanalysen oder Techniken der künstlichen Intelligenz. Um synthetische Daten aus realen Daten zu generieren, sind Ansätze des maschinellen Lernens erforderlich. Konkret werden sogenannte generative Modelle verwendet, die die systematische und zufällige Variabilität der Originaldaten abbilden. Ermöglicht wird dies durch Techniken der künstlichen Intelligenz, insbesondere aus dem Bereich des Deep Learning. Die Generierung der virtuellen Patientendaten ist auf verschiedene MIRACUM-Standorte verteilt. Auch hierfür wird die DataSHIELD-Infrastruktur genutzt. Auf diese Weise kann die Analyse der Daten mit etablierten Verfahren und die Entwicklung neuer Methoden zur datenschutzkonformen Analyse verteilter Patientendaten gemeinsam vorangetrieben werden.

Zöller D, Haverkamp C, Makoudjou A, Sofack G, Kiefer S, Gebele D, Pfaffenlehner M, Boeker M, Binder H, Karki K, Seidemann C, Schmeck B, Greulich T, Renz H, Schild S, Seuchter SA, Tibyampansha D, Buhl R, Rohde G, Trudzinski FC, Bals R, Janciauskiene S, Stolz D, Fähndrich S. Alpha-1-antitrypsin-deficiency is associated with lower cardiovascular risk: an approach based on federated learning. Respir Res 2024; 25:38. DOI: 10.1186/s12931-023-02607-y.

Lenz S, Hess M, Binder H. Deep generative models in DataSHIELD. BMC Med Res Methodol. 2021; 21, 64. Doi: 0.1186/s12874-021-01237-6. PMID: PMC8019187.

Gruendner J, Wolf N, Tögel L, Haller F, Prokosch HU, Christoph J. Integrating Genomics and Clinical Data for Statistical Analysis by Using GEnome MINIng (GEMINI) and Fast Healthcare Interoperability Resources (FHIR): System Design and Implementation. JMIR 2020; 22:e19879. DOI: 10.2196/19879.

Gruendner J, Prokosch HU, Schindler S, Lenz S, Binder H. A Queue-Poll Extension and DataSHIELD: Standardised, Monitored, Indirect and Secure Access to Sensitive DataStud Health Technol Inform. 2019;258:115-119. Doi: 10.3233/978-1-61499-959-1-115. PMID: 30942726.