MIRACOLIX-Tools

Die technischen Komponenten der MIRACUM-Datenintegrationszentren sind als Teile einer modularen Architektur definiert und können auf Basis von ETL-Prozessen (Extraction, Trans-formation, Loading) und standardisierten Anwendungsprogrammierschnittstellen (REST Service Interface) miteinander interagieren und Daten austauschen.

Die Hauptkomponenten der DIC-Architektur basieren auf dem Medical Informatics ReusAble eCO-System von quelloffenen, verknüpfbaren und interoperablen Softwarewerkzeugen (MIRACOLIX).

MIRACOLIX besteht aus einer großen Anzahl skalierbarer und interoperabler Softwarewerkzeuge, die schrittweise von den MIRACUM-Partnern entworfen, entwickelt, verfeinert, eingesetzt und implementiert werden. Es ist uns ein großes Anliegen, so viele Open-Source-Software-Tools wie möglich wiederzuverwenden (die bereits in anderen internationalen Forschungsprojekten erfolgreich eingesetzt wurden).

Derzeit besteht MIRACOLIX aus den folgenden Softwaremodulen (Stand 03/2022):

Repositories

Data Repositories, Exploration und Visualisierung

Informatics for Integrating Biology and the Bedside (i2b2) is a project sponsored in the USA by the National Institutes of Health (NIH), which has been run as the National Center for Biomedical Computing (NCBC) since 2004 as part of the NIH Roadmap for Medical Research. i2b2 is an extensible open source tool suite that is now successfully used in numerous international research networks, either as a single implementation for hospital-based data integration or as a node in a research network.

Within the MIRACUM DIC, i2b2 is provided as a platform for feasibility studies, cohort identification and support in patient recruitment.

TranSMART ist eine Plattform für die translationale Forschung. Als Datenbank mit integrierten Analysetools kann sie sowohl für die Analyse klinischer als auch genomischer Daten verwendet werden. Es handelt sich um ein Open-Source-Data-Warehouse, das große Datenmengen speichert, damit sie für die translationale Forschung gemeinsam genutzt werden können. Die Plattform bietet u.a. mehr als 30 vordefinierte Workflows zur Analyse und grafischen Darstellung von Studiendaten und überzeugt in der Anwendung durch ihre grafische Benutzeroberfläche.

Für weitere Informationen zu tranSMART:

MIRACUM tranSMART Webseite

Das Open-Source-Tool cBioPortal ist eine weitere translationale Forschungsplattform für die interaktive Erkundung multidimensionaler Krebsgenomik-Datensätze. Das von den Memorial Sloan Kettering Cancer Centers (MSKCC) entwickelte cBioPortal bietet eine Webressource zur Erforschung, Visualisierung und Analyse multidimensionaler Krebsgenomikdaten. Die intuitive Webschnittstelle des Portals bietet Zugang zu komplexen genomischen Profilen, ohne dass bioinformatische Kenntnisse erforderlich sind.

OHDSI ist eine globale Open-Science-Community mit dem Ziel, verfügbare Beobachtungsdaten (z.B. Diagnosen, Prozeduren, Laborwerte, Messungen, Medikation) aus einer Patientenbehandlung in ein standardisiertes Format zu überführen und damit international für die Forschung nutzen zu können. Kernbestandteil des OHDSI-Software-Frameworks ist das OMOP Common Data Model, das als Datenbasis dient. Die Daten werden in einem standardisierten Format und Vokabular wie SNOMED, LOINC oder RxNorm gespeichert. Die OHDSI-Community bietet ein großes Portfolio an Open-Source-Komponenten zur Charakterisierung von Kohorten, aber auch zur Auswertung, Analyse und Vorhersage.

In der täglichen medizinischen Praxis entstehen durch diverse bildgebende Verfahren immer mehr unterschiedliche medizinische Bilder, Volumendatensätze und Bildsequenzen an den verschiedensten Orten. Um auf Basis der Bilder fundierte Fragestellungen für die Patientenversorgung oder die Forschung beantworten zu können, sind die Anforderungen an die Qualität der Daten und der Bedarf an Vergleichsbeispielen oft sehr hoch. Da die meisten Bilddaten nicht nur äußerst heterogen, sondern auch hinsichtlich ihres Speicherortes sehr verteilt sind, können Experimente am Universitätsklinikum oft nicht vom Datenschatz anderer Standorte profitieren.

Das XNAT-Projekt konzentriert sich darauf, Wissenschaftlern die Archivierung und den Austausch von Bild- und Video(meta-)daten zu ermöglichen. Gleichzeitig werden Werkzeuge zur automatischen Qualitätskontrolle sowie zur Aufbereitung der Daten bereitgestellt, um eine zentrale Analyse in Verbindung mit den anderen Systemen und Repositories zu gewährleisten.

So können Forschungsfragen nun ganzheitlich und unter Berücksichtigung aller vorhandenen (Patienten-)Daten bestmöglich beantwortet werden.

Mehr Informationen zu XNAT:

Mit dem MIRACUM Mapper stellt das DIC ein universelles Werkzeug zur Verfügung, um nicht standardisierte Krankenhausdaten manuell auf Standardterminologien abzubilden. Dies ist wichtig, um Daten im Kontext der Forschung vergleichbar zu machen. Das Tool lässt sich für unterschiedliche Validierungsworkflows vielfältig konfigurieren, so dass umfassende Qualitätssicherungsmaßnahmen durchgeführt werden können.

Seit 2019 arbeitet das DIC gemeinsam mit den Labors daran, die rund 10’000 Swisslab-Laborparameter auf den LOINC-Standard abzubilden. Dazu wurde das Tool mit dem MIRACUM-LabVisualizer um eine nützliche Visualisierungsfunktion (MIRACUM LabVisualizer) für die lokalen Labordaten erweitert, die die Zuordnung zu den richtigen LOINC-Codes erleichtert.

Das Data Quality Analysis-Tool (DQA-Tool) ist eine Webanwendung, die derzeit im Rahmen des MIRACUM-Projekts entwickelt wird. Es dient der Überprüfung der Datenqualität eines Forschungsdatenspeichers mit Fokus auf die sogenannten „Extract-Transform-Load“ (ETL)-Prozesse, mit denen diese Forschungsdatenbanken befüllt werden. Zu diesem Zweck setzt das Werkzeug aktuelle, in der wissenschaftlichen Literatur veröffentlichte Konzepte um (siehe M.G. Kahn et al.).

Das DQA-Tool befindet sich in einem experimentellen Stadium und wird ständig aktiv weiterentwickelt mit dem Ziel, eine Open-Source-Software bereitzustellen, die flexibel auf eine Vielzahl von Datenquellen angewendet werden kann und so zu einer Verbesserung der Datenqualität in vielen Teilsystemen beiträgt.

Mehr Informationen über das DQA-Tool:

Kapsner et al. – Moving Towards an EHR Data Quality Framework: The MIRACUM Approach


Projekt- und Studienmanagement

Studien-/Projektregister

Am Standort Erlangen wurde ein zentrales Studienregister entwickelt, um alle an den zehn MIRACUM-Standorten stattfindenden Studien zentral über eine Website abzubilden. Die Registry besteht aus verschiedenen Modulen, darunter ein zentraler FHIR-kompatibler Server als Datenspeicher, der über ein Webinterface Studieninformationen in Form von Fast Healthcare Interoperability Resources (FHIR) entgegennehmen kann. Darüber hinaus gibt es einen „Multisite Merger“, der die von mehreren Standorten gemeldeten multizentrischen Studien zusammenführt, so dass sie als eine einzige Studie mit mehreren Studienstandorten dargestellt werden. Diese werden dann auf der Website des Studienregisters angezeigt. Jedes lokale Studienregister muss, um am zentralen Register teilnehmen zu können, eine Schnittstelle bereitstellen, die die benötigten Studienmeldungen im vorgegebenen Format (FHIR) an den zentralen Studienserver sendet.

Weitere Informationen über das MIRACUM-Studienregister:

Projektantragsmanagement

Um klinische Daten aus medizinischen Abteilungen, Krankenhäusern und anderen medizinischen Einrichtungen für Forschungszwecke nutzen zu können, müssen Forschungsanträge gestellt und von verschiedenen Gremien geprüft werden, bevor die Daten für Forscher zugänglich gemacht werden können.

Dieser Antragsprozess ist noch nicht harmonisiert. Um dies zu ändern, entwickelt die Gruppe Medizinische Informatik im Rahmen von MIRACUM derzeit ein Tool, das den Prozess der Projektantragsverwaltung unterstützt und vereinfacht: ProSkive. Der gesamte Antragsprozess kann nachverfolgt werden, und Wissenschaftler können Biomaterialien oder klinische Daten einfach über eine Webschnittstelle beantragen. Durch den Einsatz innovativer Methoden und Technologien sind so alle Schritte vom Projektantrag bis zum Projektabschluss für alle Beteiligten nachvollziehbar und leicht an unterschiedliche Bedürfnisse anpassbar. Bis Dezember 2020 wurden sechs Versionen von ProSkive an die MIRACUM-Partnerstandorte verteilt.

Mehr Informationen zu ProSkive:

ProSkive Webseite


Datenschutz

ID Management

Der E-PIX® (Enterprise Identifier Cross-Referencing) Service ermöglicht eine präzise Verwaltung von personenidentifizierenden Daten (PII) einschließlich der Verknüpfung von Patientendatensätzen in zentralen und föderierten Szenarien. Er folgt den Prinzipien eines Master-Patientenindex, um Personen aus einzelnen oder föderierten Studienstandorten zu identifizieren und abzugleichen. Dieses Identitätsmanagement schließt die Korrektur von Synonymfehlern ein – wenn Daten einer Person in mindestens zwei unabhängigen Patientenakten gespeichert sind. Die probabilistische Datensatzverknüpfung wird anhand demografischer Informationen (z. B. Vorname, Nachname, Geburtsdatum) und/oder lokaler Identifikatoren (z. B. Versicherungs- oder Krankenhausfallnummer) durchgeführt. Außerdem wird eine datenschutzfreundliche Datensatzverknüpfung (Privacy Preserving Record Linkage, PPRL) auf der Grundlage von Bloom-Filtern unterstützt. E-PIX® wird an einer Vielzahl von MII-Standorten eingesetzt und wird von der Trusted Third Party der Universitätsmedizin Greifswald unter einer Open-Source-Lizenz (AGPLv3) bereitgestellt.

Mehr Informationen zu E-PIX®:

Pseudonymisierungsdienst

Der gPAS® (generic Pseudonym Administration Service) ermöglicht es einem Datentreuhänder, Pseudonyme zu erzeugen und zu verwalten. Wie für verschiedene Anwendungsszenarien erforderlich, ist der Pseudonymgenerierungsprozess hochgradig konfigurierbar und unterstützt eine umfassende Anpassung (z.B. in Bezug auf verwendete Algorithmen, Alphabete, Pseudonymzusammensetzung und -länge). Zusätzlich kann gPAS® mehrere hierarchische Pseudonyme pro Person generieren – dies ermöglicht die Verwendung unterschiedlicher Pseudonyme für verschiedene Datenquellen, Zielsysteme, Datentypen oder Studienstandorte. gPAS® wird an einer Vielzahl von MII-Standorten eingesetzt und wird von der Trusted Third Party der Universitätsmedizin Greifswald unter einer Open-Source-Lizenz (AGPLv3) zur Verfügung gestellt.

Mehr Informationen zu gPAS®:

Einwilligungsmanagement

Der gICS® (generic Informed Consent Service) unterstützt das Management von Einwilligungen und Rücktritten. gICS® ermöglicht alle IC-bezogenen Workflows – von der vollelektronischen bis zur digitalisierten papierbasierten Erfassung der Einwilligung des Teilnehmers. Alle einwilligungsrelevanten Prozesse basieren auf Policies und wiederverwendbaren Modulen, die eine automatisierbare Überprüfung der Gültigkeit von Einwilligungen in Echtzeit (z.B. hinsichtlich der Speicherung medizinischer Informationen, der Entnahme von Bioproben oder der erneuten Kontaktaufnahme) sowie die Prüfung auf vollständige oder richtlinienspezifische Rücktritte ermöglichen. gICS® wird an einer Vielzahl von MII-Standorten eingesetzt und wird von der Trusted Third Party der Universitätsmedizin Greifswald unter einer Open-Source-Lizenz (AGPLv3) zur Verfügung gestellt.

Mehr Informationen zu gICS®:


IT-Infrastruktur

Föderierte Authentifizierung

Keycloak wird als Federated Authentication Service (FAS) in MIRACUM verwendet. Dabei handelt es sich um ein weit verbreitetes, internationales Open-Source-Softwareprodukt, das die Zugangsverwaltung und auch das Single Sign-On für Anwendungen ermöglicht. Keycloak verwendet die OpenID Connect-Authentifizierungsschicht, die auf dem OAuth 2.0-Autorisierungsprotokoll basiert, und das SAML-XML-Framework zum Austausch von Authentifizierungsinformationen. Für die Anwendung, bei der sich ein Benutzer authentifizieren soll, stellt Keycloak Adapter zur Verfügung. Diese sind für verschiedene Anwendungsserver verfügbar. Alternativ kann Keycloak auch im Quellcode der Applikation angesprochen werden.

Mehr Informationen zu Keycloak:

Keycloak Webseite

Software Pipeline für die Analyse von OMICs Daten

Um eine transparente Datenintegration und Entscheidungsfindung für Molecular Tumor Boards (MTBs) in den MIRACUM-Standorten zu gewährleisten und zu unterstützen, haben wir die MIRACUM-Pipe entwickelt.

Dabei handelt es sich um einen automatisierten Analyse-Workflow für die Ganz-Exom-Sequenzierung (WES) und die gezielte Gen-Panel-Sequenzierung (tNGS), der zuverlässige, standardisierte und reproduzierbare Ergebnisse in verschiedenen Einrichtungen liefert. Die Ergebnisse werden in zusammengefasster Form in einem interaktiven PDF-Bericht dargestellt und können von den MTB-Mitgliedern zur Vorbereitung einer Tumorboard-Sitzung verwendet werden.

Das MIRACUM-Pipe wurde bereits zweimal erfolgreich im Next-Generation Sequencing Ringversuch getestet und erhielt daher sowohl 2019 als auch 2020 das Zertifikat des Berufsverbandes Deutscher Humangenetiker e.V.


Datenintegrations-Tools

Als Teil des MIRACOLIX-Werkzeugkastens entwickelt der MIRACUM-Standort Frankfurt die Komponenten zur Realisierung einer konsortialen föderierten Suche. Dabei handelt es sich zum einen um eine Konnektorkomponente für föderierte Suchen (CC-FS) und zum anderen um eine entsprechende Querybroker-Komponente. Der Querybroker ist sowohl mit ProSkive als auch mit verschiedenen grafischen Querybuildern verbunden. Derzeit sind OHDSI ATLAS und i2b2 vorgesehen, aber dank eines generischen Ansatzes können auch andere Querybuilder mit vertretbarem Aufwand angebunden werden. Im Gegensatz zum zentral eingesetzten Querybroker sind die CC-FS-Instanzen bei den MIRACUM-Partnerstandorten integriert und mit den Datenmanagementsystemen vor Ort verbunden. Je nach Abfrageschema leitet CC-FS die Abfrage an das zuständige Datenmanagementsystem weiter und sammelt die Ergebnisse, um sie – die entsprechende Zustimmung vorausgesetzt – im Konsortium zur Verfügung zu stellen. Zur Authentifizierung der Komponenten wird der MIRACUM Federated Authentication Service (FAS) eingesetzt.

In der klinischen Forschung werden neben medizinischen Daten, die in Standardterminologien (z. B. ICD10, OPS) vorliegen, auch nicht standardisierte Daten (z. B. Laboranalyten) benötigt. Um die Austauschbarkeit oder die gemeinsame Analyse dieser Daten zu ermöglichen, müssen diese Daten auf einen Standard abgebildet werden (z. B. im Falle von Labordaten auf LOINC).
Die manuelle Zuordnung ist jedoch eine sehr zeitaufwändige Aufgabe. Die Zuordnung solcher Codes erfordert nicht nur grundlegende terminologische Kenntnisse, sondern auch eine gute Kenntnis der Gegebenheiten am jeweiligen Standort und erfordert einen ständigen Informationsaustausch mit Kollegen. Die manuelle Pflege von Codelisten ist nicht sinnvoll.
Aus diesem Grund wurde im Rahmen von MIRACUM ein halbautomatischer Ansatz für die Erstellung solcher Mappings entwickelt. Der MIRACUM Mapper ist ein generisches Werkzeug, das die kollaborative und asynchrone Erstellung und Bearbeitung von Mappings ermöglicht. In der ersten Anwendung wurden ca. 10.000 Laborcodes auf den LOINC-Standard abgebildet.

Health Discovery ist eine Plattform für Text Mining und maschinelles Lernen der Averbis GmbH, einem deutschen Unternehmen, das sich auf Wissens- und Inhaltstechnologien im biomedizinischen Bereich spezialisiert hat. Health Discovery verarbeitet große Mengen an klinischen Berichten, analysiert ihren textlichen Inhalt und erzeugt eine strukturierte Ausgabe, die aus Codes (z.B. ICD-10, TNM) im Kontext (z.B. Negation) besteht. Es basiert auf dem Apache UIMA (Unstructured Information Management Architecture)-Framework, das das Hinzufügen von benutzerdefinierten Extraktionskomponenten sowie die Verwendung externer Terminologien ermöglicht. Dank seiner REST-Schnittstelle kann Health Discovery leicht in bestehende Informationsarchitekturen integriert werden. In MIRACUM unterstützt Averbis Health die Datenintegrationszentren bei der Erfassung kodierter Informationen aus textuellen Quellen in klinischen Informationssystemen.

Das MIRACUM-Konsortium benötigt ein zentrales Metadaten-Repository (M-MDR), um die Herausforderungen der Interoperabilität zu bewältigen und Datenharmonisierungsprozesse innerhalb des Netzwerks zu unterstützen. Dieses zentrale M-MDR beinhaltet alle Kerndatensätze, die durch die deutsche Medizininformatik-Initiative (MII) sowie das Konsortium definiert wurden und wird kontinuierlich in Abhängigkeit von aktuellen Anwendungsfällen erweitert. Forscher können diese harmonisierten Datensätze nutzen, um Abfragen für Datenanfragen zu definieren. Damit stellt das M-MDR eine wesentliche Komponente für die föderierte Suche über Institutsgrenzen hinweg dar. Darüber hinaus kann das Metadaten-Repository zur Unterstützung verschiedener Aufgaben, wie ETL-Prozesse (Extrahieren, Transformieren, Laden) oder Datenqualitätsberichte, verwendet werden. Zusammenfassend lässt sich sagen, dass die Datenintegration und der Datenaustausch zwischen den Partnerstandorten mit Hilfe des zentralen M-MDR vereinfacht werden soll.


Kollaborations-Tools

Als standortübergreifende Kollaborationsplattform wird im MIRACUM-Konsortium die kommerzielle Wiki-Software Confluence von Atlassian genutzt. Diese dient insbesondere dazu, gemeinesame Arbeitsmeetings zu organisieren und zu dokumentieren sowie Berichte kollaborativ zu erstellen.
Confluence Webseite

Für die gemeinsame Softwareentwicklung innerhalb des Konsortiums wurde das MIRACUM GitLab Repo angelegt. Hierdurch kann die Versionsverwaltung von Softwareprojekten sichergestellt werden.
GitLab Webseite

Zur Kommunikation innerhalb des Konsortiums wird die Open-Source-Software Zulip genutzt. Diese bietet die Möglichkeit, sich asynchron und standortübergreifend zu spezifischen Themen auszutauschen. Zudem kann es als Chat-Tool eines einzelnen Standortes für die interne Kommunikation genutzt werden.
Zulip Webseite