Skip to main content Skip to main navigation

Publikation

Künstliche Intelligenz (KI) in der Krebsregistrierung: Methoden, Herausforderungen und erste Ergebnisse des AI-Care-Datensatzes

Christiane Rudolph; Sebastian Germer; Alice Nennecke; Henrik Kusche; Louisa Labohm; Natalie Rath; Katharina Rausch; Bernd Holleczek; Heinz Handels; Alexander Katalinic
Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi) 2024, German Medical Science GMS Publishing House, 2024.

Zusammenfassung

Einleitung: Das Verbundprojekt AI-CARE beschäftigt sich mit der KI-unterstützten, versorgungsnahen Nutzung von Krebsregisterdaten. Das Ziel des Projektes ist, Krebsregisterdaten mit Methoden der künstlichen Intelligenz (KI) so aufzubereiten, zu verbessern und zusammenzuführen, dass diese für die onkologische Qualitätssicherung und Forschung besser zugänglich gemacht werden können. Außerdem soll die Frage geklärt werden, ob KI-Methoden das klassische Auswertungsspektrum von Krebsregisterdaten sinnvoll ergänzen. Im Rahmen dieses Projektes werden für ausgewählte Krebsentitäten alle verfügbaren bundesweiten Daten von klinischen Landeskrebsregistern zu einem Datensatz zusammengeführt und analysiert. Trotz intensiver Harmonisierungsbemühungen der klinischen Krebsregister, einheitliche Daten im Rahmen des Gesetzes zur Zusammenführung von Krebsregisterdaten (§ 65c SGB V) nach Vorgaben des einheitlichen onkologischen Basisdatensatzes (oBDS) zur Verfügung zu stellen, kommt es bei Ausgabedatensätzen in Bezug auf einzelne Variablen beziehungsweise Ausprägungen zu heterogenen Verteilungen. Im Folgenden sollen die Standardisierung und Normierung der Daten als Vorbereitung für KI-Anwendungen, sowie die Anwendung von maschinellen Lernverfahren für Vorhersagen des Krankheitsverlaufs im Fokus stehen. Methoden: Im Herbst 2023 wurden bei allen deutschen klinischen Landeskrebsregistern Daten beantragt. Eingeschlossene Entitäten sind Brustkrebs (ICD-10: C50), Lungenkrebs (ICD-10: C34, Schilddrüsenkrebs (ICD-10: C73) und Non-Hodgkin-Lymphome (ICD-10: C82-C88), die zwischen dem ersten Jahr der klinischen Registrierung des jeweiligen Registers und dem 31.12.2022 diagnostiziert wurden. Diese Entitäten wurden ausgewählt, um ein möglichst breites Spektrum von Krebserkrankungen abzudecken: häufige Entitäten mit guter Prognose (Brustkrebs) und mit schlechter Prognose (Lungenkrebs), seltene Krebsarten (Schilddrüsenkrebs) sowie systemische Erkrankungen (Non-Hodgkin-Lymphome). Übermittelte Krebsregisterdaten durchlaufen eine neu entwickelte Datenverarbeitungspipeline, die Plausibilitätschecks mittels Referenzlisten durchführt und eine Harmonisierung der Daten (z. B. Vereinheitlichung von Schreibweisen) vornimmt. Methoden der künstlichen Intelligenz, die auf den Daten angewandt werden sollen, sind unter anderem Random Survival Forests und eine Kombination der neuronalen Netzwerkarchitekturen TabNet und DeepSurv als Ansätze des maschinellen Lernens für Überlebenszeitanalysen. Diese werden mit der klassischen Cox-Regression verglichen. Ergebnisse: Bis April 2024 haben vier Krebsregister (Niedersachsen, Schleswig-Holstein, Saarland und Sachsen-Anhalt) Daten geliefert. Die im Projektverlauf entwickelte Datenverarbeitungspipeline erlaubt es, registerübergreifende einheitliche Datenbestände zu erzeugen, welche inhaltlich durch Referenzlistenabgleiche harmonisiert werden. Hierbei werden zudem gezielt Synergieeffekte genutzt, da die Datenverarbeitungspipeline auf dem in den Registern bereits etablierten XML-Format aufbaut, welches für die jährlichen Datenlieferungen an das Zentrum für Krebsregisterdaten am Robert Koch-Institut verbindlich ist. Auf Testdaten zum Lungenkrebs aus dem Krebsregister Schleswig-Holstein haben sich Random Survival Forests und die neuronalen Netzwerkarchitekturen TabNet und DeepSurv als vielversprechende Alternativen zur Cox-Regression erwiesen und zeigen eine ähnlich gute Performance. Schlussfolgerung: Die Beantragung der Daten, die Genehmigung und die anschließende Datenlieferung stellen einen langen, mehrmonatigen Prozess dar. Die Datenverarbeitungspipeline ist ein hilfreicher Baustein in der initialen Datenverarbeitung, die den Auswertenden Arbeit bei der Recodierung und Strukturierung des Gesamtdatensatzes abnimmt. Erste KI-basierte Überlebenszeitanalysen konnten auf vorläufigen Daten erfolgreich getestet werden. Das Projektziel, die Datenqualität, die Datenzusammenführung und wissenschaftliche Nutzung der Krebsregisterdaten zu steigern, scheint erreichbar zu sein. Ob KI-basierte Auswertungsmethoden das klassische Auswertungsspektrum sinnvoll ergänzen, wird weiterhin untersucht.

Projekte

Weitere Links