Machine Deep Learning-Algorithmen, Künstliche Intelligenz
WrightStudio / stock.adobe.com
25.11.2020 Fachinformation

Künstliche Intelligenz (KI) und Medizinprodukte: Technologie und Zulassung

Beruhen Software-Medizinprodukte auf künstlicher Intelligenz (KI), gelten besondere Anforderungen an deren Zulassung.

Kontakt
Dr. Thorsten Prinz

Software-Medizinprodukte, die auf künstliche Intelligenz (KI) Technologien beruhen, erleben nach wie vor einen großen Hype. Typische Anwendungsgebiete sind die Radiologie, Kardiologie, Endokrinologie und Onkologie. Seit 2014 wurden mehr als 40 KI-basierte Produkte durch die Food and Drug Administration (FDA) für den US-Markt zugelassen. Auch in Europa wurden unter der noch geltenden Richtlinie 93/42/EWG für Medizinprodukte mehrere dieser Produkte in Verkehr gebracht.

KI-Medizinprodukte stellen als lernende Software nach wie vor regulatorisches Neuland dar. Gegenwärtig werden KI-Algorithmen aus regulatorischen Gründen “eingefroren”, um medizinische Anwendungen zulassen zu können. Damit geht ein wesentlicher Vorteil der KI verloren. Dieser Fachbeitrag erläutert den aktuellen Stand bei der Zulassung medizinischer KI-Technologien anhand zweier Beispiele aus der Praxis.

Technologische Grundlagen

Für die Betrachtung der regulatorischen Anforderungen für KI-basierte Medizinprodukte ist es wichtig, die grundlegende Funktionsweise und insbesondere die Unterschiede zu klassischen Software-Produkten zu betrachten.

Das Maschinelle Lernen (machine learning, ML) als Teilgebiet der KI findet eine große Anwendung in der Medizin. ML lässt sich im Wesentlichen in zwei Gruppen unterteilen, nämlich das überwachte (supervised) und das unüberwachte Lernen (unsupervised learning).

Beim überwachten Lernen werden für das Training bekannte Input-Output-Paare, d. h. Trainingsbeispiele mit Kennzeichnungen (labels), verwendet. Eine typische Anwendung ist die Klassifizierung von Daten, d. h. die Einteilung in Gruppen wie gesund und krank. Das unüberwachte Lernen hingegen berücksichtigt nur Input-Fälle zur Identifizierung von Mustern, z. B. beim Clustern von Patienten. Sowohl beim überwachten und unüberwachten Lernen werden neuronale Netze eingesetzt, die aus mehreren Schichten von Neuronen bestehen, ähnlich wie beim menschlichen Nervensystem.

Die Ergebnisse der einen Schicht werden als Eingabe für die folgende Schicht verwendet. Tiefes Lernen (deep learning) bezeichnet eine Form des ML, bei der eine besonders große Anzahl von Neuronenschichten zum Einsatz kommt und die vor allem beim überwachten Lernen eingesetzt wird. Eine weitere bekannte Untergruppe stellt das teilüberwachte Lernen (semi-supervised learning) dar, bei dem das Feedback aus dem Umfeld die Trainingsdaten sind. Es wird beispielsweise bei der Entwicklung von Arzneimitteln eingesetzt.

Bei der klassischen Software-Produkten steht die Code-Entwicklung im Mittelpunkt, die in der Veröffentlichung (Inbetriebnahme) des laufenden Systems mündet. Auch bei KI/ML-basierten Produkten steht am Anfang die Code-Entwicklung zum Beispiel in der Programmiersprache Python unter Verwendung der Open-Source-Bibliothek PyTorch. Vor der Veröffentlichung findet in einem Zwischenschritt das Training des KI/ML-Modells mit Daten statt.

Das Training lässt sich in die folgenden Phasen einteilen:

  • Datensammlung und -vorbereitung: Rohdaten werden in bereinigte Datensätze überführt, um mit fehlenden, verrauschten und inkonsistenten Daten umzugehen. Außerdem werden die Datensätze in einen Test- und einen Trainings- sowie Tuning-Datensatz aufgeteilt.
  • Modelltraining und -tuning: Mit den Trainingsdaten werden die Modellparameter zunächst iterativ angepasst bis der Output des Modells optimal zu den Daten passt. Unter Verwendung des Tuning-Datensatzes wird dann die Feineinstellung der Modellparameter vorgenommen.
  • Modell-Evaluierung/Validierung: Hier wird der Test-Datensatz verwendet, um die korrekte Funktion des Modells vor dem Einsatz im Markt zu überprüfen. Der Test-Datensatz darf nicht mit dem Trainings- oder Tuning-Datensatz identisch sein.

Nach der Veröffentlichung wird das laufende System im Sinne eines kontinuierlichen Lernens in der Regel weiter trainiert. Ausnahmen hiervor können in regulatorischen Anforderungen begründet sein.

Zugang zu den regulierten Märkten in den USA und Europa

Wie bereits erwähnt, hat die FDA schon eine größere Anzahl KI/ML-basierter Anwendungen für den US-Markt zugelassen. Gerade am Anfang existierten keine Vorgängerprodukte für das vereinfachte 510(k)-Zulassungsverfahren, so dass Hersteller oftmals zur Vermeidung der Einteilung in die höchste Risikoklasse das De Novo Verfahren beantragten. In der Konsequenz wurden die meisten Produkte der zweithöchsten Risikoklasse II zugeordnet, so auch die unten diskutierten Produktbeispiele.

Außerdem wurde einigen Anwendungen der Status „Breakthrough Device“ zuerkannt, wodurch dem Hersteller eine intensive Interaktion und Unterstützung durch die FDA zu Teil wurde. Es muss darauf hingewiesen werden, dass alle bisher in den USA zugelassenen KI/ML-basierten Anwendungen nur mit einem „eingefrorenen“ Algorithmus zugelassen wurden, d. h. ohne die ansonsten intrinsische Eigenschaft des kontinuierlichen Lernens.

Unter dem noch geltenden Rechtsrahmen der EU-Richtlinie 93/42/EWG wurden in Europa KI/ML-basierter Anwendungen oftmals der dritthöchsten Risikoklasse IIa zugeordnet. Als Konformitätsbewertungsverfahren wählten die Hersteller i.d.R. das „Vollständige Qualitätssicherungssystem“ gemäß Anhang II aus. Das gilt auch für die nachstehenden Beispiele.

Praxisbeispiele für Künstliche Intelligenz in der Medizin

Exemplarisch werden im Folgenden zwei bereits im US-Markt befindliche AI/ML-basierte Produkte betrachtet.

IDx-DR für Diagnose einer Netzhauterkrankung bei Diabetespatienten

Beim ersten Beispiel handelt es sich um das Produkt „IDx-DR“ der Fa. IDx Technologies Inc.. Es handelt sich um einem Deep Learning Algorithmus, der automatisch die Augenerkrankung Retinopathie bei Diabetespatienten erkennt. IDx-DR benötigt für die Bedienung keinen Augenarzt und ermöglicht dadurch den Patienten gerade auch im ländlichen Raum einen leichteren Zugang zu Netzhautuntersuchungen. Der Anwender erhält lediglich eine 4-stündige Schulung zur Bedienung der Netzhautkamera.

Die erfassten Netzhaut-Bilder werden an einen Server mit der IDx-DR-Software gesendet. Nach einer Qualitätskontrolle erhält der Benutzer ein Feedback, ob es sich beim Patienten um eine mehr als milde Form der Retinopathie handelt. Wurde diese nicht diagnostiziert, wird in 12 Monaten ein neues Screening durchgeführt.

Im Falle einer positiven Diagnose empfiehlt die Software die sofortige Überweisung des Patienten an einen Augenarzt zur weiteren diagnostischen Beurteilung und Behandlung. Zur Generierung klinischer Daten wurde in den USA eine Studie mit 900 Probanden an 10 Standorten durchgeführt. Dieses System funktioniert also völlig autonom und stellt damit ein besonders hohes Risiko für Patienten dar.

ContaCT für Analysen von Angio-CT-Bilder des Gehirns im klinischen Umfeld

Das zweite Beispiel ist die Anwendung ContaCT, welche Angio-CT-Bilder des Gehirns im klinischen Umfeld analysiert.

ContaCT sendet eine Benachrichtigung an einen Facharzt, wenn ein potenzieller Verschluss eines großen Gefäßes identifiziert wurde und empfiehlt die Überprüfung dieser Bilder. ContaCT stellt also im Gegensatz zum vorher beschriebenen IDx-DR keine eigenständigen Diagnosen, sondern unterstützt die Triage parallel zum Standard-Behandlungsablauf in der Klinik und dies mit einem wesentlich kürzeren Zeitbedarf.

Regulatorische Überlegungen für KI/ML-basierte Anwendungen während des Lebenszyklus
Neben dem Risikomanagement gemäß ISO 14971 sind die software-spezifischen Normen IEC 62304 und 82304-1 mit den darin geforderten Prozessen auch für KI/ML-basierte Anwendungen in der Medizin einschlägig.

Normanforderungen für KI-Produkte in der Medizin
VDE

Die Bewertung des Modells muss anhand aussagekräftiger abstrakter Messgrößen (z.B. AUROC-Kurve) und Kennzahlen zum klinischen Nutzen (z.B. Verbesserung des klinischen Arbeitsablaufs) durchgeführt werden. Die datengetriebene Entwicklung erfordert eine sorgfältige Planung der Datensammlung vor allem in Hinsicht auf die Menge und die Qualität der Daten.

Aus Sicht der Anwender und der zuständigen Überwachungsorganisationen funktionieren KI/ML-basierte Anwendungen wie eine Black Box mit einer fehlenden Erklärbarkeit und Interpretierbarkeit. Dem kann durch eine umfangreiche Dokumentation der Trainingsdaten-Charakteristika und der Modellparameter zumindest teilweise entgegengewirkt werden.

Wie bei der klassischen Software wird die Entwicklung kontinuierlich von Tests der Softwareeinheiten und Integrationstests begleitet und auch die Marktphase unterliegt der Überwachung. Die Komplexität der KI/ML-Modelle mit ihrer sehr hohen Zahl von Parametern erfordert zusätzlich das Testen der Infrastruktur, des Modells und der Daten sowie das Monitoring der durch das Modell gemachten Vorhersagen.

Neben den typischen Softwarerisiken wie falsch-positive oder falsch-negative Ergebnisse sowie Benutzer-Fehler müssen im Rahmen des Risikomanagements besonders die unzureichende Datenqualität und spezielle Bedrohungen im Bereich der Informationssicherheit (z.B. adversarial attacks) in den Fokus genommen werden.

Ziel der Validierung

Ziel der anschließenden Validierung ist es, die korrekte Leistung des Modells inklusive der Generalisierbarkeit zu prüfen, z.B. hinsichtlich der Nutzung in verschiedenen klinischen Umgebungen. Die obligatorische klinische Bewertung sollte neben der Sicherheit und Leistung des Produktes auch die Bewertung der Auswirkungen auf die klinische Praxis im Auge haben. Dazu sind i.d.R. klinische Studien nötig, die in der Vergangenheit öfter eine hohe Qualität vermissen ließen.

Die Bereitstellung der AI/ML-Anwendung beim Anwender sollte ebenfalls geplant verlaufen. Dazu gehören u.a. zunächst Tests im silent mode vor dem Routinebetrieb zur Identifizierung potenziell noch vorhandener Fehler und umfangreiche Anwenderschulungen inkl. der Benennung verbleibender Restrisiken. Im Routinebetrieb durchgeführte Wartungen, z.B. Training mit neuen Daten, müssen gemäß einem Prozess erfolgen, der den Anlass, die Häufigkeit, die Art und Weise und die Grenzen festlegt und dokumentiert. Begleitende Tests müssen erneut die Sicherheit und Leistung des gewarteten Produktes nachweisen.

Wie bei jedem Medizinprodukt endet der Lebenszyklus mit der geplanten Außerbetriebnahme. Hierbei sind Themen wie die Betrachtung der damit einhergehenden Risiken für die Patientenversorgung, die rechtzeitige Information der Anwender und die Aufbewahrung aller Produkt-Daten ausreichend zu berücksichtigen.

Ausblick

Die FDA hat 2019 in einem Diskussionspapier einen neuen regulatorischen Rahmen für AI/ML-basierte Software als Medizinprodukt vorgeschlagen, um damit zukünftig auch kontinuierlich lernende Anwendungen unter bestimmten Voraussetzungen den Marktzugang zu ermöglichen.

Darin schlägt die FDA ein umfassendes Qualitätsmanagementsystem auf der Basis eines Good Machine Learning Practices Leitfadens vor. Außerdem sollen Hersteller vor dem Marktzugang Parameter vorschlagen, innerhalb derer sie zukünftig Änderungen an ihrem Modell vornehmen wollen sowie ein Testprotokoll zur Validierung dieser Änderungen. Diese Art der Herangehensweise ist in Europa sicher kaum realisierbar, aber dennoch wird ein Good Machine Learning Practices Leitfaden mit praxisnahen Beispielen zur Umsetzung der regulatorischen Anforderungen sicher ein Gewinn für alle sein.

_______________________________________________________________________________________

Dieser Fachbeitrag ist im Jahrbuch 2020/2021 “Die deutsche Medizintechnik-Industrie” von SPECTARIS erschienen.

Anmeldung zum Newsletter

Hand eines Arztes mit modernem PC-Interface
everythingpossible / Fotolia
15.08.2023

Aktuelle Infos zu unseren Fachbeiträgen und Fachveranstaltungen zur Zulassung von Medizinprodukten und Software.

Jetzt registrieren!