Datenanforderungen gemäß dem EU AI Act

Herausforderungen für Anbieter von KI-Systemen

Art. 10 schreibt vor, dass Daten, die für Training, Validierung und Tests verwendet werden, bestimmte Anforderungen erfüllen müssen. Sie müssen:

relevant, repräsentativ, fehlerfrei und vollständig sein,
statistisch fundiert und für den vorgesehenen Zweck geeignet sein,
mit einer Dokumentation der Erhebungsmethoden, Annahmen und Vorverarbeitungsschritte einhergehen und
auf möglichen Bias und Lücken hin überprüft werden, wobei Strategien zu deren Minderung vorhanden sein müssen.

Diese Bestimmungen gelten für alle Hoch-Risiko KI-Systeme.

Anhang IV ergänzt die Bestimmungen von Art. 10, indem er detailliert aufführt, was von den Betreibern risikoreicher KI-Systeme dokumentiert werden muss:

Beschreibungen der Datensätze, einschließlich Herkunft, Umfang und Merkmale
Verfahren zur Datenkennzeichnung und -bereinigung
Versionierung und Rückverfolgbarkeit über den gesamten Datenlebenszyklus hinweg

Die Bias-Minderung ist ein Eckpfeiler des AI Acts. Entwickler müssen proaktiv Bias identifizieren und beheben, die zu falschen Ergebnissen des KI-Systems führen könnten. Dazu gehören:

Verwendung vielfältiger und repräsentativer Datensätze
Anwendung fairer Algorithmen und Validierungsmetriken
Dokumentation von Techniken zur Erkennung und Minderung von Verzerrungen

Dies steht im Einklang mit einer Reihe von Normen, darunter ISO/IEC 5259 (Datenqualität für KI) und ISO/IEC 8183 (AI Data Lifecycle), welche die operativen Leitlinien für die Umsetzung einer robusten Datenverwaltung enthalten.

Im Rahmen des AI Acts sind die zu harmonisierenden Normen prEN 18284 (Quality and governance of datasets in AI) und prEN 18283 (Concepts, measures and requirements for managing bias in AI systems) die erste Wahl, um die Konformität zu erreichen. Zur Unterstützung sollte außerdem die Technische Spezifikation EN ISO/IEC TS 12791 (Treatment of unwanted bias in classification and regression machine learning tasks) herangezogen werden.

Der Datenmanagementprozess ist der Schlüssel zur Einhaltung des AI Acts

Der Datenmanagementprozess im Qualitätsmanagementsystem des KI-Systemanbieters sollte die folgenden Schritte umfassen:

Spezifizierung der Datenanforderungen,
Planung des Datenmanagements,
Datenerfassung,
Datenaufbereitung,
Datenbereitstellung und
Datenstilllegung.

Die Anforderungsspezifikation und die Managementplanung erfolgen in der Regel im Rahmen des KI-Modell-Entwicklungsprozesses. Der Datenmanagementbericht dient als zentraler Nachweis für die Einhaltung der Vorschriften.

Überwachung nach der Markteinführung und Risikomanagement

Der AI Act verlangt eine kontinuierliche Überwachung der eingesetzten Systeme, um Leistungsabfälle oder Datenabweichungen zu erkennen. Dies ist besonders wichtig für adaptive Systeme, die sich im Laufe der Zeit weiterentwickeln. Zu den wichtigsten Praktiken gehören:

Protokollierung von Ein- und Ausgängen zur Rückverfolgbarkeit
Überwachung von Vorhersageabweichungen und Auslösen von Nachschulungen oder Aktualisierungen
Verwendung vorab festgelegter Änderungskontrollpläne (PCCPs) für Systeme, die nach der Bereitstellung lernen

Das Risikomanagement muss auch datenspezifische Gefahren wie Poisoning, Verteilungsverschiebungen und feindliche Manipulationen berücksichtigen.

Datenschutz

Wenn personenbezogene Daten betroffen sind, überschneidet sich der AI Act mit der EU-DSGVO. Entwickler müssen:

Beurteilen, ob Daten auch indirekt mit Personen in Verbindung gebracht werden können
Die Grundsätze der Datenminimierung, Zweckbindung und Fairness anwenden
Die Rechtmäßigkeit der Verarbeitung sicherstellen und Techniken zum Schutz der Privatsphäre implementieren

Diese doppelte Compliance-Herausforderung unterstreicht die Notwendigkeit einer funktionsübergreifenden Zusammenarbeit zwischen KI-Ingenieuren, Rechtsexperten und Datenschutzbeauftragten.

Datenzugriff durch Benannte Stellen

Der Zugriff auf Anbieterdaten durch Benannte Stellen (Art. 43) stellt eine heikle Schnittstelle zur Einhaltung der DSGVO dar.

Um die Konformität von KI-Systemen mit hohem Risiko zu überprüfen, benötigen Benannte Stellen möglicherweise Zugriff auf Trainings-, Validierungs- und Testdatensätze, die personenbezogene oder pseudonymisierte Daten enthalten können. Anbieter müssen sicherstellen, dass eine solche Datenweitergabe ausdrücklich durch eine Rechtsgrundlage abgedeckt ist und dass Schutzmaßnahmen wie Anonymisierung, vertragliche Kontrollen und Prüfpfade vorhanden sind. Ohne diese Maßnahmen könnte das Risiko eines unbefugten Datenzugriffs oder einer sekundären Nutzung sowohl das Vertrauen in die Regulierung als auch die Rechte der betroffenen Personen untergraben.

Zusätzliche Überlegungen zum Datenmanagement

Der AI Act bietet zwar eine solide Grundlage, doch verdienen die folgenden kritischen Aspekte zusätzliche Aufmerksamkeit:

Synthetische Daten: Synthetische Daten werden zunehmend zur Ergänzung oder Ersetzung realer Datensätze verwendet und müssen ebenfalls hinsichtlich Qualität, Verzerrung und Repräsentativität bewertet werden.
Datenaufbereitung: Die Rolle von Fachexperten bei der Kennzeichnung, Validierung und Interpretation von Daten bleibt unersetzlich. Menschliche Überwachungsprozesse verbessern die Qualität und Verantwortlichkeit.

Fazit

Der AI Act setzt einen Standard für die Datenverwaltung bei Hoch-Risiko KI-Systemen. Durch die Übernahme seiner Anforderungen und die Integration neuer Standards können Entwickler Systeme aufbauen, die nicht nur konform, sondern auch widerstandsfähig, ethisch und zukunftssicher sind. Daten sind nicht mehr nur ein technischer Wert, sondern auch ein regulatorischer Eckpfeiler und ein Wettbewerbsvorteil.