17.10.2023

"KI-Flash": Datenschutzrechtliche Anforderungen an das Trainieren einer KI

Nachdem wir in unserem letzten KI-Flash bereits einen Überblick zu den rechtlichen Anforderungen an das Trainieren einer KI aufgezeigt haben, möchten wir Ihnen auch weiterhin in regelmäßigen Abständen rechtliche Impulse mit auf den Weg geben. Da Zeit in der heutigen Gesellschaft ein rares Gut ist, wollen wir mit unseren „KI-Flash“ gleich auf den Punkt kommen und die rechtlichen Herausforderungen kurz und prägnant zusammenfassen:

Heutiges Thema: Datenschutzrechtliche Anforderungen an das Trainieren einer KI

Gerade das Trainieren einer KI-Anwendung steht in einem enormen Spannungsverhältnis zu datenschutzrechtlichen Vorgaben. Beim sog. maschinellen Lernen, also einem Verfahren, mittels welchem eine KI-Anwendung durch das Wiederholen einer bestimmten Aufgabe eigenständig die Lösung eines bestimmten Problems „erlernt“, muss daher eine ganze Fülle an datenschutzrechtlichen Fragen beantwortet werden. Woher nehme ich meine Daten? Darf ich diese überhaupt verarbeiten und welche Schutzmaßnahmen sind an den Tag zu legen?

Aus technischer Sicht benötigt man für das maschinelle Lernen zunächst einen entsprechenden Algorithmus, welcher – im Gegensatz zu „gewöhnlichen“ Programmen – gerade keine klare Vorgehensweise des Systems vorgibt, sondern der KI-Anwendung eine eigenständige Problemlösung ermöglicht. Daneben „verbessert“ sich das KI-System mit steigender Erfahrung und Datenmenge, was gerade als ein maßgeblicher Auslöser der datenschutzrechtlichen Fragestellungen angesehen werden kann.

Strenge datenschutzrechtliche Anforderungen

Bereits eingangs kann festgehalten werden, dass das Trainieren einer KI-Anwendung mit der Qualität sowie Quantität der hierbei eingesetzten Daten „steht und fällt“. Neben der reinen Anzahl der eingesetzten Daten muss insbesondere darauf geachtet werden, dass die jeweiligen Daten inhaltlich richtig und vollständig sind, sodass es nachträglich nicht zu ungewollten Fehlern kommt. Bereits an die Gewinnung und Verwendung von Trainingsdaten wird daher eine Vielzahl an Anforderungen seitens der Datenschutzaufsichtsbehörden aufgestellt. Zusammenfassend muss der gesamte Prozess der sog. Veredelung von Rohdaten hin zu Trainingsdaten dokumentiert und datenschutzrechtlich bewertet werden. Dies betrifft etwa die Menge und Herkunft der Daten sowie eine Spezifizierung des jeweiligen Veredelungsverfahrens, also insbesondere die Standardisierung, die Fehlerbeseitigung sowie das Fehlertestverfahren. Zudem muss bereits in diesem Stadium jegliche unbeabsichtigte Vermengung, Veränderung oder der Abfluss der Daten verhindert werden.

Die Besonderheit beim Trainieren einer KI liegt also insbesondere darin, dass bereits in einem zeitlich sehr frühen Stadium darauf geachtet werden muss, dass sich keine Fehler „einschleichen“, welche nachträglich nur noch kaum zu beheben sind. Soweit die DS-GVO formelle Anforderungen an den Verantwortlichen vorsieht (insbesondere das Durchführen einer Datenschutz-Folgenabschätzung), sollten diese daher bereits sehr frühzeitig umgesetzt werden.

Einsatz von personenbezogenen Daten erforderlich?

Auch wird stets die Frage aufzuwerfen sein, ob der Zweck der jeweiligen Datenverarbeitung auch mit einem „milderen Mittel“ hätte erreicht werden können. Hätten bspw. auch anonymisierte oder synthetische Daten eingesetzt werden können? Zumindest wird zu klären sein, warum ein vorheriges Verfahren zur Pseudonymisierung der eingesetzten Daten ausgeblieben ist. Daneben ist genauestens zu prüfen, ob bei der Veredelung der Rohdaten solche Datensätze ausgeklammert wurden, welche für die Entscheidungsfindung der KI-Anwendung von vornherein irrelevant sind. Sollte beim Trainieren der KI demgegenüber auf personenbezogene Klardaten gesetzt werden (müssen), gelten jedenfalls strenge Anforderungen an die zu ergreifenden Schutzmaßnahmen.

Gründliche Prüfung unerlässlich

In jedem Fall sollte die Herkunft der Daten sowie die Festlegung der Rechtsgrundlage der Datenverarbeitung äußerst gründlich geprüft werden. So ist es regelmäßig nicht möglich, Daten von Geschäftskunden oder aus dem Internet ungeprüft zu übernehmen und diese anschließend zum Trainieren einer KI zu nutzen. Obgleich eine datenschutzrechtliche Rechtsgrundlage nicht von vornherein ausscheidet, muss diese sowie die Einhaltung der Anforderungen an eine sog. Zweckänderung jedenfalls gründlich geprüft und dokumentiert werden

In unserem nächsten KI-Flash soll es um einen Ausblick zu den rechtlichen Anforderungen der europäischen KI-Verordnung gehen.