+++ Please find the English version below. +++
Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) hat am 15. Juli 2024 ein Diskussionspapier zum Verhältnis der Datenschutz-Grundverordnung (DSGVO) auf Large Language Models (LLMs) veröffentlicht. Das Papier stellt den aktuellen Erkenntnisstand beim HmbBfDI zur Frage dar, ob LLMs personenbezogene Daten speichern.
Zweck des Diskussionspapiers ist es, einen Debattenimpuls zu setzen und Unternehmen und Behörden bei der Bewältigung datenschutzrechtlicher Fragestellungen im Zusammenhang mit LLM-Technologien zu unterstützen. Das Papier beinhaltet eine eingehende Erläuterung der technischen Aspekte von LLMs sowie deren Bewertung im Licht der einschlägigen Rechtsprechung des Europäischen Gerichtshofs zum Begriff des personenbezogenen Datums nach der DSGVO. Dabei unterscheidet der HmbBfDI entsprechend der am 2. August 2024 in Kraft tretenden KI-Verordnung zwischen einem LLM als KI-Modell (etwa GPT-4o) sowie als Bestandteil eines KI-Systems (zum Beispiel ChatGPT).
Die wesentlichen Thesen des Papiers lauten:
- Die bloße Speicherung eines LLMs stellt keine Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO dar. Denn in LLMs werden keine personenbezogenen Daten gespeichert. Soweit in einem LLM-gestützten KI-System personenbezogene Daten verarbeitet werden, müssen die Verarbeitungsvorgänge den Anforderungen der DSGVO entsprechen. Dies gilt insbesondere für den Output eines solchen KI-Systems.
- Mangels Speicherung personenbezogener Daten im LLM können die Betroffenenrechte der DSGVO nicht das Modell selbst zum Gegenstand haben. Ansprüche auf Auskunft, Löschung oder Berichtigung können sich jedoch zumindest auf Input und Output eines KI-Systems der verantwortlichen Anbieter:in oder Betreiber:in beziehen.
- Das Training von LLMs mit personenbezogenen Daten muss datenschutzkonform erfolgen. Dabei sind auch die Betroffenenrechte zu beachten. Ein gegebenenfalls datenschutzwidriges Training wirkt sich aber nicht auf die Rechtmäßigkeit des Einsatzes eines solchen Modells in einem KI-System aus.
Auch die Folgen dieser Thesen für die Praxis werden beleuchtet. Die Veröffentlichung dieses Diskussionspapiers will einen Beitrag zur fachlichen Auseinandersetzung mit den aufgeworfenen Fragen leisten.
Lesen Sie hier in voller Länge das Diskussionspapier: Large Language Models und personenbezogene Daten.
+++
Hamburg Theses on Personal Data in Large Language Models
Today the Hamburg Commissioner for Data Protection and Freedom of Information (HmbBfDI) presents a discussion paper examining the applicability of the General Data Protection Regulation (GDPR) to Large Language Models (LLMs). This document reflects our current understanding on whether LLMs store personal data.
This discussion paper aims to stimulate further debate and to support companies and public authorities navigating the intersection of data protection law and LLM technology. It explains relevant technical aspects of LLMs, assesses them in light of case law of the Court of Justice of the European Union in relation to the GDPR term of personal data and highlights practical implications. In doing so, the HmbBfDI distinguishes, in accordance with the AI Act coming into force on August 2, 2024, between an LLM as an AI model (such as GPT-4o) and as a component of an AI system (e.g. ChatGPT).
Principal theses of the paper are:
- The mere storage of an LLM does not constitute processing within the meaning of article 4 (2) GDPR. This is because no personal data is stored in LLMs. Insofar as personal data is processed in an LLM-supported AI system, the processing must comply with the requirements of the GDPR. This applies in particular to the output of such an AI system.
- Given that no personal data is stored in LLMs, data subject rights as defined in the GDPR cannot relate to the model itself. However, claims for access, erasure or rectification can certainly relate to the input and output of an AI system of the responsible provider or deployer.
- The training of LLMs using personal data must comply with data protection regulations. Throughout this process, data subject rights must also be upheld. However, potential violations during the LLMs training phase do not affect the lawfulness of using such a model within an AI system.
This discussion paper is intended to stimulate further dialogue on these important issues.
Read the Discussion Paper: Large Language Models and Personal Data here.