1. KI-Systeme mit hohem Risiko, die Techniken verwenden, bei denen KI-Modelle mit Daten trainiert werden, werden auf der Grundlage von Trainings-, Validierungs- und Testdatensätzen entwickelt, die die in den Absätzen 2 bis 5 genannten Qualitätskriterien erfüllen, wenn solche Datensätze verwendet werden.
2. Für die Trainings-, Validierungs- und Testdatensätze gelten Datenverwaltungs- und -managementpraktiken, die für den beabsichtigten Zweck des Hochrisiko-KI-Systems geeignet sind. Diese Praktiken betreffen insbesondere Folgendes:
(a) die relevanten Designentscheidungen;
(b) die Verfahren zur Datenerhebung und die Herkunft der Daten sowie im Falle personenbezogener Daten den ursprünglichen Zweck der Datenerhebung;
(c) relevante Datenaufbereitungsvorgänge wie Annotation, Kennzeichnung, Bereinigung, Aktualisierung, Anreicherung und Aggregation;
(d) die Formulierung von Annahmen, insbesondere in Bezug auf die Informationen, die die Daten messen und darstellen sollen;
(e) eine Bewertung der Verfügbarkeit, der Menge und der Eignung der benötigten Datensätze;
(f) Prüfung im Hinblick auf mögliche Verzerrungen, die die Gesundheit und Sicherheit von Personen beeinträchtigen, negative Auswirkungen auf die Grundrechte haben oder zu einer nach dem Unionsrecht verbotenen Diskriminierung führen können, insbesondere wenn die Daten-Outputs die Inputs für künftige Maßnahmen beeinflussen;
(g) geeignete Maßnahmen zur Aufdeckung, Verhinderung und Abschwächung möglicher Verzerrungen gemäß Buchstabe f);
(h) die Ermittlung relevanter Datenlücken oder -mängel, die der Einhaltung dieser Verordnung entgegenstehen, und wie diese Lücken und Mängel behoben werden können.
3. Die Trainings-, Validierungs- und Testdatensätze müssen relevant, hinreichend repräsentativ und im Hinblick auf den beabsichtigten Zweck so weit wie möglich fehlerfrei und vollständig sein. Sie müssen die geeigneten statistischen Eigenschaften aufweisen, gegebenenfalls auch in Bezug auf die Personen oder Personengruppen, für die das AI-System für hohe Risiken eingesetzt werden soll. Diese Merkmale der Datensätze können auf der Ebene der einzelnen Datensätze oder auf der Ebene einer Kombination von Datensätzen erfüllt sein.
4. (4) Die Datensätze berücksichtigen in dem für den beabsichtigten Zweck erforderlichen Maße die Merkmale oder Elemente, die für das spezifische geografische, kontextuelle, verhaltensbezogene oder funktionale Umfeld, in dem das AI-System für hohe Risiken eingesetzt werden soll, von Bedeutung sind.
5. Soweit dies unbedingt erforderlich ist, um die Aufdeckung und Korrektur von Verzerrungen im Zusammenhang mit den KI-Systemen mit hohem Risiko gemäß Absatz 2 Buchstaben f und g dieses Artikels zu gewährleisten, können die Anbieter solcher Systeme ausnahmsweise besondere Kategorien personenbezogener Daten verarbeiten, sofern angemessene Garantien für die Grundrechte und Grundfreiheiten natürlicher Personen bestehen. Zusätzlich zu den Bestimmungen der Verordnungen (EU) 2016/679 und (EU) 2018/1725 und der Richtlinie (EU) 2016/680 müssen alle folgenden Bedingungen erfüllt sein, damit eine solche Verarbeitung stattfinden kann:
(a) Die Aufdeckung und Korrektur von Verzerrungen kann nicht wirksam durch die Verarbeitung anderer Daten, einschließlich synthetischer oder anonymisierter Daten, erfolgen;
(b) die besonderen Kategorien personenbezogener Daten unterliegen technischen Beschränkungen der Weiterverwendung der personenbezogenen Daten und dem Stand der Technik entsprechenden Sicherheits- und Datenschutzmaßnahmen, einschließlich Pseudonymisierung;
(c) die besonderen Kategorien personenbezogener Daten Gegenstand von Maßnahmen sind, die gewährleisten, dass die verarbeiteten personenbezogenen Daten gesichert und geschützt sind und geeigneten Garantien unterliegen, einschließlich strenger Kontrollen und Dokumentation des Zugangs, um Missbrauch zu vermeiden und sicherzustellen, dass nur befugte Personen mit angemessenen Vertraulichkeitsverpflichtungen Zugang zu diesen personenbezogenen Daten haben;
(d) die besonderen Kategorien personenbezogener Daten dürfen nicht an andere Parteien übermittelt, weitergegeben oder anderweitig zugänglich gemacht werden;
(e) die besonderen Kategorien personenbezogener Daten werden gelöscht, sobald die Verzerrung behoben ist oder die Aufbewahrungsfrist der personenbezogenen Daten abgelaufen ist, je nachdem, was zuerst eintritt;
(f) die Aufzeichnungen von Verarbeitungstätigkeiten gemäß den Verordnungen (EU) 2016/679 und (EU) 2018/1725 sowie der Richtlinie (EU) 2016/680 die Gründe enthalten, warum die Verarbeitung besonderer Kategorien personenbezogener Daten unbedingt erforderlich war, um Verzerrungen aufzudecken und zu korrigieren, und warum dieses Ziel nicht durch die Verarbeitung anderer Daten erreicht werden konnte.
6. Bei der Entwicklung von KI-Systemen mit hohem Risiko, die keine Techniken für das Training von KI-Modellen verwenden, gelten die Absätze 2 bis 5 nur für die Testdatensätze.