1. Les systèmes d'IA à haut risque qui utilisent des techniques impliquant l'apprentissage de modèles d'IA à l'aide de données sont développés sur la base d'ensembles de données d'apprentissage, de validation et d'essai qui satisfont aux critères de qualité visés aux paragraphes 2 à 5, chaque fois que de tels ensembles de données sont utilisés.
2. Les ensembles de données de formation, de validation et d'essai sont soumis à des pratiques de gouvernance et de gestion des données adaptées à la finalité du système d'IA à haut risque. Ces pratiques concernent en particulier
(a) les choix de conception pertinents ;
(b) les processus de collecte des données et l'origine des données et, dans le cas des données à caractère personnel, l'objectif initial de la collecte des données ;
(c) les opérations de traitement de préparation des données pertinentes, telles que l'annotation, l'étiquetage, le nettoyage, la mise à jour, l'enrichissement et l'agrégation ;
(d) la formulation d'hypothèses, notamment en ce qui concerne les informations que les données sont censées mesurer et représenter ;
(e) une évaluation de la disponibilité, de la quantité et de l'adéquation des ensembles de données nécessaires ;
(f) l'examen en vue d'éventuels biais susceptibles d'affecter la santé et la sécurité des personnes, d'avoir une incidence négative sur les droits fondamentaux ou d'entraîner une discrimination interdite par le droit de l'Union, en particulier lorsque les données de sortie influencent les données d'entrée pour des opérations futures ;
(g) des mesures appropriées pour détecter, prévenir et atténuer les éventuels biais identifiés conformément au point f) ;
(h) l'identification des lacunes ou insuffisances pertinentes en matière de données qui empêchent le respect du présent règlement, et la manière dont ces lacunes et insuffisances peuvent être comblées.
3. Les ensembles de données de formation, de validation et d'essai sont pertinents, suffisamment représentatifs et, dans la mesure du possible, exempts d'erreurs et complets au regard de l'objectif visé. Ils présentent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou les groupes de personnes auxquels le système d'IA à haut risque est destiné à être appliqué. Ces caractéristiques des ensembles de données peuvent être satisfaites au niveau des ensembles de données individuels ou au niveau d'une combinaison d'ensembles de données.
4. Les ensembles de données tiennent compte, dans la mesure requise par la finalité poursuivie, des caractéristiques ou des éléments propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d'IA à haut risque est destiné à être utilisé.
5. Dans la mesure où cela est strictement nécessaire pour assurer la détection et la correction des biais en ce qui concerne les systèmes d'IA à haut risque conformément au paragraphe 2, points f) et g), du présent article, les fournisseurs de ces systèmes peuvent exceptionnellement traiter des catégories particulières de données à caractère personnel, sous réserve de garanties appropriées pour les libertés et droits fondamentaux des personnes physiques. Outre les dispositions prévues par les règlements (UE) 2016/679 et (UE) 2018/1725 et la directive (UE) 2016/680, toutes les conditions suivantes doivent être remplies pour qu'un tel traitement puisse avoir lieu :
(a) la détection et la correction des biais ne peuvent être effectuées efficacement par le traitement d'autres données, y compris des données synthétiques ou anonymes ;
(b) les catégories particulières de données à caractère personnel sont soumises à des limitations techniques concernant la réutilisation des données à caractère personnel, ainsi qu'à des mesures de sécurité et de préservation de la vie privée conformes à l'état de l'art, y compris la pseudonymisation ;
(c) les catégories particulières de données à caractère personnel font l'objet de mesures visant à garantir que les données à caractère personnel traitées sont sécurisées, protégées et soumises à des garanties appropriées, y compris des contrôles stricts et une documentation de l'accès, afin d'éviter toute utilisation abusive et de garantir que seules les personnes autorisées ont accès à ces données à caractère personnel et sont soumises à des obligations de confidentialité appropriées ;
(d) les catégories particulières de données à caractère personnel ne doivent pas être transmises, transférées ou consultées d'une autre manière par d'autres parties ;
(e) les catégories particulières de données à caractère personnel sont supprimées une fois que le biais a été corrigé ou que les données à caractère personnel ont atteint la fin de leur période de conservation, selon ce qui se produit en premier ;
(f) les registres des activités de traitement conformément aux règlements (UE) 2016/679 et (UE) 2018/1725 et à la directive (UE) 2016/680 comprennent les raisons pour lesquelles le traitement de catégories particulières de données à caractère personnel était strictement nécessaire pour détecter et corriger les biais, et pourquoi cet objectif ne pouvait pas être atteint en traitant d'autres données.
6. Pour le développement de systèmes d'IA à haut risque n'utilisant pas de techniques d'apprentissage de modèles d'IA, les paragraphes 2 à 5 s'appliquent uniquement aux ensembles de données d'essai.