1. Los sistemas de IA de alto riesgo que hagan uso de técnicas que impliquen el entrenamiento de modelos de IA con datos se desarrollarán sobre la base de conjuntos de datos de entrenamiento, validación y prueba que cumplan los criterios de calidad contemplados en los apartados 2 a 5 siempre que se utilicen dichos conjuntos de datos.
2. Los conjuntos de datos de entrenamiento, validación y ensayo estarán sujetos a prácticas de gobernanza y gestión de datos adecuadas a la finalidad prevista del sistema de IA de alto riesgo. Dichas prácticas se referirán en particular a
(a) las opciones de diseño pertinentes;
(b) los procesos de recogida de datos y el origen de los mismos y, en el caso de los datos personales, la finalidad original de la recogida de datos;
(c) operaciones pertinentes de tratamiento de preparación de datos, como anotación, etiquetado, limpieza, actualización, enriquecimiento y agregación;
(d) la formulación de hipótesis, en particular con respecto a la información que se supone que los datos miden y representan;
(e) una evaluación de la disponibilidad, cantidad e idoneidad de los conjuntos de datos necesarios;
(f) el examen a la vista de posibles sesgos que puedan afectar a la salud y la seguridad de las personas, repercutir negativamente en los derechos fundamentales o dar lugar a discriminaciones prohibidas por el Derecho de la Unión, especialmente cuando los resultados de los datos influyan en los insumos para futuras operaciones;
(g) medidas apropiadas para detectar, prevenir y mitigar los posibles sesgos detectados con arreglo a la letra f);
(h) la identificación de las lagunas o deficiencias de datos pertinentes que impidan el cumplimiento del presente Reglamento, y la forma de subsanar dichas lagunas y deficiencias.
3. Los conjuntos de datos de entrenamiento, validación y ensayo serán pertinentes, suficientemente representativos y, en la medida de lo posible, estarán exentos de errores y serán completos con vistas a la finalidad prevista. Tendrán las propiedades estadísticas adecuadas, incluso, en su caso, en lo que se refiere a las personas o grupos de personas en relación con los cuales está previsto utilizar el sistema de IA de alto riesgo. Estas características de los conjuntos de datos podrán cumplirse a nivel de conjuntos de datos individuales o a nivel de una combinación de los mismos.
4. Los conjuntos de datos tendrán en cuenta, en la medida en que lo exija la finalidad perseguida, las características o elementos propios del entorno geográfico, contextual, conductual o funcional específico en el que esté previsto utilizar el sistema de IA de alto riesgo.
5. En la medida en que sea estrictamente necesario para garantizar la detección y corrección de sesgos en relación con los sistemas de IA de alto riesgo de conformidad con el apartado 2, letras f) y g), del presente artículo, los proveedores de dichos sistemas podrán tratar excepcionalmente categorías especiales de datos personales, con sujeción a las garantías adecuadas para los derechos y libertades fundamentales de las personas físicas. Además de las disposiciones establecidas en los Reglamentos (UE) 2016/679 y (UE) 2018/1725 y en la Directiva (UE) 2016/680, deben cumplirse todas las condiciones siguientes para que se produzca dicho tratamiento:
(a) la detección y corrección de sesgos no puede realizarse eficazmente mediante el tratamiento de otros datos, incluidos los datos sintéticos o anonimizados;
(b) las categorías especiales de datos personales estén sujetas a limitaciones técnicas en cuanto a la reutilización de los datos personales, y a medidas de seguridad y de preservación de la intimidad de última generación, incluida la seudonimización;
(c) las categorías especiales de datos personales estén sujetas a medidas que garanticen que los datos personales tratados estén seguros, protegidos, sujetos a las salvaguardias adecuadas, incluidos controles estrictos y documentación del acceso, para evitar usos indebidos y garantizar que sólo las personas autorizadas tengan acceso a dichos datos personales con las obligaciones de confidencialidad adecuadas;
(d) las categorías especiales de datos personales no deben ser transmitidas, transferidas o accesibles de otro modo a otras partes;
(e) las categorías especiales de datos personales se supriman una vez que se haya corregido el sesgo o los datos personales hayan llegado al final de su período de conservación, lo que ocurra primero;
(f) los registros de las actividades de tratamiento de conformidad con los Reglamentos (UE) 2016/679 y (UE) 2018/1725 y la Directiva (UE) 2016/680 incluyen las razones por las que el tratamiento de categorías especiales de datos personales era estrictamente necesario para detectar y corregir sesgos, y por qué ese objetivo no podía alcanzarse mediante el tratamiento de otros datos.
6. Para el desarrollo de sistemas de IA de alto riesgo que no utilicen técnicas que impliquen el entrenamiento de modelos de IA, los apartados 2 a 5 se aplicarán únicamente a los conjuntos de datos de prueba.