El dato es el
núcleo de la
gobernanza de IA
Un sistema de IA es tan bueno o tan peligroso como los datos con los que opera. Sin gobierno del dato, la gobernanza de IA es un castillo en el aire.
La IA aprende de datos. Los datos tienen problemas.
Datos con sesgos → IA discriminatoria
Si los datos históricos reflejan discriminación, la IA la aprende y la amplifica. Amazon discriminó mujeres porque sus datos de contratación históricos eran masculinos.
Datos de mala calidad → decisiones incorrectas
Datos incompletos, duplicados o mal estructurados producen predicciones erróneas. Una IA médica con datos sucios puede dar diagnósticos incorrectos.
Datos sin trazabilidad → imposible auditar
Si no sabes de dónde vienen los datos que usa tu IA, no puedes cumplir el AI Act ni el RGPD. Y si hay un incidente, no puedes investigarlo.
Lo que necesita tener bajo control
Qué exige el reglamento sobre los datos
Para sistemas de alto riesgo
Los datos de entrenamiento, validación y prueba deben: ser relevantes para la finalidad, representativos de la población afectada, libres de errores significativos, y completos para el uso previsto. Además deben estar documentados.
Excepción para detectar sesgos
El AI Act permite usar datos de categorías especiales (origen étnico, género, salud) específicamente para detectar y corregir sesgos en los sistemas. Es una de las pocas excepciones al RGPD que el AI Act introduce.
Trazabilidad de las decisiones
Los sistemas de alto riesgo deben registrar qué datos de entrada usaron para cada decisión. Sin logs de datos no hay auditoría posible.
Derecho a explicación
Cuando una IA toma decisiones automatizadas sobre personas, estas tienen derecho a explicación y a intervención humana. Eso requiere tener los datos trazados.
Un dato de mala calidad
produce una IA de mala calidad
La calidad del dato es el primer control que debe existir antes de entrenar o usar cualquier sistema de IA.
Qué significa
Un dato es exacto cuando refleja correctamente el estado real del mundo. Un error de exactitud es cuando el dato dice una cosa y la realidad es otra.
Ejemplos de problemas de exactitud en IA
- Un sistema de crédito con ingresos de clientes incorrectos da puntuaciones erróneas.
- Un sistema de RRHH con niveles de estudios mal registrados filtra candidatos cualificados.
- Una IA médica con diagnósticos históricos incorrectos aprende patrones equivocados.
Proceso de validación de datos en la entrada: verificar que los valores están dentro de rangos plausibles, cruzar con fuentes externas cuando sea posible, y establecer alertas cuando aparecen valores anómalos.
Qué significa
Un dataset es completo cuando contiene todos los registros y campos necesarios para el propósito del sistema de IA. Los datos faltantes son especialmente peligrosos porque la IA no sabe lo que no sabe.
Cómo afecta a los sistemas de IA
- Datos faltantes de ciertos grupos → la IA no los representa bien → discriminación estructural.
- Campos vacíos → la IA los imputa o ignora → predicciones sesgadas.
- Historial incompleto → la IA no puede aprender patrones temporales.
El dataset de contratación histórica tenía muy pocos registros de mujeres en roles técnicos. La IA aprendió que los roles técnicos eran masculinos. La incompletitud del dataset fue el origen del sesgo discriminatorio.
Analizar el porcentaje de valores nulos por columna antes del entrenamiento. Definir umbrales máximos de datos faltantes aceptables. Documentar cómo se tratan los valores ausentes (imputación, exclusión, etc.).
Qué significa
Los datos son consistentes cuando los mismos hechos se representan de la misma forma en diferentes sistemas o momentos del tiempo. La inconsistencia es uno de los problemas más comunes en empresas con múltiples sistemas.
Ejemplos típicos
- El CRM registra "España" pero la facturación registra "ES" → el sistema de IA no sabe que son lo mismo.
- Fechas en distintos formatos (DD/MM/AAAA vs MM/DD/AAAA) → errores de cálculo de antigüedad.
- El mismo cliente con ID diferente en dos sistemas → duplicados que confunden al modelo.
Estandarización de catálogos antes del entrenamiento. Diccionario de datos que defina los valores válidos para cada campo. Proceso de normalización (ETL) documentado y auditado.
El problema del data drift
El mundo cambia y los datos de ayer no representan la realidad de hoy. Un modelo entrenado con datos de 2019 no sabe nada sobre el comportamiento post-pandemia. Esto se llama data drift o concept drift.
- Un modelo de crédito entrenado antes de una crisis económica tiene un perfil de riesgo obsoleto.
- Un sistema de recomendación de productos sin actualización recomienda artículos descatalogados.
- Un modelo de detección de fraude entrenado con patrones viejos no detecta fraudes nuevos.
Monitorización continua del rendimiento del modelo. Alertas cuando la distribución de los datos de entrada cambia significativamente. Plan de re-entrenamiento periódico documentado.
Qué significa
Un dato es relevante cuando contribuye de forma legítima y útil al propósito del sistema de IA. Usar datos irrelevantes o proxy de variables protegidas es uno de los orígenes más comunes de discriminación algorítmica.
Usar el código postal como variable predictiva en un modelo de crédito puede ser un proxy de origen étnico (correlación con zonas de mayor concentración de minorías). El dato parece neutro pero no lo es.
Análisis de correlación entre variables de entrada y variables protegidas (género, origen, edad). Eliminar o controlar las variables que actúen como proxy. Documentar la justificación de cada variable usada en el modelo.
Qué significa
Los duplicados en los datos de entrenamiento hacen que el modelo sobreponderen ciertos ejemplos, distorsionando el aprendizaje. Un cliente que aparece 10 veces influye 10 veces más en el modelo que uno que aparece una vez.
- Deduplicación de registros antes del entrenamiento.
- Definición clara de qué es un registro único (clave primaria del dataset).
- Auditoría periódica de registros duplicados en los sistemas fuente.
Requerimiento del AI Act (Art. 10): Para sistemas de alto riesgo, las prácticas de gestión de datos deben estar documentadas. Esto incluye: qué datos se usan, de dónde vienen, cómo se limpian, qué transformaciones se aplican y cómo se evalúa su calidad antes del entrenamiento.
Cómo la IA aprende
a discriminar
El sesgo no es un fallo técnico — es un reflejo de las desigualdades en los datos. Entenderlo es fundamental para la gobernanza.
La IA aprende discriminación del pasado
Los datos históricos reflejan decisiones humanas que pueden haber sido discriminatorias. Si entrenamos una IA con esas decisiones, aprende a replicarlas.
Los datos de contratación histórica reflejaban la preferencia histórica por hombres en roles técnicos. La IA la reprodujo automáticamente.
Algunos grupos están infrarrepresentados
Si un grupo minoritario aparece poco en los datos de entrenamiento, el modelo no lo conoce bien y comete más errores con ese grupo.
Los sistemas de reconocimiento facial entrenados mayoritariamente con caras de personas blancas tienen tasas de error más altas con personas de piel oscura.
El proxy mide algo distinto a lo que cree
Usamos una variable como proxy de otra que no podemos medir directamente, pero el proxy está correlacionado con variables protegidas.
Usar el código postal como proxy de riesgo crediticio puede discriminar por origen étnico si la distribución geográfica está correlacionada con la composición étnica.
El modelo refuerza sus propios errores
Cuando el modelo influye en los datos que generará el futuro, sus predicciones se convierten en profecías autocumplidas.
Un sistema policial predice más delitos en ciertos barrios → más patrullaje → más detenciones → más datos confirmando la predicción → ciclo que se refuerza.
El proceso mínimo
Antes de entrenar, identificar qué variables protegidas son relevantes en el contexto: género, edad, origen étnico, discapacidad. Esto determina qué sesgos buscar.
¿Qué porcentaje de los datos corresponde a cada grupo? Si un grupo tiene menos del 10-15% de los registros, el modelo puede tener problemas de representación.
El modelo puede tener buena precisión global pero errores sistemáticos en grupos concretos. Comparar métricas de rendimiento por grupo es la única forma de detectarlo.
Verificar si las variables de entrada están correlacionadas con variables protegidas. Una correlación alta indica riesgo de proxy discriminatorio.
El AI Act exige documentación. Aunque no se puedan eliminar todos los sesgos, documentar los identificados y las medidas de mitigación es evidencia de diligencia.
El sesgo puede emerger después del despliegue por cambios en la distribución de los datos reales. La monitorización continua es la única forma de detectarlo a tiempo.
Lo que permite el AI Act expresamente: El Art. 10(5) permite usar datos de categorías especiales (origen étnico, género, salud, orientación sexual) cuando sea estrictamente necesario para detectar y corregir sesgos en sistemas de alto riesgo. Es una de las excepciones más importantes del reglamento — úsela si la necesita.
Datos artificiales para
entrenar IA real
Los datos sintéticos son datos generados artificialmente que imitan las propiedades estadísticas de datos reales sin contener información de personas concretas.
Cuando los datos reales son un problema
Cuando hay pocos datos reales disponibles, cuando los datos reales contienen información sensible que no puede usarse, o cuando se necesitan datos de escenarios que aún no han ocurrido.
Amplificación de sesgos existentes
Si los datos sintéticos se generan a partir de datos reales sesgados, los sesgos se transfieren y pueden amplificarse. Los datos sintéticos no son mágicamente neutros.
| Situación | ¿Usar datos sintéticos? | Consideraciones |
|---|---|---|
| Pocos datos reales disponibles | Sí, recomendado | Verificar que los sintéticos capturan las propiedades estadísticas relevantes. |
| Datos reales con información sensible (salud, biometría) | Sí, para desarrollo y pruebas | Validar siempre con datos reales antes del despliegue en producción. |
| Aumentar representación de grupos minoritarios | Sí, con cautela | Riesgo de amplificar estereotipos. Validar con expertos en el dominio. |
| Escenarios futuros (stress testing) | Sí | Documentar los supuestos usados para generar los escenarios. |
| Sustituir completamente datos reales en producción | No recomendado | Los datos sintéticos pueden no capturar todas las distribuciones reales. |
| Datos generados sin base en datos reales | Alto riesgo | Sin base en datos reales, las propiedades estadísticas pueden ser completamente artificiales. |
Qué debe documentarse sobre los datos sintéticos
Mínimo a documentar
Método de generación usado. Datos reales fuente (si aplica). Propiedades estadísticas validadas. Pruebas de que no contiene datos personales reales. Limitaciones conocidas de los datos sintéticos.
Verificación de anonimización
Si los datos sintéticos se generan a partir de datos personales reales, debe verificarse que el proceso de síntesis garantiza que no es posible la re-identificación. Esta verificación debe documentarse.
Advertencia crítica: "Datos sintéticos" no significa automáticamente "sin riesgos de privacidad". Algunos métodos de generación de datos sintéticos (como las GANs) pueden memorizar y reproducir datos reales. Siempre verificar que los datos sintéticos no contienen datos reales de personas identificables antes de usarlos.
Saber de dónde vienen
los datos y adónde van
La trazabilidad es la capacidad de seguir el recorrido de un dato desde su origen hasta su uso en una decisión de IA. Sin trazabilidad no hay auditoría posible.
| Nivel | Qué documentar | Para qué sirve | Obligatorio (AI Act) |
|---|---|---|---|
| Fuentes de datos | Origen de cada fuente, fecha, propietario, formato | Auditoría de origen, RGPD | Sí (Art. 10) |
| Transformaciones | Qué se hizo con los datos, scripts usados, versiones | Reproducibilidad, auditoría | Sí (Art. 10) |
| Dataset de entrenamiento | Versión, fecha, distribución estadística, tamaño | Reproducir el modelo, detectar drift | Sí (Art. 12) |
| Versión del modelo | Versión, fecha de entrenamiento, métricas de rendimiento | Saber qué modelo tomó cada decisión | Sí (Art. 12) |
| Decisiones individuales | Input, output, timestamp, modelo usado, operador | Auditoría de decisiones concretas | Sí (Art. 12, alto riesgo) |
| Incidentes | Qué pasó, qué datos estaban involucrados, resolución | Investigación y mejora | Sí (Art. 26) |
Documentación manual estructurada
Un Excel o Notion con el linaje documentado por cada sistema. Menos automatizado pero suficiente para PYMEs con pocos sistemas de IA.
MLflow, DVC, Weights & Biases
Herramientas open source que rastrean automáticamente versiones de datasets, modelos y experimentos. Integradas con los pipelines de datos.
Azure Purview, Apache Atlas, Alation
Plataformas enterprise de gobierno del dato con trazabilidad end-to-end, catálogo de datos y cumplimiento normativo integrado.
El mínimo práctico para cumplir el AI Act: Para cada sistema de alto riesgo, tener documentado: (1) de dónde vienen los datos de entrenamiento, (2) qué transformaciones se aplicaron, (3) qué versión del modelo se usa en producción, y (4) que cada decisión del sistema queda registrada con timestamp y datos de entrada. Con eso se puede responder a cualquier inspección de la AESIA.
Evaluación rápida de su situación
Marque los ítems que su empresa ya tiene implementados. Al final verá dónde están las principales brechas.
Marque los ítems para ver su evaluación. Cada ítem marcado representa una práctica de gobierno del dato implementada. Los ítems sin marcar son sus brechas prioritarias.
Próximo paso: Si tiene menos del 50% de los ítems marcados, el gobierno del dato debería ser parte de su Plan de Cumplimiento en 90 días. Si tiene entre el 50-80%, tiene una base sólida — focalícese en las brechas identificadas. Si supera el 80%, su gobierno del dato es maduro y puede plantearse la certificación ISO 42001. proyectosdeIA.com