Gobierno del dato · Fundamento de la gobernanza de IA

El dato es el
núcleo de la
gobernanza de IA

Un sistema de IA es tan bueno o tan peligroso como los datos con los que opera. Sin gobierno del dato, la gobernanza de IA es un castillo en el aire.

¿Por qué el dato es tan crítico?

La IA aprende de datos. Los datos tienen problemas.

Problema 1

Datos con sesgos → IA discriminatoria

Si los datos históricos reflejan discriminación, la IA la aprende y la amplifica. Amazon discriminó mujeres porque sus datos de contratación históricos eran masculinos.

Problema 2

Datos de mala calidad → decisiones incorrectas

Datos incompletos, duplicados o mal estructurados producen predicciones erróneas. Una IA médica con datos sucios puede dar diagnósticos incorrectos.

Problema 3

Datos sin trazabilidad → imposible auditar

Si no sabes de dónde vienen los datos que usa tu IA, no puedes cumplir el AI Act ni el RGPD. Y si hay un incidente, no puedes investigarlo.

Los 5 pilares del gobierno del dato para IA

Lo que necesita tener bajo control

🎯

Calidad

Datos correctos, completos y actualizados

⚖️

Sesgos

Detectar y mitigar discriminación

🧬

Sintéticos

Datos artificiales: cuándo y cómo

🔍

Trazabilidad

De dónde vienen y a dónde van

📋

Normativa

RGPD + AI Act coordinados

AI Act y gobierno del dato

Qué exige el reglamento sobre los datos

Art. 10 AI Act — Datos de entrenamiento

Para sistemas de alto riesgo

Los datos de entrenamiento, validación y prueba deben: ser relevantes para la finalidad, representativos de la población afectada, libres de errores significativos, y completos para el uso previsto. Además deben estar documentados.

Art. 10 AI Act — Datos sensibles

Excepción para detectar sesgos

El AI Act permite usar datos de categorías especiales (origen étnico, género, salud) específicamente para detectar y corregir sesgos en los sistemas. Es una de las pocas excepciones al RGPD que el AI Act introduce.

Art. 12 AI Act — Logs

Trazabilidad de las decisiones

Los sistemas de alto riesgo deben registrar qué datos de entrada usaron para cada decisión. Sin logs de datos no hay auditoría posible.

RGPD Art. 22 — Decisiones automatizadas

Derecho a explicación

Cuando una IA toma decisiones automatizadas sobre personas, estas tienen derecho a explicación y a intervención humana. Eso requiere tener los datos trazados.

Calidad del dato

Un dato de mala calidad
produce una IA de mala calidad

La calidad del dato es el primer control que debe existir antes de entrenar o usar cualquier sistema de IA.

Las 6 dimensiones de calidad

Dimensión 1

Exactitud

¿Los datos reflejan la realidad?

▼

Qué significa

Un dato es exacto cuando refleja correctamente el estado real del mundo. Un error de exactitud es cuando el dato dice una cosa y la realidad es otra.

Ejemplos de problemas de exactitud en IA

Un sistema de crédito con ingresos de clientes incorrectos da puntuaciones erróneas.
Un sistema de RRHH con niveles de estudios mal registrados filtra candidatos cualificados.
Una IA médica con diagnósticos históricos incorrectos aprende patrones equivocados.

Control mínimo

Proceso de validación de datos en la entrada: verificar que los valores están dentro de rangos plausibles, cruzar con fuentes externas cuando sea posible, y establecer alertas cuando aparecen valores anómalos.

Dimensión 2

Completitud

¿Faltan datos relevantes?

▼

Qué significa

Un dataset es completo cuando contiene todos los registros y campos necesarios para el propósito del sistema de IA. Los datos faltantes son especialmente peligrosos porque la IA no sabe lo que no sabe.

Cómo afecta a los sistemas de IA

Datos faltantes de ciertos grupos → la IA no los representa bien → discriminación estructural.
Campos vacíos → la IA los imputa o ignora → predicciones sesgadas.
Historial incompleto → la IA no puede aprender patrones temporales.

Caso real — Amazon

El dataset de contratación histórica tenía muy pocos registros de mujeres en roles técnicos. La IA aprendió que los roles técnicos eran masculinos. La incompletitud del dataset fue el origen del sesgo discriminatorio.

Control

Analizar el porcentaje de valores nulos por columna antes del entrenamiento. Definir umbrales máximos de datos faltantes aceptables. Documentar cómo se tratan los valores ausentes (imputación, exclusión, etc.).

Dimensión 3

Consistencia

¿Los datos son coherentes entre sí?

▼

Qué significa

Los datos son consistentes cuando los mismos hechos se representan de la misma forma en diferentes sistemas o momentos del tiempo. La inconsistencia es uno de los problemas más comunes en empresas con múltiples sistemas.

Ejemplos típicos

El CRM registra "España" pero la facturación registra "ES" → el sistema de IA no sabe que son lo mismo.
Fechas en distintos formatos (DD/MM/AAAA vs MM/DD/AAAA) → errores de cálculo de antigüedad.
El mismo cliente con ID diferente en dos sistemas → duplicados que confunden al modelo.

Control

Estandarización de catálogos antes del entrenamiento. Diccionario de datos que defina los valores válidos para cada campo. Proceso de normalización (ETL) documentado y auditado.

Dimensión 4

Actualidad

¿Los datos están vigentes?

▼

El problema del data drift

El mundo cambia y los datos de ayer no representan la realidad de hoy. Un modelo entrenado con datos de 2019 no sabe nada sobre el comportamiento post-pandemia. Esto se llama data drift o concept drift.

Un modelo de crédito entrenado antes de una crisis económica tiene un perfil de riesgo obsoleto.
Un sistema de recomendación de productos sin actualización recomienda artículos descatalogados.
Un modelo de detección de fraude entrenado con patrones viejos no detecta fraudes nuevos.

Control

Monitorización continua del rendimiento del modelo. Alertas cuando la distribución de los datos de entrada cambia significativamente. Plan de re-entrenamiento periódico documentado.

Dimensión 5

Relevancia

¿Los datos son pertinentes para el propósito?

▼

Qué significa

Un dato es relevante cuando contribuye de forma legítima y útil al propósito del sistema de IA. Usar datos irrelevantes o proxy de variables protegidas es uno de los orígenes más comunes de discriminación algorítmica.

Ejemplo de dato irrelevante problemático

Usar el código postal como variable predictiva en un modelo de crédito puede ser un proxy de origen étnico (correlación con zonas de mayor concentración de minorías). El dato parece neutro pero no lo es.

Control

Análisis de correlación entre variables de entrada y variables protegidas (género, origen, edad). Eliminar o controlar las variables que actúen como proxy. Documentar la justificación de cada variable usada en el modelo.

Dimensión 6

Unicidad

¿Hay duplicados?

▼

Qué significa

Los duplicados en los datos de entrenamiento hacen que el modelo sobreponderen ciertos ejemplos, distorsionando el aprendizaje. Un cliente que aparece 10 veces influye 10 veces más en el modelo que uno que aparece una vez.

Deduplicación de registros antes del entrenamiento.
Definición clara de qué es un registro único (clave primaria del dataset).
Auditoría periódica de registros duplicados en los sistemas fuente.

Requerimiento del AI Act (Art. 10): Para sistemas de alto riesgo, las prácticas de gestión de datos deben estar documentadas. Esto incluye: qué datos se usan, de dónde vienen, cómo se limpian, qué transformaciones se aplican y cómo se evalúa su calidad antes del entrenamiento.

Sesgos algorítmicos

Cómo la IA aprende
a discriminar

El sesgo no es un fallo técnico — es un reflejo de las desigualdades en los datos. Entenderlo es fundamental para la gobernanza.

Los 4 tipos de sesgo que debe conocer

Sesgo histórico

La IA aprende discriminación del pasado

Los datos históricos reflejan decisiones humanas que pueden haber sido discriminatorias. Si entrenamos una IA con esas decisiones, aprende a replicarlas.

Caso Amazon

Los datos de contratación histórica reflejaban la preferencia histórica por hombres en roles técnicos. La IA la reprodujo automáticamente.

Sesgo de representación

Algunos grupos están infrarrepresentados

Si un grupo minoritario aparece poco en los datos de entrenamiento, el modelo no lo conoce bien y comete más errores con ese grupo.

Ejemplo real

Los sistemas de reconocimiento facial entrenados mayoritariamente con caras de personas blancas tienen tasas de error más altas con personas de piel oscura.

Sesgo de medición

El proxy mide algo distinto a lo que cree

Usamos una variable como proxy de otra que no podemos medir directamente, pero el proxy está correlacionado con variables protegidas.

Ejemplo real

Usar el código postal como proxy de riesgo crediticio puede discriminar por origen étnico si la distribución geográfica está correlacionada con la composición étnica.

Sesgo de retroalimentación

El modelo refuerza sus propios errores

Cuando el modelo influye en los datos que generará el futuro, sus predicciones se convierten en profecías autocumplidas.

Ejemplo real

Un sistema policial predice más delitos en ciertos barrios → más patrullaje → más detenciones → más datos confirmando la predicción → ciclo que se refuerza.

Cómo detectar y mitigar sesgos

El proceso mínimo

Identificar variables protegidas relevantes

Antes de entrenar, identificar qué variables protegidas son relevantes en el contexto: género, edad, origen étnico, discapacidad. Esto determina qué sesgos buscar.

Analizar la representación en los datos

¿Qué porcentaje de los datos corresponde a cada grupo? Si un grupo tiene menos del 10-15% de los registros, el modelo puede tener problemas de representación.

Medir el rendimiento por grupo

El modelo puede tener buena precisión global pero errores sistemáticos en grupos concretos. Comparar métricas de rendimiento por grupo es la única forma de detectarlo.

Analizar correlaciones con variables protegidas

Verificar si las variables de entrada están correlacionadas con variables protegidas. Una correlación alta indica riesgo de proxy discriminatorio.

Documentar los sesgos encontrados y las medidas adoptadas

El AI Act exige documentación. Aunque no se puedan eliminar todos los sesgos, documentar los identificados y las medidas de mitigación es evidencia de diligencia.

Monitorización continua post-despliegue

El sesgo puede emerger después del despliegue por cambios en la distribución de los datos reales. La monitorización continua es la única forma de detectarlo a tiempo.

Lo que permite el AI Act expresamente: El Art. 10(5) permite usar datos de categorías especiales (origen étnico, género, salud, orientación sexual) cuando sea estrictamente necesario para detectar y corregir sesgos en sistemas de alto riesgo. Es una de las excepciones más importantes del reglamento — úsela si la necesita.

Datos sintéticos

Datos artificiales para
entrenar IA real

Los datos sintéticos son datos generados artificialmente que imitan las propiedades estadísticas de datos reales sin contener información de personas concretas.

¿Por qué usar datos sintéticos?

Cuando los datos reales son un problema

Cuando hay pocos datos reales disponibles, cuando los datos reales contienen información sensible que no puede usarse, o cuando se necesitan datos de escenarios que aún no han ocurrido.

El riesgo principal

Amplificación de sesgos existentes

Si los datos sintéticos se generan a partir de datos reales sesgados, los sesgos se transfieren y pueden amplificarse. Los datos sintéticos no son mágicamente neutros.

Cuándo usar datos sintéticos

Situación	¿Usar datos sintéticos?	Consideraciones
Pocos datos reales disponibles	Sí, recomendado	Verificar que los sintéticos capturan las propiedades estadísticas relevantes.
Datos reales con información sensible (salud, biometría)	Sí, para desarrollo y pruebas	Validar siempre con datos reales antes del despliegue en producción.
Aumentar representación de grupos minoritarios	Sí, con cautela	Riesgo de amplificar estereotipos. Validar con expertos en el dominio.
Escenarios futuros (stress testing)	Sí	Documentar los supuestos usados para generar los escenarios.
Sustituir completamente datos reales en producción	No recomendado	Los datos sintéticos pueden no capturar todas las distribuciones reales.
Datos generados sin base en datos reales	Alto riesgo	Sin base en datos reales, las propiedades estadísticas pueden ser completamente artificiales.

Documentación requerida

Qué debe documentarse sobre los datos sintéticos

Para cumplir el AI Act (Art. 10)

Mínimo a documentar

Método de generación usado. Datos reales fuente (si aplica). Propiedades estadísticas validadas. Pruebas de que no contiene datos personales reales. Limitaciones conocidas de los datos sintéticos.

Para cumplir el RGPD

Verificación de anonimización

Si los datos sintéticos se generan a partir de datos personales reales, debe verificarse que el proceso de síntesis garantiza que no es posible la re-identificación. Esta verificación debe documentarse.

Advertencia crítica: "Datos sintéticos" no significa automáticamente "sin riesgos de privacidad". Algunos métodos de generación de datos sintéticos (como las GANs) pueden memorizar y reproducir datos reales. Siempre verificar que los datos sintéticos no contienen datos reales de personas identificables antes de usarlos.

Trazabilidad y linaje del dato

Saber de dónde vienen
los datos y adónde van

La trazabilidad es la capacidad de seguir el recorrido de un dato desde su origen hasta su uso en una decisión de IA. Sin trazabilidad no hay auditoría posible.

¿Qué es el linaje del dato?

🗄

Fuente original

CRM, ERP, formulario, sensor

🔄

Transformación

Limpieza, normalización, ETL

📦

Dataset de entrenamiento

Versión usada para entrenar

🤖

Modelo de IA

Versión del modelo

⚡

Decisión

Resultado concreto con log

Qué debe estar documentado

Nivel	Qué documentar	Para qué sirve	Obligatorio (AI Act)
Fuentes de datos	Origen de cada fuente, fecha, propietario, formato	Auditoría de origen, RGPD	Sí (Art. 10)
Transformaciones	Qué se hizo con los datos, scripts usados, versiones	Reproducibilidad, auditoría	Sí (Art. 10)
Dataset de entrenamiento	Versión, fecha, distribución estadística, tamaño	Reproducir el modelo, detectar drift	Sí (Art. 12)
Versión del modelo	Versión, fecha de entrenamiento, métricas de rendimiento	Saber qué modelo tomó cada decisión	Sí (Art. 12)
Decisiones individuales	Input, output, timestamp, modelo usado, operador	Auditoría de decisiones concretas	Sí (Art. 12, alto riesgo)
Incidentes	Qué pasó, qué datos estaban involucrados, resolución	Investigación y mejora	Sí (Art. 26)

Herramientas de trazabilidad

Para PYMEs

Documentación manual estructurada

Un Excel o Notion con el linaje documentado por cada sistema. Menos automatizado pero suficiente para PYMEs con pocos sistemas de IA.

Para empresas medianas

MLflow, DVC, Weights & Biases

Herramientas open source que rastrean automáticamente versiones de datasets, modelos y experimentos. Integradas con los pipelines de datos.

Para grandes empresas

Azure Purview, Apache Atlas, Alation

Plataformas enterprise de gobierno del dato con trazabilidad end-to-end, catálogo de datos y cumplimiento normativo integrado.

El mínimo práctico para cumplir el AI Act: Para cada sistema de alto riesgo, tener documentado: (1) de dónde vienen los datos de entrenamiento, (2) qué transformaciones se aplicaron, (3) qué versión del modelo se usa en producción, y (4) que cada decisión del sistema queda registrada con timestamp y datos de entrada. Con eso se puede responder a cualquier inspección de la AESIA.

Checklist de gobierno del dato para IA

Evaluación rápida de su situación

Marque los ítems que su empresa ya tiene implementados. Al final verá dónde están las principales brechas.

Calidad del dato

Existe un proceso documentado de validación de calidad de datos antes de usarlos en sistemas de IA.

Se mide y documenta el porcentaje de valores nulos en los datasets críticos.

Hay un proceso de deduplicación de registros antes del entrenamiento de modelos.

Los datos de entrenamiento están actualizados y representan la realidad actual (sin data drift significativo).

Existe un diccionario de datos que define los valores válidos para cada campo crítico.

Sesgos

Se han identificado las variables protegidas relevantes para cada sistema de IA de alto riesgo.

Se ha analizado la representación de grupos minoritarios en los datos de entrenamiento.

Se mide el rendimiento del modelo desglosado por grupos (no solo métricas globales).

Se ha analizado si alguna variable de entrada es proxy de una variable protegida.

Los sesgos identificados y las medidas de mitigación están documentados.

Hay monitorización post-despliegue para detectar sesgos emergentes.

Trazabilidad y linaje

Para cada sistema de IA de alto riesgo, está documentado el origen de los datos de entrenamiento.

Las transformaciones aplicadas a los datos (ETL, limpieza) están documentadas y versionadas.

Se mantiene un registro de qué versión del modelo toma las decisiones en producción.

Las decisiones individuales del sistema quedan registradas con timestamp y datos de entrada.

Los logs de decisiones se conservan el tiempo mínimo requerido (recomendado: 3 años).

Privacidad y normativa

Los datos personales usados en sistemas de IA tienen base legal bajo el RGPD.

No se introducen datos personales de clientes en herramientas de IA externas sin garantías contractuales.

Los contratos con proveedores de IA especifican si pueden usar los datos para entrenamiento.

Si se usan datos sintéticos, se ha verificado que no contienen datos personales reales.

La documentación de datos cumple los requisitos del Art. 10 del AI Act para sistemas de alto riesgo.

Marque los ítems para ver su evaluación. Cada ítem marcado representa una práctica de gobierno del dato implementada. Los ítems sin marcar son sus brechas prioritarias.

Próximo paso: Si tiene menos del 50% de los ítems marcados, el gobierno del dato debería ser parte de su Plan de Cumplimiento en 90 días. Si tiene entre el 50-80%, tiene una base sólida — focalícese en las brechas identificadas. Si supera el 80%, su gobierno del dato es maduro y puede plantearse la certificación ISO 42001. proyectosdeIA.com

El dato es elnúcleo de lagobernanza de IA

La IA aprende de datos. Los datos tienen problemas.

Datos con sesgos → IA discriminatoria

Datos de mala calidad → decisiones incorrectas

Datos sin trazabilidad → imposible auditar

Lo que necesita tener bajo control

Qué exige el reglamento sobre los datos

Para sistemas de alto riesgo

Excepción para detectar sesgos

Trazabilidad de las decisiones

Derecho a explicación

Un dato de mala calidadproduce una IA de mala calidad

Exactitud

Qué significa

Ejemplos de problemas de exactitud en IA

Completitud

Qué significa

Cómo afecta a los sistemas de IA

Consistencia

Qué significa

Ejemplos típicos

Actualidad

El problema del data drift

Relevancia

Qué significa

Unicidad

Qué significa

Cómo la IA aprendea discriminar

La IA aprende discriminación del pasado

Algunos grupos están infrarrepresentados

El proxy mide algo distinto a lo que cree

El modelo refuerza sus propios errores

El proceso mínimo

Datos artificiales paraentrenar IA real

Cuando los datos reales son un problema

Amplificación de sesgos existentes

Qué debe documentarse sobre los datos sintéticos

Mínimo a documentar

Verificación de anonimización

Saber de dónde vienenlos datos y adónde van

Documentación manual estructurada

MLflow, DVC, Weights & Biases

Azure Purview, Apache Atlas, Alation

Evaluación rápida de su situación

El dato es el
núcleo de la
gobernanza de IA

Un dato de mala calidad
produce una IA de mala calidad

Cómo la IA aprende
a discriminar

Datos artificiales para
entrenar IA real

Saber de dónde vienen
los datos y adónde van