Gobierno del dato · Fundamento de la gobernanza de IA

El dato es el
núcleo de la
gobernanza de IA

Un sistema de IA es tan bueno o tan peligroso como los datos con los que opera. Sin gobierno del dato, la gobernanza de IA es un castillo en el aire.

¿Por qué el dato es tan crítico?

La IA aprende de datos. Los datos tienen problemas.

Problema 1

Datos con sesgos → IA discriminatoria

Si los datos históricos reflejan discriminación, la IA la aprende y la amplifica. Amazon discriminó mujeres porque sus datos de contratación históricos eran masculinos.

Problema 2

Datos de mala calidad → decisiones incorrectas

Datos incompletos, duplicados o mal estructurados producen predicciones erróneas. Una IA médica con datos sucios puede dar diagnósticos incorrectos.

Problema 3

Datos sin trazabilidad → imposible auditar

Si no sabes de dónde vienen los datos que usa tu IA, no puedes cumplir el AI Act ni el RGPD. Y si hay un incidente, no puedes investigarlo.

Los 5 pilares del gobierno del dato para IA

Lo que necesita tener bajo control

🎯
Calidad
Datos correctos, completos y actualizados
⚖️
Sesgos
Detectar y mitigar discriminación
🧬
Sintéticos
Datos artificiales: cuándo y cómo
🔍
Trazabilidad
De dónde vienen y a dónde van
📋
Normativa
RGPD + AI Act coordinados
AI Act y gobierno del dato

Qué exige el reglamento sobre los datos

Art. 10 AI Act — Datos de entrenamiento

Para sistemas de alto riesgo

Los datos de entrenamiento, validación y prueba deben: ser relevantes para la finalidad, representativos de la población afectada, libres de errores significativos, y completos para el uso previsto. Además deben estar documentados.

Art. 10 AI Act — Datos sensibles

Excepción para detectar sesgos

El AI Act permite usar datos de categorías especiales (origen étnico, género, salud) específicamente para detectar y corregir sesgos en los sistemas. Es una de las pocas excepciones al RGPD que el AI Act introduce.

Art. 12 AI Act — Logs

Trazabilidad de las decisiones

Los sistemas de alto riesgo deben registrar qué datos de entrada usaron para cada decisión. Sin logs de datos no hay auditoría posible.

RGPD Art. 22 — Decisiones automatizadas

Derecho a explicación

Cuando una IA toma decisiones automatizadas sobre personas, estas tienen derecho a explicación y a intervención humana. Eso requiere tener los datos trazados.

Calidad del dato

Un dato de mala calidad
produce una IA de mala calidad

La calidad del dato es el primer control que debe existir antes de entrenar o usar cualquier sistema de IA.

Las 6 dimensiones de calidad
01
Dimensión 1

Exactitud

¿Los datos reflejan la realidad?

Qué significa

Un dato es exacto cuando refleja correctamente el estado real del mundo. Un error de exactitud es cuando el dato dice una cosa y la realidad es otra.

Ejemplos de problemas de exactitud en IA

  • Un sistema de crédito con ingresos de clientes incorrectos da puntuaciones erróneas.
  • Un sistema de RRHH con niveles de estudios mal registrados filtra candidatos cualificados.
  • Una IA médica con diagnósticos históricos incorrectos aprende patrones equivocados.
Control mínimo

Proceso de validación de datos en la entrada: verificar que los valores están dentro de rangos plausibles, cruzar con fuentes externas cuando sea posible, y establecer alertas cuando aparecen valores anómalos.

02
Dimensión 2

Completitud

¿Faltan datos relevantes?

Qué significa

Un dataset es completo cuando contiene todos los registros y campos necesarios para el propósito del sistema de IA. Los datos faltantes son especialmente peligrosos porque la IA no sabe lo que no sabe.

Cómo afecta a los sistemas de IA

  • Datos faltantes de ciertos grupos → la IA no los representa bien → discriminación estructural.
  • Campos vacíos → la IA los imputa o ignora → predicciones sesgadas.
  • Historial incompleto → la IA no puede aprender patrones temporales.
Caso real — Amazon

El dataset de contratación histórica tenía muy pocos registros de mujeres en roles técnicos. La IA aprendió que los roles técnicos eran masculinos. La incompletitud del dataset fue el origen del sesgo discriminatorio.

Control

Analizar el porcentaje de valores nulos por columna antes del entrenamiento. Definir umbrales máximos de datos faltantes aceptables. Documentar cómo se tratan los valores ausentes (imputación, exclusión, etc.).

03
Dimensión 3

Consistencia

¿Los datos son coherentes entre sí?

Qué significa

Los datos son consistentes cuando los mismos hechos se representan de la misma forma en diferentes sistemas o momentos del tiempo. La inconsistencia es uno de los problemas más comunes en empresas con múltiples sistemas.

Ejemplos típicos

  • El CRM registra "España" pero la facturación registra "ES" → el sistema de IA no sabe que son lo mismo.
  • Fechas en distintos formatos (DD/MM/AAAA vs MM/DD/AAAA) → errores de cálculo de antigüedad.
  • El mismo cliente con ID diferente en dos sistemas → duplicados que confunden al modelo.
Control

Estandarización de catálogos antes del entrenamiento. Diccionario de datos que defina los valores válidos para cada campo. Proceso de normalización (ETL) documentado y auditado.

04
Dimensión 4

Actualidad

¿Los datos están vigentes?

El problema del data drift

El mundo cambia y los datos de ayer no representan la realidad de hoy. Un modelo entrenado con datos de 2019 no sabe nada sobre el comportamiento post-pandemia. Esto se llama data drift o concept drift.

  • Un modelo de crédito entrenado antes de una crisis económica tiene un perfil de riesgo obsoleto.
  • Un sistema de recomendación de productos sin actualización recomienda artículos descatalogados.
  • Un modelo de detección de fraude entrenado con patrones viejos no detecta fraudes nuevos.
Control

Monitorización continua del rendimiento del modelo. Alertas cuando la distribución de los datos de entrada cambia significativamente. Plan de re-entrenamiento periódico documentado.

05
Dimensión 5

Relevancia

¿Los datos son pertinentes para el propósito?

Qué significa

Un dato es relevante cuando contribuye de forma legítima y útil al propósito del sistema de IA. Usar datos irrelevantes o proxy de variables protegidas es uno de los orígenes más comunes de discriminación algorítmica.

Ejemplo de dato irrelevante problemático

Usar el código postal como variable predictiva en un modelo de crédito puede ser un proxy de origen étnico (correlación con zonas de mayor concentración de minorías). El dato parece neutro pero no lo es.

Control

Análisis de correlación entre variables de entrada y variables protegidas (género, origen, edad). Eliminar o controlar las variables que actúen como proxy. Documentar la justificación de cada variable usada en el modelo.

06
Dimensión 6

Unicidad

¿Hay duplicados?

Qué significa

Los duplicados en los datos de entrenamiento hacen que el modelo sobreponderen ciertos ejemplos, distorsionando el aprendizaje. Un cliente que aparece 10 veces influye 10 veces más en el modelo que uno que aparece una vez.

  • Deduplicación de registros antes del entrenamiento.
  • Definición clara de qué es un registro único (clave primaria del dataset).
  • Auditoría periódica de registros duplicados en los sistemas fuente.

Requerimiento del AI Act (Art. 10): Para sistemas de alto riesgo, las prácticas de gestión de datos deben estar documentadas. Esto incluye: qué datos se usan, de dónde vienen, cómo se limpian, qué transformaciones se aplican y cómo se evalúa su calidad antes del entrenamiento.

Sesgos algorítmicos

Cómo la IA aprende
a discriminar

El sesgo no es un fallo técnico — es un reflejo de las desigualdades en los datos. Entenderlo es fundamental para la gobernanza.

Los 4 tipos de sesgo que debe conocer
Sesgo histórico

La IA aprende discriminación del pasado

Los datos históricos reflejan decisiones humanas que pueden haber sido discriminatorias. Si entrenamos una IA con esas decisiones, aprende a replicarlas.

Caso Amazon

Los datos de contratación histórica reflejaban la preferencia histórica por hombres en roles técnicos. La IA la reprodujo automáticamente.

Sesgo de representación

Algunos grupos están infrarrepresentados

Si un grupo minoritario aparece poco en los datos de entrenamiento, el modelo no lo conoce bien y comete más errores con ese grupo.

Ejemplo real

Los sistemas de reconocimiento facial entrenados mayoritariamente con caras de personas blancas tienen tasas de error más altas con personas de piel oscura.

Sesgo de medición

El proxy mide algo distinto a lo que cree

Usamos una variable como proxy de otra que no podemos medir directamente, pero el proxy está correlacionado con variables protegidas.

Ejemplo real

Usar el código postal como proxy de riesgo crediticio puede discriminar por origen étnico si la distribución geográfica está correlacionada con la composición étnica.

Sesgo de retroalimentación

El modelo refuerza sus propios errores

Cuando el modelo influye en los datos que generará el futuro, sus predicciones se convierten en profecías autocumplidas.

Ejemplo real

Un sistema policial predice más delitos en ciertos barrios → más patrullaje → más detenciones → más datos confirmando la predicción → ciclo que se refuerza.

Cómo detectar y mitigar sesgos

El proceso mínimo

1
Identificar variables protegidas relevantes

Antes de entrenar, identificar qué variables protegidas son relevantes en el contexto: género, edad, origen étnico, discapacidad. Esto determina qué sesgos buscar.

2
Analizar la representación en los datos

¿Qué porcentaje de los datos corresponde a cada grupo? Si un grupo tiene menos del 10-15% de los registros, el modelo puede tener problemas de representación.

3
Medir el rendimiento por grupo

El modelo puede tener buena precisión global pero errores sistemáticos en grupos concretos. Comparar métricas de rendimiento por grupo es la única forma de detectarlo.

4
Analizar correlaciones con variables protegidas

Verificar si las variables de entrada están correlacionadas con variables protegidas. Una correlación alta indica riesgo de proxy discriminatorio.

5
Documentar los sesgos encontrados y las medidas adoptadas

El AI Act exige documentación. Aunque no se puedan eliminar todos los sesgos, documentar los identificados y las medidas de mitigación es evidencia de diligencia.

6
Monitorización continua post-despliegue

El sesgo puede emerger después del despliegue por cambios en la distribución de los datos reales. La monitorización continua es la única forma de detectarlo a tiempo.

Lo que permite el AI Act expresamente: El Art. 10(5) permite usar datos de categorías especiales (origen étnico, género, salud, orientación sexual) cuando sea estrictamente necesario para detectar y corregir sesgos en sistemas de alto riesgo. Es una de las excepciones más importantes del reglamento — úsela si la necesita.

Datos sintéticos

Datos artificiales para
entrenar IA real

Los datos sintéticos son datos generados artificialmente que imitan las propiedades estadísticas de datos reales sin contener información de personas concretas.

¿Por qué usar datos sintéticos?

Cuando los datos reales son un problema

Cuando hay pocos datos reales disponibles, cuando los datos reales contienen información sensible que no puede usarse, o cuando se necesitan datos de escenarios que aún no han ocurrido.

El riesgo principal

Amplificación de sesgos existentes

Si los datos sintéticos se generan a partir de datos reales sesgados, los sesgos se transfieren y pueden amplificarse. Los datos sintéticos no son mágicamente neutros.

Cuándo usar datos sintéticos
Situación¿Usar datos sintéticos?Consideraciones
Pocos datos reales disponiblesSí, recomendadoVerificar que los sintéticos capturan las propiedades estadísticas relevantes.
Datos reales con información sensible (salud, biometría)Sí, para desarrollo y pruebasValidar siempre con datos reales antes del despliegue en producción.
Aumentar representación de grupos minoritariosSí, con cautelaRiesgo de amplificar estereotipos. Validar con expertos en el dominio.
Escenarios futuros (stress testing)Documentar los supuestos usados para generar los escenarios.
Sustituir completamente datos reales en producciónNo recomendadoLos datos sintéticos pueden no capturar todas las distribuciones reales.
Datos generados sin base en datos realesAlto riesgoSin base en datos reales, las propiedades estadísticas pueden ser completamente artificiales.
Documentación requerida

Qué debe documentarse sobre los datos sintéticos

Para cumplir el AI Act (Art. 10)

Mínimo a documentar

Método de generación usado. Datos reales fuente (si aplica). Propiedades estadísticas validadas. Pruebas de que no contiene datos personales reales. Limitaciones conocidas de los datos sintéticos.

Para cumplir el RGPD

Verificación de anonimización

Si los datos sintéticos se generan a partir de datos personales reales, debe verificarse que el proceso de síntesis garantiza que no es posible la re-identificación. Esta verificación debe documentarse.

Advertencia crítica: "Datos sintéticos" no significa automáticamente "sin riesgos de privacidad". Algunos métodos de generación de datos sintéticos (como las GANs) pueden memorizar y reproducir datos reales. Siempre verificar que los datos sintéticos no contienen datos reales de personas identificables antes de usarlos.

Trazabilidad y linaje del dato

Saber de dónde vienen
los datos y adónde van

La trazabilidad es la capacidad de seguir el recorrido de un dato desde su origen hasta su uso en una decisión de IA. Sin trazabilidad no hay auditoría posible.

¿Qué es el linaje del dato?
🗄
Fuente original
CRM, ERP, formulario, sensor
🔄
Transformación
Limpieza, normalización, ETL
📦
Dataset de entrenamiento
Versión usada para entrenar
🤖
Modelo de IA
Versión del modelo
Decisión
Resultado concreto con log
Qué debe estar documentado
NivelQué documentarPara qué sirveObligatorio (AI Act)
Fuentes de datosOrigen de cada fuente, fecha, propietario, formatoAuditoría de origen, RGPDSí (Art. 10)
TransformacionesQué se hizo con los datos, scripts usados, versionesReproducibilidad, auditoríaSí (Art. 10)
Dataset de entrenamientoVersión, fecha, distribución estadística, tamañoReproducir el modelo, detectar driftSí (Art. 12)
Versión del modeloVersión, fecha de entrenamiento, métricas de rendimientoSaber qué modelo tomó cada decisiónSí (Art. 12)
Decisiones individualesInput, output, timestamp, modelo usado, operadorAuditoría de decisiones concretasSí (Art. 12, alto riesgo)
IncidentesQué pasó, qué datos estaban involucrados, resoluciónInvestigación y mejoraSí (Art. 26)
Herramientas de trazabilidad
Para PYMEs

Documentación manual estructurada

Un Excel o Notion con el linaje documentado por cada sistema. Menos automatizado pero suficiente para PYMEs con pocos sistemas de IA.

Para empresas medianas

MLflow, DVC, Weights & Biases

Herramientas open source que rastrean automáticamente versiones de datasets, modelos y experimentos. Integradas con los pipelines de datos.

Para grandes empresas

Azure Purview, Apache Atlas, Alation

Plataformas enterprise de gobierno del dato con trazabilidad end-to-end, catálogo de datos y cumplimiento normativo integrado.

El mínimo práctico para cumplir el AI Act: Para cada sistema de alto riesgo, tener documentado: (1) de dónde vienen los datos de entrenamiento, (2) qué transformaciones se aplicaron, (3) qué versión del modelo se usa en producción, y (4) que cada decisión del sistema queda registrada con timestamp y datos de entrada. Con eso se puede responder a cualquier inspección de la AESIA.

Checklist de gobierno del dato para IA

Evaluación rápida de su situación

Marque los ítems que su empresa ya tiene implementados. Al final verá dónde están las principales brechas.

Calidad del dato
Sesgos
Trazabilidad y linaje
Privacidad y normativa

Marque los ítems para ver su evaluación. Cada ítem marcado representa una práctica de gobierno del dato implementada. Los ítems sin marcar son sus brechas prioritarias.

Próximo paso: Si tiene menos del 50% de los ítems marcados, el gobierno del dato debería ser parte de su Plan de Cumplimiento en 90 días. Si tiene entre el 50-80%, tiene una base sólida — focalícese en las brechas identificadas. Si supera el 80%, su gobierno del dato es maduro y puede plantearse la certificación ISO 42001. proyectosdeIA.com