Érica 10 de febrero de 2026

El problema de alineamiento es humano

14 min de lectura

The Alignment Problem de Brian Christian traza la historia de una pregunta engañosamente simple: ¿cómo haces que una máquina haga lo que quieres? El libro sigue la pregunta desde el aprendizaje por refuerzo temprano hasta los modelos de lenguaje grandes modernos, documentando los intentos cada vez más sofisticados — y cada vez más frustrados — de especificar valores humanos en términos que una máquina pueda seguir.

La lectura convencional del problema de alineamiento es técnica: la máquina no entiende lo que queremos. El campo está en una carrera para arreglarlo. IA constitucional, RLHF, red-teaming automatizado, investigación en interpretabilidad — todo dirigido a hacer que la máquina entienda y siga mejor la intención humana.

Quiero ofrecer una lectura diferente. El problema más difícil no es que la máquina no entienda nuestros valores. El problema más difícil es que nosotros no entendemos nuestros propios valores con suficiente claridad para especificarlos.

El problema de alineamiento es humano antes de ser técnico. Y la evidencia no está en un laboratorio de investigación. Está en cada oficina donde se ha desplegado una herramienta de IA y el equipo no se pone de acuerdo en qué aspecto tiene “bueno”.

El problema de especificación

Cuando Bluewaves despliega una herramienta de IA para un cliente — digamos, un sistema de clasificación de atención al cliente — el primer paso es la especificación: ¿qué quieres que haga la herramienta? La respuesta parece obvia. “Clasificar tickets de soporte entrantes por urgencia y encaminarlos al equipo correcto.”

Entonces empiezan las preguntas.

¿Qué cuenta como urgente? ¿Un cliente que amenaza con irse? ¿Un cliente que reporta un problema de seguridad? ¿Un cliente que pide un reembolso de más de 500 €? ¿Los tres? El equipo discute. Descubren que diferentes miembros del equipo tienen definiciones implícitas diferentes de urgencia. La responsable de atención al cliente define urgencia por valor de vida del cliente. El responsable de operaciones define urgencia por riesgo de incumplimiento de SLA. El equipo legal define urgencia por exposición a responsabilidad.

Tres definiciones. Tres perspectivas legítimas. Sin especificación compartida.

No es un problema tecnológico. El modelo de IA puede clasificar según cualquier definición de urgencia que se le dé. El problema es que la organización ha operado con tres definiciones implícitas, superpuestas y parcialmente contradictorias — y funcionaba porque los agentes humanos triangulaban inconscientemente entre ellas, usando un juicio que integraba las tres perspectivas sin formalizar ninguna.

La máquina no puede triangular implícitamente. Necesita una especificación explícita. El acto de escribir la especificación obliga a la organización a confrontar la ambigüedad con la que ha convivido cómodamente durante años.

Brian Christian describe esto como la idea central del problema de alineamiento: “La dificultad no está solo en conseguir que la IA haga lo que queremos; está en saber lo que queremos.” El despliegue de IA se convierte en una auditoría de alineamiento — no de la máquina, sino de la organización.

La brecha de preferencias reveladas

Los economistas distinguen entre preferencias declaradas (lo que la gente dice que quiere) y preferencias reveladas (lo que su comportamiento muestra que realmente quiere). La brecha entre ambas es objeto de programas de investigación enteros en economía conductual.

El despliegue de IA saca esta brecha a la superficie con claridad incómoda.

Un equipo dice que quiere “calidad de servicio al cliente consistente”. La herramienta de IA, entrenada con las respuestas históricas del equipo, revela que “consistente” significa cosas diferentes para diferentes agentes. El agente A escribe respuestas detalladas y empáticas con una media de 340 palabras. El agente B escribe respuestas directas y eficientes con una media de 80 palabras. El agente C escala el 40 % de tickets que los agentes A y B gestionarían directamente. La preferencia declarada del equipo es consistencia. Su práctica revelada es inconsistencia radical — sostenida por el hecho de que los clientes raramente comparan los estilos de respuesta que reciben.

La herramienta de IA, a la que se le pide producir respuestas “consistentes”, debe elegir: ¿consistente como el agente A, o consistente como el agente B, o un híbrido que no satisface a ninguno? La especificación requiere una decisión que el equipo nunca tomó porque la ambigüedad era invisible hasta que la máquina exigió resolución.

Este es el problema de alineamiento humano. La máquina sostiene un espejo. La organización no siempre le gusta lo que ve.

El problema de jerarquía de valores

El libro de Christian documenta el reto del alineamiento de valores a nivel de modelo — ¿cómo codificas “sé útil pero no dañino” de una forma que gestione los casos extremos? La versión laboral del mismo problema es la jerarquía de valores: cuando dos valores legítimos entran en conflicto, ¿cuál gana?

Toda organización tiene esta jerarquía. La mayoría nunca la ha articulado.

Una empresa de servicios financieros despliega una herramienta de IA para cribado de solicitudes de préstamo. Los valores declarados: equidad, eficiencia y gestión de riesgos. Estos valores coexisten cómodamente en abstracto. En la práctica, entran en conflicto regularmente:

La equidad dice: evalúa cada solicitud según sus méritos individuales. La eficiencia dice: usa patrones estadísticos para acelerar aprobaciones y rechazos obvios. La gestión de riesgos dice: señala cualquier solicitud con características asociadas a tasas de impago más altas.

Los patrones estadísticos que permiten la eficiencia se construyen a partir de datos históricos que reflejan sesgos históricos. Las características asociadas a tasas de impago más altas correlacionan con factores demográficos que la equidad exige ignorar. Los tres valores no pueden maximizarse simultáneamente. La organización debe elegir — explícitamente — qué valor tiene prioridad en qué contexto.

Antes de la herramienta de IA, el gestor de préstamos humano gestionaba este conflicto intuitivamente, caso a caso, con juicio implícito que nunca se formalizó. Las decisiones eran defendibles individualmente (cada gestor podía explicar su razonamiento) pero inconsistentes colectivamente (diferentes gestores resolvían el mismo conflicto de forma diferente).

La herramienta de IA requiere una jerarquía. No “estos valores son todos importantes” — eso es una declaración, no una jerarquía. “Cuando equidad y eficiencia entran en conflicto, la equidad prevalece. Cuando equidad y gestión de riesgos entran en conflicto, aquí está el umbral específico donde la gestión de riesgos prevalece.” Estas son las decisiones que el problema de alineamiento obliga — no sobre la máquina, sino sobre la organización.

El problema del proxy

En The Alignment Problem, Christian describe la Ley de Goodhart — “Cuando una medida se convierte en objetivo, deja de ser una buena medida” — como el modo de fallo central de los sistemas alineados. Quieres que la IA maximice la satisfacción del cliente. Mides la satisfacción del cliente con una puntuación de encuesta. La IA optimiza para la puntuación de encuesta. Las puntuaciones suben. La satisfacción del cliente puede o no seguir — porque la encuesta era un proxy, no la cosa misma.

No es un fallo técnico. Es un fallo humano de especificación. Nosotros elegimos el proxy. La máquina lo optimizó. El resultado que no queríamos era predecible desde la especificación que sí queríamos.

En despliegues de IA en el lugar de trabajo, los fallos de proxy son omnipresentes:

El proxy de cierre de tickets. Un sistema de IA se mide por “tickets resueltos al día”. El sistema aprende a resolver tickets rápido. La calidad de la resolución baja porque la velocidad era el proxy, no la calidad. Pero nadie especificó qué significa “calidad” en términos operativos — así que la máquina optimizó para el proxy que sí se especificó.

El proxy de engagement. Una herramienta de contenido con IA se mide por “engagement del usuario”. La herramienta aprende a producir contenido que genera clics, comentarios y compartidos. El contenido se vuelve cada vez más provocador porque el engagement era el proxy, y la provocación impulsa el engagement. Pero la organización quería “engagement significativo”, que es más difícil de especificar y de medir.

El proxy de cumplimiento. Una herramienta de evaluación de riesgos con IA se mide por “cumplimiento de directrices”. La herramienta aprende a producir evaluaciones que satisfacen la checklist. Las evaluaciones se vuelven formularias porque el cumplimiento era el proxy. Pero la organización quería “evaluación de riesgos genuina”, que requiere juicio que una checklist no puede capturar.

En cada caso, el humano eligió el proxy. La máquina siguió el proxy fielmente. El resultado decepcionó al humano — no porque la máquina estuviera desalineada, sino porque la especificación del humano estaba desalineada con su intención real.

El problema de alineamiento es un espejo. La máquina hace lo que especificaste. Si no te gusta el resultado, el problema está en la especificación.

La carga de articulación

Esta es la parte que encuentro más convincente en el marco de Christian, y la que conecta más directamente con mi propio trabajo en psicología organizacional.

El problema de alineamiento crea una carga de articulación — el requisito de hacer explícito lo que siempre ha sido implícito. Esta carga recae sobre los humanos, no sobre la máquina. A la máquina le da igual si puedes articular tus valores. Seguirá cualquier especificación que se le dé. La consecuencia de una especificación pobre recae enteramente sobre quien especifica.

Para las organizaciones, la carga de articulación es significativa porque la mayor parte del conocimiento organizacional es tácito. La distinción de Michael Polanyi entre conocimiento tácito (lo que sabemos pero no podemos expresar) y conocimiento explícito (lo que podemos declarar y codificar) aplica directamente. El agente de atención al cliente experimentado que “simplemente sabe” cómo gestionar a un cliente difícil está operando con conocimiento tácito — reconocimiento de patrones construido a partir de miles de interacciones, refinado por feedback, y almacenado en una forma que resiste la articulación.

Cuando la herramienta de IA necesita replicar este juicio, el conocimiento tácito debe hacerse explícito. “Gestionar bien a los clientes difíciles” debe convertirse en “Cuando un cliente expresa frustración, reconoce la emoción antes de abordar el problema. Cuando un cliente amenaza con irse, revisa su historial de cuenta y, si ha sido cliente durante más de dos años, ofrece el descuento de retención de nivel B.” La especificidad requerida es agotadora. El agente original nunca pensó en estos términos. “Simplemente sabía.”

La carga de articulación es el coste oculto del despliegue de IA. No la cuota de licencia. No el coste de computación. No la ingeniería de integración. El esfuerzo cognitivo y organizacional de hacer explícito lo que siempre ha sido implícito — y descubrir, en el proceso, que el conocimiento implícito era menos consistente, menos coherente y menos alineado de lo que nadie asumía.

La prueba del martes por la mañana

Vuelvo continuamente a una prueba que aplico a cada pregunta de alineamiento de IA que encuentro: la prueba del martes por la mañana. Olvida la filosofía. Olvida los papers de investigación. Olvida la discusión abstracta de valores. Es martes por la mañana. Una persona específica está sentada en un escritorio específico con una tarea específica. La herramienta de IA está abierta. La persona escribe una consulta. La herramienta responde.

¿Es la respuesta lo que la persona necesitaba?

La respuesta depende de si la especificación de la herramienta capturó lo que la persona realmente necesita — lo que depende de si la organización articuló lo que realmente valora — lo que depende de si la organización sabe lo que realmente valora.

El martes por la mañana, el problema de alineamiento no tiene que ver con la máquina. Tiene que ver con el responsable de compras que necesita que la herramienta entienda que “urgente” significa “el cliente mencionó a nuestro competidor” — una definición que no existe en ninguna especificación, ningún dato de entrenamiento y ningún documento de política, pero es la realidad operativa de la definición de urgencia de ese equipo.

La máquina no puede saber esto a menos que un humano lo articule. Y el humano nunca lo articuló porque, hasta que llegó la máquina, nadie lo preguntó.

El proceso de alineamiento organizacional

¿Cómo es hacer este trabajo? ¿Alinear realmente la organización antes de intentar alinear la herramienta?

Fase 1: Sacar a la superficie lo implícito. Reunir a las personas que usarán la herramienta y pedirles que definan, independientemente, qué aspecto tiene “bueno” para el output de la herramienta. Sin discutirlo primero — la articulación independiente previene el sesgo de conformidad. Comparar las definiciones. La divergencia es el dato. Donde las definiciones discrepan es donde empieza el trabajo de alineamiento.

Fase 2: Nombrar los conflictos. Donde las definiciones implícitas se contradicen, nombrar la contradicción. No “tenemos perspectivas diferentes” (eso es un eufemismo para la evitación del conflicto). Nombrar el conflicto específico: “Tú defines urgencia por valor del cliente. Tú defines urgencia por riesgo de SLA. Estas producen clasificaciones diferentes para el mismo ticket. ¿Qué definición usa la herramienta?”

Fase 3: Decidir la jerarquía. Para cada conflicto, tomar una decisión. No un consenso (el consenso es a menudo un rechazo a decidir). Una decisión. “Para propósitos de clasificación, la urgencia se define por riesgo de incumplimiento de SLA. El valor del cliente es un factor secundario que se muestra al agente pero no se usa para el encaminamiento.” La decisión puede estar equivocada. Sigue siendo más útil que la ambigüedad, porque una decisión equivocada puede identificarse y corregirse. La ambigüedad no puede corregirse — persiste hasta que alguien la confronta.

Fase 4: Especificar los proxies. Para cada valor que se pide a la herramienta optimizar, definir el proxy y reconocer sus limitaciones. “Medimos calidad por puntuación de satisfacción del cliente. Sabemos que este proxy no captura la salud de la relación a largo plazo. Lo complementaremos con una revisión trimestral de tasas de retención de clientes entre tickets gestionados por la herramienta.” El proxy es un compromiso. Nómbralo como tal.

Fase 5: Iterar. La primera especificación estará equivocada. No catastróficamente equivocada — prácticamente equivocada. La herramienta producirá outputs que están técnicamente alineados con la especificación pero desalineados con la intención. Cada desalineamiento es una lección en claridad de especificación. Úsala para refinar.

El alineamiento continuo

El alineamiento no es una actividad puntual. Es continuo — porque los valores, prioridades y contexto operativo de la organización cambian con el tiempo.

La especificación que era correcta en enero puede estar mal calibrada para junio. La base de clientes cambió. El entorno regulatorio se desplazó. La composición del equipo evolucionó. La definición de “urgente” que funcionaba hace seis meses ya no captura la realidad operativa actual.

Este desalineamiento continuo es una característica de la vida organizativa, no un fallo de especificación. Las organizaciones son sistemas dinámicos. Sus valores y prioridades están en flujo continuo. La especificación — que es estática — se aleja de la realidad — que es dinámica.

En operaciones tradicionales, esta deriva la absorbe el juicio humano. El agente de atención al cliente que lleva tres años en el equipo ajusta implícitamente su definición de “urgente” a medida que cambia el contexto. No reescribe la política. Ajusta su práctica. El ajuste es invisible, gradual y efectivo.

La herramienta de IA no se ajusta implícitamente. Sigue la especificación. Si la especificación se aleja de la realidad, los outputs de la herramienta se alejan con ella — todavía alineados con la especificación, pero desalineados con la intención.

La respuesta operativa: revisiones de alineamiento programadas. Cada trimestre, el equipo que usa la herramienta de IA revisa la especificación: ¿siguen siendo precisas las definiciones? ¿Han cambiado las prioridades? ¿Hay nuevos casos extremos que la especificación no cubre? La revisión es corta — una hora. El coste de no hacerla es la acumulación gradual de desalineamiento, produciendo outputs que son técnicamente correctos y operativamente erróneos.

Este es el coste de mantenimiento del alineamiento. No mantenimiento técnico. Mantenimiento organizacional. El trabajo de mantener la especificación actualizada con la comprensión evolutiva de la organización de sus propios valores.

La integración

Brian Christian escribió sobre el problema de alineamiento como un reto técnico. Lo es. Pero también es un reto humano — y el reto humano precede y subsume al técnico.

No puedes alinear una máquina con valores que no has articulado. No puedes articular valores que no has examinado. No puedes examinar valores en un entorno donde el examen no es seguro — lo que nos lleva de vuelta a la seguridad psicológica, a las estructuras de incentivos que recompensan valores declarados sobre valores practicados, a la brecha entre lo que las organizaciones dicen y lo que hacen.

El problema de alineamiento no es un problema a resolver. Es una condición a gestionar. La brecha entre intención y especificación es permanente. Lo mejor que puedes hacer es estrecharla — a través de articulación, resolución de conflictos, iteración, y la humildad de reconocer que el modo de fallo más común de la máquina no es malinterpretar tus valores sino entenderlos exactamente como los especificaste.

La máquina está alineada. La pregunta es si tú lo estás.

Escrito por

Érica

Psicóloga Organizacional

Sabe por qué la gente rechaza las herramientas — y cómo diseñar herramientas que amarán. Cuando Érica habla, las empresas cambian de rumbo. No por persuasión. Por comprensión.

← Todas las notas