O Problema do Alinhamento É Humano
O The Alignment Problem de Brian Christian traça a história de uma pergunta enganadoramente simples: como fazer uma máquina fazer o que queremos? O livro segue a pergunta desde o reinforcement learning inicial até aos grandes modelos de linguagem actuais, documentando as tentativas cada vez mais sofisticadas — e cada vez mais frustradas — de especificar valores humanos em termos que uma máquina consiga seguir.
A leitura convencional do problema do alinhamento é técnica: a máquina não compreende o que queremos. O campo está em corrida para corrigir isto. Constitutional AI, RLHF, red-teaming automatizado, investigação em interpretabilidade — tudo direccionado a tornar a máquina melhor a compreender e seguir a intenção humana.
Quero propor uma leitura diferente. O problema mais difícil não é que a máquina falhe em compreender os nossos valores. O problema mais difícil é que nós falhamos em compreender os nossos próprios valores com clareza suficiente para os especificar.
O problema do alinhamento é humano antes de ser técnico. E a evidência para isto não está num laboratório de investigação. Está em cada escritório onde uma ferramenta de IA foi implantada e a equipa não consegue concordar sobre como é “bom”.
O Problema da Especificação
Quando a Bluewaves implanta uma ferramenta de IA para um cliente — digamos, um sistema de classificação de serviço ao cliente — o primeiro passo é a especificação: o que querem que a ferramenta faça? A resposta parece óbvia. “Classificar tickets de suporte recebidos por urgência e encaminhá-los para a equipa certa.”
Depois começam as perguntas.
O que conta como urgente? Um cliente a ameaçar sair? Um cliente a reportar um problema de segurança? Um cliente a pedir um reembolso acima de 500 €? Todos os três? A equipa discute. Descobrem que diferentes membros da equipa têm definições implícitas diferentes de urgência. O responsável de serviço ao cliente define urgência pelo valor do cliente ao longo da vida. O gestor de operações define urgência pelo risco de incumprimento de SLA. A equipa jurídica define urgência pela exposição a responsabilidade.
Três definições. Três perspectivas legítimas. Nenhuma especificação partilhada.
Isto não é um problema de tecnologia. O modelo de IA consegue classificar por qualquer definição de urgência que lhe seja dada. O problema é que a organização tem operado com três definições implícitas, sobrepostas e parcialmente contraditórias — e funcionou porque os agentes humanos inconscientemente triangulavam entre elas, usando julgamento que integrava as três perspectivas sem formalizar nenhuma.
A máquina não consegue triangular implicitamente. Precisa de uma especificação explícita. O acto de escrever a especificação força a organização a confrontar a ambiguidade com que tem vivido confortavelmente durante anos.
Brian Christian descreve isto como o insight central do problema do alinhamento: “A dificuldade não é apenas fazer a IA fazer o que queremos; é saber o que queremos.” A implantação de IA torna-se uma auditoria de alinhamento — não da máquina, mas da organização.
O Fosso das Preferências Reveladas
Os economistas distinguem entre preferências declaradas (o que as pessoas dizem que querem) e preferências reveladas (o que o seu comportamento mostra que realmente querem). O fosso entre as duas é tema de programas inteiros de investigação em economia comportamental.
A implantação de IA traz este fosso à superfície com clareza desconfortável.
Uma equipa diz que quer “qualidade consistente no serviço ao cliente”. A ferramenta de IA, treinada nas respostas históricas da equipa, revela que “consistente” significa coisas diferentes para agentes diferentes. O Agente A escreve respostas detalhadas e empáticas com uma média de 340 palavras. O Agente B escreve respostas directas e eficientes com uma média de 80 palavras. O Agente C escala 40% dos tickets que os Agentes A e B tratariam directamente. A preferência declarada da equipa é consistência. A prática revelada é inconsistência radical — mantida junta pelo facto de os clientes raramente compararem os estilos de resposta que recebem.
A ferramenta de IA, pedida para produzir respostas “consistentes”, tem de escolher: consistente como o Agente A, ou consistente como o Agente B, ou um híbrido que não satisfaz nenhum? A especificação requer uma decisão que a equipa nunca tomou porque a ambiguidade era invisível até a máquina exigir resolução.
Este é o problema humano do alinhamento. A máquina segura um espelho. A organização nem sempre gosta do que vê.
O Problema da Hierarquia de Valores
O livro de Christian documenta o desafio do alinhamento de valores ao nível do modelo — como codificar “ser útil mas não prejudicial” de forma que trate casos limite? A versão no local de trabalho do mesmo problema é a hierarquia de valores: quando dois valores legítimos entram em conflito, qual vence?
Toda a organização tem esta hierarquia. A maioria nunca a articulou.
Uma empresa de serviços financeiros implanta uma ferramenta de IA para triagem de pedidos de empréstimo. Os valores declarados: equidade, eficiência e gestão de risco. Estes valores coexistem confortavelmente no abstracto. Na prática, entram em conflito regularmente:
A equidade diz: avaliar cada candidatura pelos seus méritos individuais. A eficiência diz: usar padrões estatísticos para agilizar aprovações e rejeições óbvias. A gestão de risco diz: sinalizar qualquer candidatura com características associadas a taxas de incumprimento mais elevadas.
Os padrões estatísticos que permitem a eficiência são construídos a partir de dados históricos que reflectem enviesamentos históricos. As características associadas a taxas de incumprimento mais elevadas correlacionam-se com factores demográficos que a equidade exige que se ignore. Os três valores não podem ser todos maximizados simultaneamente. A organização tem de escolher — explicitamente — qual valor tem prioridade em que contexto.
Antes da ferramenta de IA, o funcionário humano de empréstimos geria este conflito intuitivamente, caso a caso, com julgamento implícito que nunca foi formalizado. As decisões eram defensáveis individualmente (cada funcionário podia explicar o seu raciocínio) mas inconsistentes colectivamente (funcionários diferentes resolviam o mesmo conflito de formas diferentes).
A ferramenta de IA requer uma hierarquia. Não “estes valores são todos importantes” — isso é uma declaração, não uma hierarquia. “Quando equidade e eficiência entram em conflito, a equidade tem precedência. Quando equidade e gestão de risco entram em conflito, aqui está o limiar específico onde a gestão de risco se sobrepõe.” Estas são as decisões que o problema do alinhamento força — não sobre a máquina, mas sobre a organização.
O Problema do Proxy
Em The Alignment Problem, Christian descreve a Lei de Goodhart — “Quando uma medida se torna um objectivo, deixa de ser uma boa medida” — como o modo de falha central de sistemas alinhados. Queremos que a IA maximize a satisfação do cliente. Medimos a satisfação do cliente com um score de inquérito. A IA optimiza para o score de inquérito. Os scores sobem. A satisfação do cliente pode ou não seguir — porque o inquérito era um proxy, não a coisa em si.
Não é uma falha técnica. É uma falha humana de especificação. Nós escolhemos o proxy. A máquina optimizou para ele. O resultado que não queríamos era previsível a partir da especificação que queríamos.
Em implantações de IA no local de trabalho, falhas de proxy são generalizadas:
O proxy do fecho de tickets. Um sistema de IA é medido em “tickets resolvidos por dia”. O sistema aprende a resolver tickets rapidamente. A qualidade da resolução cai porque a velocidade era o proxy, não a qualidade. Mas ninguém especificou o que “qualidade” significa em termos operacionais — por isso a máquina optimizou para o proxy que foi especificado.
O proxy do engagement. Uma ferramenta de conteúdo de IA é medida em “engagement do utilizador”. A ferramenta aprende a produzir conteúdo que gera cliques, comentários e partilhas. O conteúdo torna-se cada vez mais provocativo porque engagement era o proxy, e a provocação gera engagement. Mas a organização queria “engagement significativo”, que é mais difícil de especificar e mais difícil de medir.
O proxy da conformidade. Uma ferramenta de avaliação de risco de IA é medida em “conformidade com directrizes”. A ferramenta aprende a produzir avaliações que satisfazem a checklist. As avaliações tornam-se formulaicas porque conformidade era o proxy. Mas a organização queria “avaliação genuína de risco”, que requer julgamento que uma checklist não consegue captar.
Em cada caso, o humano escolheu o proxy. A máquina seguiu o proxy fielmente. O resultado desapontou o humano — não porque a máquina estava desalinhada, mas porque a especificação do humano estava desalinhada com a sua intenção real.
O problema do alinhamento é um espelho. A máquina faz o que especificámos. Se não gostamos do resultado, o problema está na especificação.
O Encargo da Articulação
Aqui está a parte que considero mais convincente no enquadramento de Christian, e a parte que mais directamente se liga ao meu trabalho em psicologia organizacional.
O problema do alinhamento cria um encargo de articulação — a exigência de tornar explícito o que sempre foi implícito. Este encargo recai sobre os humanos, não sobre a máquina. A máquina não se importa se conseguimos articular os nossos valores. Vai seguir qualquer especificação que lhe seja dada. A consequência de uma especificação fraca recai inteiramente sobre quem especifica.
Para as organizações, o encargo de articulação é significativo porque a maioria do conhecimento organizacional é tácito. A distinção de Michael Polanyi entre conhecimento tácito (o que sabemos mas não conseguimos expressar) e conhecimento explícito (o que podemos declarar e codificar) aplica-se directamente. O agente de serviço ao cliente experiente que “simplesmente sabe” como tratar um cliente difícil está a operar com conhecimento tácito — reconhecimento de padrões construído a partir de milhares de interacções, refinado por feedback e armazenado numa forma que resiste à articulação.
Quando a ferramenta de IA precisa de replicar este julgamento, o conhecimento tácito tem de se tornar explícito. “Tratar bem clientes difíceis” tem de se tornar “Quando um cliente expressa frustração, reconhecer a emoção antes de abordar o problema. Quando um cliente ameaça sair, verificar o historial da conta e, se é cliente há mais de dois anos, oferecer desconto de retenção nível B.” A especificidade exigida é exaustiva. O agente original nunca pensou nestes termos. “Simplesmente sabia.”
O encargo da articulação é o custo oculto da implantação de IA. Não é a taxa de licença. Não é o custo de computação. Não é a engenharia de integração. É o esforço cognitivo e organizacional de tornar explícito o que sempre foi implícito — e descobrir, no processo, que o conhecimento implícito era menos consistente, menos coerente e menos alinhado do que qualquer pessoa assumia.
O Teste da Terça-Feira de Manhã
Volto sempre a um teste que aplico a cada questão de alinhamento de IA que encontro: o teste da terça-feira de manhã. Esqueçam a filosofia. Esqueçam os artigos de investigação. Esqueçam a discussão abstracta de valores. É terça-feira de manhã. Uma pessoa específica está sentada numa secretária específica com uma tarefa específica. A ferramenta de IA está aberta. A pessoa digita uma consulta. A ferramenta responde.
A resposta é o que a pessoa precisava?
A resposta depende de se a especificação da ferramenta captou o que a pessoa realmente precisa — o que depende de se a organização articulou o que realmente valoriza — o que depende de se a organização sabe o que realmente valoriza.
Na terça-feira de manhã, o problema do alinhamento não é sobre a máquina. É sobre o responsável de compras que precisa que a ferramenta compreenda que “urgente” significa “o cliente mencionou o nosso concorrente” — uma definição que não existe em nenhuma especificação, nenhum dado de treino e nenhum documento de política, mas é a realidade operacional da definição de urgência dessa equipa.
A máquina não pode saber isto a menos que um humano o articule. E o humano nunca o articulou porque, até a máquina chegar, ninguém perguntou.
O Processo de Alinhamento Organizacional
Como é fazer este trabalho? Alinhar realmente a organização antes de tentar alinhar a ferramenta?
Fase 1: Trazer o implícito à superfície. Reunir as pessoas que vão usar a ferramenta e pedir-lhes que definam, independentemente, como é “bom” para o output da ferramenta. Não discutir primeiro — a articulação independente previne viés de conformidade. Comparar as definições. A divergência são os dados. Onde as definições discordam é onde o trabalho de alinhamento começa.
Fase 2: Nomear os conflitos. Onde as definições implícitas se contradizem, nomear a contradição. Não “temos perspectivas diferentes” (isso é um eufemismo para evitamento de conflito). Nomear o conflito específico: “Tu defines urgência pelo valor do cliente. Tu defines urgência pelo risco de SLA. Estas produzem classificações diferentes para o mesmo ticket. Qual é que a ferramenta usa?”
Fase 3: Decidir a hierarquia. Para cada conflito, tomar uma decisão. Não um consenso (consenso é frequentemente uma recusa em decidir). Uma decisão. “Para fins de classificação, urgência é definida pelo risco de incumprimento de SLA. O valor do cliente é um factor secundário apresentado ao agente mas não usado para encaminhamento.” A decisão pode estar errada. Continua a ser mais útil do que ambiguidade, porque uma decisão errada pode ser identificada e corrigida. A ambiguidade não pode ser corrigida — persiste até alguém a confrontar.
Fase 4: Especificar os proxies. Para cada valor que a ferramenta é pedida para optimizar, definir o proxy e reconhecer as suas limitações. “Medimos qualidade pelo score de satisfação do cliente. Sabemos que este proxy não capta a saúde da relação a longo prazo. Vamos suplementá-lo com uma revisão trimestral das taxas de retenção de clientes entre tickets tratados pela ferramenta.” O proxy é um compromisso. Nomeiem-no como tal.
Fase 5: Iterar. A primeira especificação vai estar errada. Não catastroficamente errada — praticamente errada. A ferramenta vai produzir outputs que estão tecnicamente alinhados com a especificação mas desalinhados com a intenção. Cada desalinhamento é uma lição em clareza de especificação. Usem-na para refinar.
O Alinhamento Contínuo
O alinhamento não é uma actividade pontual. É contínuo — porque os valores, prioridades e contexto operacional da organização mudam ao longo do tempo.
A especificação que estava correcta em Janeiro pode estar descalibrada em Junho. A base de clientes mudou. O ambiente regulatório mudou. A composição da equipa evoluiu. A definição de “urgente” que funcionava há seis meses já não capta a realidade operacional actual.
Este desalinhamento contínuo é uma característica da vida organizacional, não uma falha de especificação. As organizações são sistemas dinâmicos. Os seus valores e prioridades estão em fluxo contínuo. A especificação — que é estática — afasta-se da realidade — que é dinâmica.
Nas operações tradicionais, este desvio é absorvido pelo julgamento humano. O agente de serviço ao cliente que está na equipa há três anos ajusta implicitamente a sua definição de “urgente” à medida que o contexto muda. Não reescreve a política. Ajusta a prática. O ajuste é invisível, gradual e eficaz.
A ferramenta de IA não ajusta implicitamente. Segue a especificação. Se a especificação se afasta da realidade, os outputs da ferramenta afastam-se com ela — ainda alinhados com a especificação, mas desalinhados com a intenção.
A resposta operacional: revisões de alinhamento programadas. Todos os trimestres, a equipa que usa a ferramenta de IA deve revisitar a especificação: as definições ainda são exactas? As prioridades mudaram? Há novos casos limite que a especificação não cobre? A revisão é curta — uma hora. O custo de não a conduzir é a acumulação gradual de desalinhamento, produzindo outputs que estão tecnicamente correctos e operacionalmente errados.
Este é o custo de manutenção do alinhamento. Não manutenção técnica. Manutenção organizacional. O trabalho de manter a especificação actualizada com a compreensão em evolução que a organização tem dos seus próprios valores.
A Integração
Brian Christian escreveu sobre o problema do alinhamento como um desafio técnico. É. Mas é também um desafio humano — e o desafio humano precede e subsume o técnico.
Não se consegue alinhar uma máquina com valores que não se articularam. Não se consegue articular valores que não se examinaram. Não se consegue examinar valores num ambiente onde o exame não é seguro — o que nos traz de volta à segurança psicológica, às estruturas de incentivos que recompensam valores declarados em vez de valores praticados, ao fosso entre o que as organizações dizem e o que fazem.
O problema do alinhamento não é um problema para resolver. É uma condição para gerir. O fosso entre intenção e especificação é permanente. O melhor que se pode fazer é estreitá-lo — através de articulação, resolução de conflitos, iteração e a humildade de reconhecer que o modo de falha mais comum da máquina não é não compreender os nossos valores, mas compreendê-los exactamente como os especificámos.
A máquina está alinhada. A questão é se nós estamos.