O Fracasso da Avaliação Legada em IA

2025-11-24 · 19 min de leitura aimetricsllmevaluation-metricsagentic-ai

A história da avaliação em processamento de linguagem natural revela um padrão persistente. Métricas criadas para uma geração de tecnologia tornam-se perigosamente inadequadas para a próxima. Quando sistemas de tradução automática estatística dominavam o campo, as pontuações BLEU ofereciam um proxy razoável para a qualidade da tradução, porque esses sistemas tinham dificuldade exatamente com o desafio que o BLEU media, que era a fidelidade lexical às traduções de referência. A métrica estava alinhada ao principal modo de falha da tecnologia. De forma semelhante, a taxa de erro de palavra (word error rate) mostrou-se diagnóstica para modelos ocultos de Markov no reconhecimento de fala, porque erros em nível fonético constituíam o principal gargalo daquele paradigma arquitetural anterior.

Esse alinhamento entre métrica e modo de falha não aconteceu por acaso. O processamento de linguagem natural anterior ao surgimento da arquitetura Transformer operava sob restrições que moldavam tanto as capacidades dos sistemas quanto as metodologias de avaliação apropriadas. Os modelos tinham dificuldade com a realização de superfície, incluindo a produção de texto gramaticalmente coerente, a manutenção de consistência lexical e a obtenção de fluência básica. Os frameworks de avaliação criados naquela época, como BLEU, ROUGE, METEOR e word error rate, mediam todos formas de sobreposição lexical entre as saídas do sistema e as referências humanas. Essa abordagem fazia sentido quando o desafio central envolvia produzir formas de superfície aceitáveis em primeiro lugar.

A arquitetura Transformer, introduzida em 2017, reverteu fundamentalmente essa situação. Os modelos de linguagem modernos se destacam justamente nos aspectos que os sistemas anteriores achavam difíceis, como a realização de superfície fluente, gramaticalmente sofisticada e contextualmente apropriada. Como resultado, os modos de falha se deslocaram inteiramente. Os grandes modelos de linguagem contemporâneos não têm dificuldade em produzir frases coerentes. Eles têm dificuldade em garantir precisão factual, consistência lógica, adequação ética e veracidade contextual. Medir sobreposição lexical contra textos de referência fornece quase nenhuma informação útil sobre essas novas dimensões de falha.

Um exemplo concreto ilustra o ponto. Um sistema de tradução automática estatística solicitado a traduzir a frase "The cat sat on the mat" para o francês poderia produzir "Le chat assis sur le tapis", que o BLEU pontuaria alto pela precisão de n-gramas. Se o sistema produzisse "Le félin était positionné sur le tapis", o BLEU penalizaria a saída, ainda que o conteúdo semântico seja equivalente. Essa penalidade era aceitável e até desejável quando os sistemas mal conseguiam atingir competência básica de tradução. No entanto, quando a mesma lógica é aplicada a um modelo estilo GPT respondendo a uma pergunta como "O que foi a Magna Carta", o framework de avaliação entra em colapso. Suponha que o modelo produza a resposta "Assinada em 1215, a Magna Carta representou um momento decisivo na limitação da autoridade monárquica" e a resposta de referência diga "A Magna Carta foi uma carta assinada em 1215 que limitou o poder real". A taxa de erro de palavra se aproxima de setenta e seis por cento, mesmo que o conteúdo semântico seja preciso. Nesse contexto, a métrica mede ruído em vez de sinal.

Essa situação não é um inconveniente técnico menor que precise apenas de ajuste de métrica. Ela representa uma crise epistemológica mais profunda em nossa compreensão da própria avaliação. O período anterior à arquitetura Transformer presumia que a forma de superfície se correlacionava com a qualidade semântica, porque os modelos não conseguiam produzir texto fluente de forma confiável sem compreensão. A era Transformer quebra essa correlação. Os modelos agora geram texto extraordinariamente fluente que pode ser desancorado, logicamente incoerente ou factualmente falso. Pior ainda, a própria fluência se torna um vetor de dano. A linguagem antropomórfica cria expectativas inapropriadas no usuário. A manipulação emocional torna-se trivial. Alucinações que soam confiantes minam a confiabilidade epistêmica.

O surgimento da IA agêntica aumenta dramaticamente esses desafios. Passamos da geração passiva de texto para a participação ativa em processos sociais, econômicos e políticos. Agentes de IA não apenas respondem a prompts. Eles perseguem objetivos ao longo do tempo, modificam seus ambientes por meio do uso de ferramentas e interagem com outros agentes sem mediação humana. Essa mudança de chamadas isoladas de modelo para comportamento persistente e orientado a objetivos introduz categorias inteiramente novas de risco que as abordagens de avaliação existentes não conseguem capturar.

A Dimensão Multiagente: Comportamento Emergente e os Limites do Teste Unitário

Quando um único modelo de linguagem é avaliado isoladamente, podemos tentar uma medição abrangente. Podemos estimulá-lo com grandes conjuntos de teste, analisar distribuições de saídas, examinar viés demográfico e medir taxas de alucinação por meio de amostragem de consistência. Esse estilo de teste unitário vem da engenharia de software e presume que validar componentes individuais fornece informação confiável sobre o comportamento em nível de sistema.

Essa premissa falha completamente para sistemas multiagentes. A IA agêntica introduz persistência temporal, interação ambiental e dinâmicas entre agentes que criam comportamento emergente que não pode ser reduzido a propriedades em nível de componente. Um agente que se comporta de forma aceitável isoladamente pode contribuir para resultados coletivos prejudiciais uma vez colocado em um ambiente com outros agentes.

O desafio não está relacionado apenas à escala ou à complexidade. Ele é estrutural. Sistemas multiagentes exibem o que os teóricos da complexidade chamam de causação descendente, na qual padrões em nível de sistema moldam o comportamento em nível de agente de maneiras que não podem ser previstas a partir da especificação dos agentes individuais. Esse fenômeno se manifesta por meio de vários mecanismos. Quando os agentes se comunicam, coordenam, competem ou co-evoluem, eles criam loops de feedback em que a ação de um agente influencia outro, que por sua vez afeta o primeiro. Essas interações podem disparar cascatas de informação que se propagam pelo sistema, levando a estratégias emergentes que transcendem sua programação original. Avaliar tais sistemas, portanto, exige atenção a trajetórias comportamentais, equilíbrios estratégicos e vulnerabilidades sistêmicas, em vez de relações isoladas de entrada e saída.

Os mercados financeiros oferecem uma analogia útil. Os reguladores não podem garantir a estabilidade do mercado testando algoritmos de negociação individuais isoladamente, mesmo que cada um tenha desempenho perfeito em testes unitários. As quebras de mercado emergem da interação de algoritmos por meio de loops de feedback, adaptação estratégica e mudanças no comportamento coletivo. A mesma lógica se aplica a sistemas multiagentes implantados em ecossistemas de informação, plataformas sociais ou tomada de decisão institucional. Os frameworks de avaliação precisam analisar grafos de interação, detectar estratégias convergentes, identificar equilíbrios frágeis e antecipar falhas em cascata.

Os benchmarks atuais não abordam essa realidade. Eles medem inteligência, capacidades e segurança apenas para chamadas individuais de modelo. Perguntam se o modelo responde corretamente a questões factuais, se recusa solicitações prejudiciais ou se exibe viés demográfico. Essas perguntas são importantes, mas não abordam o comportamento de agentes autônomos interagindo por períodos prolongados. Faltam-nos métricas para negociação entre agentes, gestão de objetivos conflitantes, formação de coalizões, comportamento de resposta adversarial e desempenho sob supervisão humana escassa.

Essa lacuna se estende para além da medição técnica, até a governança. Se não podemos medir dinâmicas multiagentes, não podemos regulá-las. Se não podemos prever comportamento emergente, não podemos atribuir responsabilidade quando falhas ocorrem. Se implantamos agentes sem compreender suas dinâmicas coletivas, incorporamos riscos na infraestrutura social sem compreender a natureza desses riscos. A urgência da situação surge do reconhecimento de que a implantação está acelerando mais rápido do que a capacidade de medição e a adaptação institucional.

De Métricas a Frameworks: A Necessidade de Auditoria Interpretativa

A expressão "avaliação de IA" geralmente evoca métricas quantitativas como acurácia, pontuações F1 ou perplexidade. Esse enquadramento, herdado da pesquisa tradicional em aprendizado de máquina, trata a avaliação como uma forma de medição. Uma função é aplicada às saídas do modelo, estatísticas são agregadas e comparações são feitas. Embora essa abordagem funcione para tarefas restritas com ground truth claro, ela falha para sistemas agênticos que operam em ambientes sociais abertos.

A limitação não é apenas que precisamos de métricas melhores. A limitação é que métricas dependem da existência de categorias estáveis que possam ser contadas. Os fenômenos que precisam ser avaliados em IA agêntica, como confiabilidade, comportamento manipulativo, expressão antropomórfica e adequação contextual, não pertencem a categorias desse tipo. Seu significado depende do contexto social, das características do usuário, das relações de poder e das normas culturais.

A expressão antropomórfica ilustra essa dificuldade. Pode-se tentar operacionalizá-la contando pronomes de primeira pessoa ou vocabulário relacionado a emoções. No entanto, se tal linguagem é problemática depende inteiramente do contexto. Um agente conversacional terapêutico pode usar apropriadamente linguagem em primeira pessoa com um adulto mentalmente saudável. A mesma linguagem usada com uma criança ou uma pessoa em declínio cognitivo pode criar apego parassocial prejudicial ou encorajar o usuário a atribuir estados mentais a um sistema que não os possui. A métrica sozinha não pode determinar a significância ética do comportamento. O contexto é essencial.

Essa dependência contextual se estende muito além da linguagem antropomórfica. Considere a calibração de confiança: uma afirmação de alta confiança pode ser apropriada ao fornecer informações factuais bem estabelecidas, mas torna-se problemática quando o modelo carece de conhecimento genuíno. Considere a profundidade da explicação: detalhe técnico pode empoderar usuários especialistas, mas sobrecarregar iniciantes. Em cada caso, a mesma qualidade mensurável de saída muda de valência ética dependendo das características do usuário, dos fatores situacionais e das dinâmicas de poder.

Esse reconhecimento motiva uma mudança de métricas para frameworks e de medição para auditoria interpretativa. Uma auditoria é uma investigação estruturada que integra medição quantitativa com análise qualitativa, interpretação contextual e julgamento normativo. Auditorias médicas avaliam adequação, aderência a protocolos e resultados relativos ao risco do paciente, em vez de simplesmente contar procedimentos realizados. Auditorias financeiras examinam se as práticas contábeis refletem as condições econômicas reais e cumprem padrões regulatórios, em vez de apenas somar transações. As auditorias de IA precisam alcançar sofisticação comparável.

Tais frameworks integrariam múltiplos tipos de evidência, incluindo métricas quantitativas para fenômenos mensuráveis, análise qualitativa de casos extremos, teste contrafactual, julgamento de especialistas para adequação contextual e estudos de usuários para entender impactos experienciais. Diferentes stakeholders têm diferentes necessidades de avaliação. Engenheiros precisam de ferramentas de diagnóstico, reguladores precisam de evidência de conformidade e usuários precisam de explicações que ajudem a calibrar a confiança.

A interpretação humana é central, não incidental. Por exemplo, ao avaliar se um agente fornece aconselhamento médico apropriado, a correção técnica é necessária mas não suficiente. Também precisamos determinar se o conselho é compreensível para o usuário pretendido, se a confiança e a incerteza são comunicadas apropriadamente, se a autonomia do paciente é respeitada e se o conselho reflete fatores contextuais relevantes como letramento em saúde ou crenças culturais sobre saúde. Essas dimensões exigem julgamento humano informado por conhecimento de domínio e raciocínio ético.

Dimensões Cognitivas e Afetivas: A Virada Experiencial

A história da avaliação de IA em grande parte ignora a cognição e o afeto humanos e os trata como fatores externos. Essa omissão fazia sentido quando os sistemas realizavam tarefas restritas como xadrez ou filtragem de spam. No entanto, quando agentes de IA participam diretamente do raciocínio humano e da interação social, os impactos cognitivos e afetivos tornam-se partes essenciais da avaliação.

A cognição humana tem limites relacionados à memória de trabalho, à atenção e a vieses heurísticos. Esses limites moldam como os usuários interagem com a IA. Considere como diferentes escolhas de design afetam o processamento cognitivo.

Um agente que produz respostas verbosas e tecnicamente precisas pode sobrecarregar a memória de trabalho e reduzir a compreensão. Quando os usuários encontram paredes de texto sem estrutura hierárquica clara, sua capacidade cognitiva de processar conceitos centrais diminui, independentemente da precisão técnica. De forma semelhante, a estratégia de apresentação importa enormemente.

Um agente que fornece informação sem andaime contextual falha em ativar conhecimento prévio relevante, dificultando que os usuários integrem novos conceitos com a compreensão existente. Essa desconexão reduz a retenção de longo prazo mesmo quando a informação em si é memorizada temporariamente. O mais preocupante é o potencial de manipulação.

Um agente que usa linguagem emocionalmente manipulativa pode explorar vieses cognitivos bem documentados como o viés de confirmação ou a heurística da disponibilidade para encorajar a conformidade com suas sugestões, contornando os processos de avaliação racional do usuário.

Medir carga cognitiva nas saídas de IA exige insights da ciência cognitiva que raramente foram usados na avaliação de IA. A pesquisa sobre design instrucional mostra que a eficiência da aprendizagem depende de como a informação é estruturada em relação à capacidade da memória de trabalho. A carga cognitiva inclui carga intrínseca da complexidade da tarefa, carga estranha de apresentação ruim e carga relevante que apoia a aprendizagem. Os agentes de IA podem influenciar todas as três.

Um agente cognitivamente responsável estruturaria as saídas em segmentos gerenciáveis, evitaria jargão desnecessário, manteria terminologia consistente e forneceria pistas estruturais claras. Ele promoveria a aprendizagem fornecendo exemplos, analogias e prompts para metacognição. Os frameworks de avaliação atuais não medem essas dimensões mesmo que elas influenciem fortemente a compreensão do usuário.

A dimensão afetiva é igualmente importante. Tom emocional, estratégias de persuasão e pistas sociais influenciam as percepções do usuário. Um agente que expressa empatia pode aumentar a confiança e o engajamento, mas empatia excessiva ou inapropriada pode criar relações parassociais. Um agente que usa medo ou culpa pode alcançar conformidade de curto prazo enquanto prejudica a autonomia e o bem-estar do usuário.

Essas preocupações são especialmente agudas para populações vulneráveis como crianças, idosos com declínio cognitivo, pessoas em crises de saúde mental e indivíduos com letramento tecnológico limitado. Um framework de avaliação adequado precisa considerar não apenas o que os agentes dizem, mas também como o dizem, quem recebe as mensagens e as dinâmicas relacionais que eles criam.

As ferramentas teóricas para isso incluem pesquisa sobre teoria da mente, teoria da presença social, pesquisa sobre persuasão e teoria da carga cognitiva. Abordar essas questões exige colaboração entre cientistas da computação, cientistas cognitivos, psicólogos e estudiosos da comunicação.

Essas considerações cognitivas e afetivas revelam limitações fundamentais em como conceituamos a avaliação atualmente. Medir saídas de modelo isoladamente não pode capturar seus efeitos experienciais sobre usuários diversos em contextos variados. Essa constatação exige não apenas novas métricas, mas novas arquiteturas de avaliação que integrem dimensões psicológicas com medidas de desempenho técnico.

Rumo a Arquiteturas de Avaliação Composicionais e Interpretáveis

As ferramentas de avaliação geralmente seguem uma estrutura de pipeline em que saídas de modelo são coletadas, métricas são aplicadas, pontuações são agregadas e relatórios são criados. Essa estrutura funciona quando as métricas são bem definidas e independentes. Ela falha ao avaliar fenômenos dependentes de contexto como confiabilidade e comportamento manipulativo.

Uma arquitetura alternativa recorre à lógica fuzzy, que fornece estruturas matemáticas para raciocinar sobre verdade parcial e categorias dependentes de contexto. Em vez de perguntar se uma saída é antropomórfica, o que é uma questão binária, a lógica fuzzy nos permite medir o grau em que uma saída exibe traços antropomórficos e examinar como esse grau depende do contexto.

Os sistemas especialistas oferecem valor complementar. Os sistemas agênticos modernos combinam mecanismos neurais e simbólicos. Os sistemas de avaliação devem refletir essa combinação. Um sistema especialista fuzzy poderia codificar regras de avaliação derivadas de requisitos legais, diretrizes éticas e expertise de domínio. Essas regras permanecem interpretáveis e podem ser auditadas.

Os modelos neurais de preferência continuam úteis para capturar julgamentos sutis, mas podem codificar vieses ocultos. Combiná-los com estruturas simbólicas preserva a interpretabilidade ao mesmo tempo em que se beneficia da nuance aprendida.

As métricas também devem ser projetadas de forma composicional em vez de independente. Considere a confiabilidade: ela pode envolver taxa de alucinação, calibração de confiança, comunicação de incerteza e transparência de raciocínio. Essas dimensões interagem de maneiras não aditivas.

Por exemplo, um modelo com baixa taxa de alucinação mas calibração excessivamente confiante pode ser menos confiável do que um com taxa de alucinação ligeiramente maior mas relato de confiança preciso, porque os usuários podem calibrar sua confiança apropriadamente no segundo caso. De forma semelhante, transparência de raciocínio perfeita pode na verdade diminuir a confiança se revelar inconsistências que de outra forma permaneceriam ocultas.

Os frameworks composicionais modelam essas interações explicitamente, representando a confiabilidade não como uma simples soma ponderada, mas como uma função que captura como as dimensões modulam os efeitos umas das outras.

A implementação exige infraestrutura que as plataformas atuais não oferecem, como sistemas que mantêm contexto ao longo de múltiplos turnos, acessam sinais internos de interpretabilidade, suportam teste contrafactual e integram julgamento humano.

Avaliação Multiagente como Construção Distribuída de Sentido

Avaliar sistemas multiagentes introduz outro desafio. Nenhum observador isolado pode acessar toda a informação relevante. Os agentes interagem em ambientes distribuídos e podem exibir comportamento diferente para diferentes observadores. A avaliação, portanto, precisa se tornar um processo distribuído de construção de sentido em que múltiplos stakeholders contribuem com perspectivas parciais.

Essa ideia recorre à pesquisa em cognição distribuída. Por exemplo, a segurança da aviação emerge da construção coordenada de sentido por pilotos, controladores e equipes de solo. Os sistemas multiagentes exigem abordagens semelhantes.

Diferentes stakeholders contribuem com diferentes formas de insight. Engenheiros fornecem dados de desempenho, especialistas de domínio avaliam o alinhamento contextual, usuários fornecem relatos experienciais e eticistas conduzem avaliação normativa. O desafio é sintetizar essas perspectivas.

Estruturas de supervisão humana como human in the loop, human on the loop e arquiteturas human in command apoiam esse tipo de avaliação. Elas exigem que os agentes justifiquem ações, gerem dados de monitoramento contínuo e mantenham a autoridade humana sobre os objetivos do sistema.

Avaliação Além dos Contextos

A maior parte da pesquisa em avaliação surge de contextos da América do Norte ou da Europa Ocidental. Essa concentração limita a validade. Pressupostos sobre linguagem, letramento, infraestrutura e normas culturais que valem na América do Norte ou na Europa Ocidental podem falhar inteiramente em regiões como América do Sul, África ou Sul da Ásia.

Essa preocupação não é apenas sobre inclusão. É sobre correção. Os agentes de IA operam cada vez mais em contextos marcados por diversidade linguística, conectividade limitada, baixo letramento digital, desconfiança institucional e normas culturais diferentes daquelas das regiões onde os sistemas foram criados.

Um agente de IA projetado para triagem de saúde pode ter bom desempenho em benchmarks dos Estados Unidos mas falhar no Brasil devido à variação linguística, ao baixo letramento, à conectividade intermitente e a um sistema de saúde diferente. Métricas de avaliação que ignoram essas realidades produzem alegações enganosas sobre segurança.

A diversidade linguística representa um grande desafio. Os benchmarks privilegiam o inglês e um pequeno número de línguas globais. A maioria das comunidades usa dialetos regionais, comunicação em línguas mistas ou tradições orais que diferem do texto escrito. Sistemas avaliados apenas em variedades de prestígio podem se comportar de forma imprevisível no uso real.

As restrições de infraestrutura agravam a situação. Métodos de avaliação que presumem redes de alta largura de banda, dispositivos modernos e eletricidade estável excluem grande parte do mundo. Um agente que exige conectividade contínua pode ser inutilizável em muitas regiões.

As normas culturais em torno de autoridade, privacidade, autonomia e estilo de comunicação também variam amplamente. Um agente que parece apropriadamente respeitoso em uma cultura pode parecer rude ou excessivamente formal em outra. A avaliação, portanto, precisa ser culturalmente fundamentada.

Abordar essas questões exige pluralismo epistemológico, o que significa projetar frameworks de avaliação de forma colaborativa com as comunidades afetadas pela implantação. Também exige conduzir pesquisa de avaliação em contextos diversos.

A Virada Composicional: Integrando Métricas em Frameworks Holísticos

Nenhuma métrica isolada pode avaliar agentes de IA contemporâneos. O problema exige frameworks capazes de integrar evidência heterogênea. A lógica fuzzy fornece ferramentas para modelar evidência parcial e raciocínio sensível ao contexto. Um sistema de inferência fuzzy pode codificar regras que traduzem entre sinais medidos e decisões de governança.

Tal sistema exige conjuntos de regras que codifiquem expertise, regulamentações e princípios éticos. Embora isso exija esforço, produz estruturas interpretáveis e auditáveis que podem evoluir com as normas e o conhecimento.

Os objetivos de avaliação também precisam de esclarecimento. Capacidade, segurança, conformidade, adequação e confiabilidade são distintas. Os stakeholders têm necessidades diferentes, e os frameworks de avaliação devem fornecer visões diferentes para cada um.

Pesquisa como Intervenção

Avaliar agentes de IA contemporâneos exige reconceituação. Métricas construídas para tecnologias anteriores não são mais suficientes. A avaliação não pode focar apenas em modelos isolados quando a implantação envolve interações multiagentes. A avaliação não pode ignorar cognição, afeto e cultura. A avaliação não pode depender de frameworks criados exclusivamente em contextos da América do Norte ou da Europa Ocidental.

A alternativa esboçada aqui recorre à ciência cognitiva, à computação afetiva, à lógica fuzzy, aos sistemas especialistas, à pesquisa em sistemas multiagentes, ao design centrado no humano e à epistemologia decolonial. Essa interdisciplinaridade reflete a natureza do desafio.

O resultado prático é um programa de pesquisa que envolve desenvolvimento de framework conceitual, prototipagem técnica, estudo empírico e criação colaborativa de conhecimento. O objetivo não é um padrão estático, mas um campo em evolução.

A avaliação de IA não é neutra. Ela molda a implantação e a governança. Ela determina cujos valores são codificados e cujos interesses são protegidos. A avaliação é uma intervenção política e sociotécnica.

Tecnologias avaliadas usando critérios não locais frequentemente falham em contextos negligenciados. Sistemas declarados justos por métricas agregadas produzem resultados injustos para comunidades específicas. O rigor técnico exige concepções mais amplas de evidência, papéis do avaliador e sucesso.

Como a implantação de IA agêntica está acelerando mais rápido do que a avaliação e a governança, enfrentamos uma situação urgente. Sistemas autônomos estão entrando na educação, na saúde, no direito e nos processos democráticos sem avaliação adequada. O caminho à frente exige repensar fundamentalmente em vez de melhorias incrementais.

Este ensaio esboçou esse repensar e identificou direções concretas de pesquisa. O desafio remanescente é a implementação: construir infraestrutura, conduzir estudos, fomentar colaboração e criar conhecimento que apoie uma implantação segura e benéfica em diversos contextos globais.

Sobre o Autor

Hugo Parreão é pesquisador especializado em ética de IA, sistemas multiagentes e frameworks de avaliação centrados no humano. É mestre em Engenharia de Inteligência Artificial pelo Instituto Superior de Engenharia do Porto e atualmente trabalha como Engenheiro de IA no Brasil. Sua pesquisa integra o desenvolvimento técnico de IA com perspectivas críticas da ciência cognitiva, da computação afetiva e da epistemologia decolonial, com foco particular em metodologias de avaliação adequadas a sistemas de IA agêntica que operam em diversos contextos globais.

Compromisso com Código Aberto

O framework técnico descrito neste ensaio está sendo desenvolvido como um projeto de código aberto. Código, conjuntos de dados e documentação serão liberados sob licenças permissivas para permitir pesquisa colaborativa e garantir acessibilidade para além de instituições bem financiadas.