LLM-as-judge

Usar um modelo de linguagem para avaliar a saída de outro modelo (ou dele mesmo), em vez de depender só de métricas determinísticas. Útil quando a qualidade é subjetiva — coerência, utilidade, adequação de tom — e não há uma resposta única "correta".

O cuidado é que o juiz herda vieses e precisa ser calibrado: rubricas claras, exemplos de referência e verificação contra julgamento humano. Sem calibração, você troca um problema de medição por outro mais difícil de auditar.