COMO MEDIR O DESEMPENHO DE AGENTES DE IA EM PRODUÇÃO
O paradoxo da medição: todos querem agentes, poucos sabem medi-los
A promessa dos agentes de IA, sistemas que executam tarefas complexas com autonomia crescente, mobilizou investimentos massivos em 2025 e 2026. Empresas de todos os portes iniciaram projetos ambiciosos, desde assistentes de atendimento ao cliente até agentes de análise de dados que prometiam substituir horas de trabalho manual por execuções automatizadas em minutos. Contudo, entre a promessa e a realidade operacional existe uma lacuna que poucos estão endereçando com o rigor necessário: como saber se esses agentes estão realmente funcionando? Como medir se eles entregam o valor prometido, com a qualidade esperada, pelo custo previsto e sem introduzir riscos que superem os benefícios? Essas perguntas, aparentemente simples, revelam uma das maiores fragilidades do ecossistema atual de IA agêntica.
O estudo MAP (Multi-Agent in Practice), que analisou 20 estudos de caso detalhados e coletou dados de 306 praticantes em 26 domínios diferentes, revelou um cenário que deveria preocupar qualquer líder técnico: 75% dos praticantes que têm agentes em produção simplesmente dispensam benchmarking formal. Não é que eles tenham decidido que benchmarks são desnecessários após análise criteriosa; na maioria dos casos, eles não sabem o que medir, como medir ou não têm infraestrutura para fazê-lo de forma consistente. Esse é o paradoxo que percorremos neste artigo: a tecnologia avança mais rápido do que nossa capacidade de avaliá-la, e isso cria riscos operacionais significativos para quem coloca agentes em produção sem um framework de medição robusto.
O que o estudo MAP nos ensina sobre agentes reais
O estudo MAP é, até o momento, o levantamento mais abrangente sobre como agentes de IA são efetivamente utilizados em produção, e seus achados desafiam várias narrativas populares sobre o tema. Compreender esses dados é fundamental para estabelecer expectativas realistas e definir métricas adequadas.
O primeiro achado relevante é que 80% das organizações desenvolvem agentes com o objetivo primário de aumentar produtividade, e 72% citam a redução de horas-tarefa humanas como a métrica de sucesso mais importante. Isso pode parecer óbvio, mas tem uma implicação profunda para a medição: se o objetivo principal é economizar tempo humano, a métrica primária deveria ser horas economizadas versus horas investidas na operação, manutenção e supervisão do agente. Muitas organizações, no entanto, medem apenas a execução do agente isoladamente, sem contabilizar o tempo humano gasto em supervisão, correção de erros e retrabalho, o que distorce completamente o cálculo de ROI.
O segundo achado é que 68% dos agentes em produção executam no máximo dez passos antes de requerer intervenção humana. Essa estatística desmistifica a narrativa de agentes totalmente autônomos que executam fluxos complexos sem supervisão. Na realidade, a maioria dos agentes em produção opera em ciclos curtos, com checkpoints humanos frequentes. Isso não é necessariamente uma limitação: o estudo conclui que "practitioners achieve reliability through system-level design rather than model-level advances", ou seja, a confiabilidade é alcançada pelo design do sistema, e não pela capacidade intrínseca do modelo. Agentes que funcionam bem em produção são aqueles cujos desenvolvedores projetaram pontos de intervenção humana nos momentos certos, e não aqueles que tentam maximizar a autonomia a qualquer custo.
O terceiro achado, que talvez seja o mais revelador, é que 80% dos agentes em produção utilizam workflows estruturados e predefinidos, e não planejamento autônomo. Isso significa que a imagem popular do agente que recebe um objetivo aberto e decide sozinho como alcançá-lo não corresponde à realidade da maioria das implantações de sucesso. Os agentes que funcionam em produção são, em sua maioria, orquestradores sofisticados de tarefas predefinidas, com lógica de decisão delimitada e fallbacks claros para quando algo sai do caminho esperado. Para a medição, essa distinção é crucial, pois medir um agente de workflow estruturado exige métricas diferentes das que seriam adequadas para um agente de planejamento autônomo.
As quatro dimensões da medição: confiabilidade, latência, custo e qualidade
Diante dos achados do estudo MAP, podemos estruturar a medição de agentes em produção em quatro dimensões complementares, cada uma capturando um aspecto essencial do desempenho que nenhuma das outras substitui.
Confiabilidade: a métrica que define o sucesso
O estudo MAP é inequívoco: "reliability, consistent correct behavior over time, remains the top development challenge." A confiabilidade é a capacidade do agente de produzir resultados corretos de forma consistente ao longo do tempo, sob condições variadas de input e carga. É a métrica mais importante e, paradoxalmente, a mais difícil de medir, pois exige definições claras do que constitui "correto" em cada contexto de uso.
Para medir confiabilidade de forma prática, podemos decompô-la em três submétricas. A taxa de conclusão de tarefas mede a proporção de tarefas que o agente completa sem intervenção humana, do início ao fim. A taxa de acerto funcional mede, entre as tarefas completadas, quantas produziram resultados corretos segundo critérios predefinidos. E a taxa de degradação mede como essas métricas variam ao longo do tempo, pois um agente que funciona bem na primeira semana e degrada progressivamente à medida que as condições de produção divergem dos dados de teste não é confiável, mesmo que seus números iniciais sejam excelentes.
Uma abordagem que se mostrou eficaz em projetos que acompanhamos na Frame8 é a definição de SLOs (Service Level Objectives) específicos para cada dimensão de confiabilidade, com thresholds que disparam alertas quando o desempenho cai abaixo do aceitável. Por exemplo: taxa de conclusão acima de 85%, taxa de acerto funcional acima de 90%, variação mensal máxima de 5% em qualquer métrica. Esses números variam por caso de uso, mas o princípio é universal: sem SLOs explícitos, a degradação passa despercebida até que um incidente grave a torne visível.
Latência: o tempo que importa para o usuário
O estudo MAP revelou que 66% dos agentes em produção permitem tempos de resposta de minutos ou mais, e que "minute-scale agents still outperform human baselines by 10x." Esse dado redefine o que "rápido" significa no contexto de agentes: diferentemente de APIs tradicionais onde latências de milissegundos são o padrão, agentes que completam em dois minutos uma tarefa que levaria vinte minutos para um humano estão entregando valor excepcional, mesmo que dois minutos pareçam uma eternidade para quem está acostumado com a resposta instantânea de um chatbot.
Ainda assim, a latência precisa ser medida e monitorada com rigor, pois ela afeta diretamente a experiência do usuário e a viabilidade econômica do agente. As métricas essenciais são a latência mediana (p50), que captura a experiência típica, a latência p95, que captura os piores casos que ainda são frequentes, e a latência p99, que captura os outliers extremos que podem indicar problemas sistêmicos. A pesquisa da Mem0 demonstrou que otimizações de memória e contexto podem reduzir a latência p95 em até 91%, o que evidencia que há espaço significativo para melhorias de performance sem alterar o modelo subjacente.
A decomposição da latência por etapa do workflow do agente é igualmente importante, pois permite identificar gargalos específicos. Em muitos casos, descobrimos que a maior parte do tempo não é gasta na inferência do modelo, mas em chamadas a ferramentas externas, consultas a bancos de dados ou espera por APIs de terceiros. Sem essa visibilidade granular, otimizações de latência tendem a focar no componente errado.
Custo: o denominador esquecido do ROI
Se 80% das organizações buscam produtividade e 72% buscam redução de horas humanas, o custo operacional do agente é o denominador sem o qual nenhum cálculo de ROI se sustenta. E esse custo vai muito além do consumo de tokens de API. Ele inclui infraestrutura de computação, custos de APIs de ferramentas, tempo humano de supervisão e correção, custo de manutenção e evolução do agente, e custo de incidentes causados por erros do agente.
Uma prática que recomendamos é calcular o custo total por tarefa completada com sucesso, não por execução. Essa distinção é fundamental, pois um agente que custa R$ 0,50 por execução mas falha 40% das vezes tem um custo efetivo de R$ 0,83 por tarefa bem-sucedida, sem contar o custo humano de lidar com as falhas. Quando o custo de correção humana é incluído, o custo real pode ser duas ou três vezes o custo aparente. Organizações que medem apenas custo por execução tendem a subestimar sistematicamente o custo real de seus agentes.
Qualidade: além do certo e errado
A dimensão de qualidade captura o que as métricas binárias de confiabilidade não alcançam: quão bom é o resultado quando o agente acerta? Uma resposta pode ser tecnicamente correta mas pobremente formatada, uma análise pode chegar à conclusão certa mas omitir nuances importantes, uma automação pode completar a tarefa mas gerar artefatos que precisam de polimento humano.
O estudo MAP revelou que 74% dos agentes em produção dependem primariamente de avaliação humana para aferir qualidade, e 92,5% dos agentes servem usuários humanos, o que significa que a percepção subjetiva de qualidade é operacionalmente relevante. A combinação de métricas automáticas, como LLM-as-Judge, com avaliação humana amostral parece ser o equilíbrio mais pragmático. A pesquisa da Mem0 mostrou que suas otimizações produziram uma melhoria de 26% nas avaliações de LLM-as-Judge, demonstrando que essa abordagem é sensível o suficiente para capturar melhorias reais de qualidade.
Observabilidade: a infraestrutura que torna a medição possível
Definir métricas é inútil sem a infraestrutura para coletá-las. A observabilidade de agentes de IA em produção é um campo que amadureceu significativamente nos últimos dezoito meses, mas que ainda exige decisões arquiteturais deliberadas, pois a maioria dos frameworks de agentes não inclui observabilidade nativa com a profundidade necessária para operação em produção.
Um sistema de observabilidade adequado para agentes em produção precisa cobrir três camadas. A primeira é o tracing distribuído, que registra cada passo do agente, incluindo a decisão de qual ferramenta usar, os inputs enviados, os outputs recebidos, o tempo de execução e eventuais erros. Essa camada é o equivalente dos logs de aplicação em sistemas tradicionais, mas com a complexidade adicional de que cada "requisição" de um agente pode envolver dezenas de chamadas interdependentes.
A segunda camada é a avaliação contínua, que executa automaticamente verificações de qualidade sobre amostras de outputs do agente. Isso pode incluir validações sintáticas, verificações de fatos contra bases de dados conhecidas, detecção de padrões anômalos e, quando aplicável, avaliações por LLM-as-Judge que classificam a qualidade do output em dimensões predefinidas.
A terceira camada é o alerting e escalação, que transforma dados de observabilidade em ações. Alertas devem ser configurados para degradação de performance, aumento de taxa de erro, anomalias de custo e padrões de uso inesperados. A experiência mostra que alertas bem calibrados, que disparam com frequência suficiente para serem úteis mas não tão frequente que sejam ignorados, são a diferença entre detectar problemas em horas e detectá-los em semanas.
Padrões de produção que funcionam: lições dos 20 case studies
Os vinte estudos de caso analisados pelo estudo MAP revelam padrões convergentes que distinguem implantações bem-sucedidas de agentes das que são abandonadas ou degradam progressivamente. Três padrões se destacam pela sua consistência.
O primeiro padrão é o design para intervenção humana, não apesar dela. As implantações mais bem-sucedidas não tentam eliminar o humano do loop; elas otimizam onde e quando o humano intervém. Isso inclui checkpoints de validação em pontos críticos do workflow, mecanismos de escalação automática quando o agente detecta baixa confiança, e interfaces que permitem ao humano corrigir e ensinar o agente de forma eficiente. A métrica operacional chave aqui é o tempo médio de intervenção humana por tarefa, que deveria diminuir ao longo do tempo à medida que o agente aprende com as correções.
O segundo padrão é a decomposição de tarefas complexas em sequências de tarefas simples. Agentes que tentam resolver problemas complexos de ponta a ponta em uma única execução tendem a ser mais frágeis e difíceis de diagnosticar quando falham. Agentes que decompõem o problema em etapas menores, com verificações intermediárias, são mais confiáveis, mais observáveis e mais fáceis de otimizar, pois cada etapa pode ser medida e melhorada independentemente.
O terceiro padrão é a iteração baseada em dados de produção, não em dados de teste. O achado de que 75% dispensam benchmarking formal não significa que as implantações bem-sucedidas não medem nada; significa que elas medem em produção, com dados reais, em condições reais. As melhores equipes mantêm datasets de avaliação que evoluem continuamente com casos reais que revelaram falhas ou comportamentos inesperados, criando um ciclo virtuoso onde cada erro em produção fortalece a capacidade de avaliação.
De métricas a decisões: o framework que recomendamos
Percorremos até aqui o panorama de como agentes de IA se comportam em produção, quais métricas capturar e como implementar a infraestrutura de observabilidade necessária. Podemos agora sintetizar em um framework prático que temos aplicado em projetos da Frame8 e que pode ser adaptado a diferentes contextos e maturidades organizacionais.
O framework se organiza em três níveis de maturidade. O primeiro nível, essencial para qualquer agente em produção, compreende métricas de taxa de conclusão, taxa de erro, latência mediana e custo por execução, coletadas via logging básico e revisadas semanalmente. O segundo nível adiciona tracing distribuído, avaliação contínua por amostragem, métricas de qualidade via LLM-as-Judge, decomposição de custo por componente e alerting automatizado. O terceiro nível incorpora avaliação A/B de variantes do agente, correlação entre métricas de agente e métricas de negócio, predição de degradação e otimização automática de parâmetros.
A maioria das organizações deveria iniciar no primeiro nível e avançar progressivamente, resistindo à tentação de implementar o terceiro nível antes de ter o primeiro funcionando de forma confiável. Medir pouco de forma consistente é infinitamente mais valioso do que medir muito de forma esporádica. O objetivo final não é ter dashboards impressionantes, mas sim a capacidade de responder com confiança a três perguntas fundamentais: o agente está funcionando? Está entregando valor? Está piorando ao longo do tempo? Se você consegue responder essas três perguntas com dados, está à frente da vasta maioria do mercado.