O mercado vende governança de custo (FinOps) e segurança de agentes como dois produtos. Não são. O mesmo loop autônomo que multiplica seu gasto de tokens é o que multiplica sua superfície de ataque. Em junho de 2026, o mercado provou os dois lados na mesma semana: Uber esgotou o orçamento de IA de 2026 em meados de março, e o DeepMind admitiu que nem existe ainda um campo de pesquisa para segurança multi-agente. Quem trata as duas dores num único plano de controle ganha nos dois eixos.
Soltar agentes autônomos sem um plano de controle explícito gera, simultaneamente, um buraco no DRE e um buraco no perímetro de segurança. A causa é a mesma: o agente decide sozinho quantas chamadas faz e o que executa.
Uber esgotou o orçamento de IA de 2026 em meados de março (Pragmatic Engineer). Gasto com tokens cresceu 10x em seis meses em grandes empresas; um dev individual em empresa late-stage queima de US$500 a US$1.400 por dia só em Claude Code. Loop autônomo + multi-agente + atuação via browser = consumo não-linear que nenhuma planilha de headcount previu.
Na Meta, engenheiros competem em leaderboards de 'Token Legend' e queimam tokens de propósito para não parecerem 'pouco-IA': 60,2 trilhões de tokens em 30 dias, estimados em ~US$900M. Microsoft e Salesforce relataram o mesmo incentivo perverso. Lei de Goodhart em estado puro — quando uso de IA vira alvo, deixa de medir valor e passa a medir desperdício.
Quando um LLM gera código e um agente o roda inline, 'qualquer modelo suficientemente capaz está a uma injeção de prompt de um postmortem' (InfoQ/Azure). Um Python aparentemente inocente exfiltra chaves de API usando só a stdlib. A onda de sandboxes de hardware (Azure, Cloudflare, E2B, Fly.io) em seis meses prova que rodar código de agente virou risco de infra, não detalhe.
O Google DeepMind montou um fundo de US$10M (com Schmidt Sciences, ARIA, Cooperative AI Foundation) porque, nas palavras do diretor Rohin Shah, 'ainda não existe um campo de pesquisa para segurança multi-agente'. Quando milhões de agentes interagem, prompt injection vira malware auto-guiado, fraude e cascata. O risco que mais cresce é exatamente o menos estudado.
Não vendemos um dashboard de custo nem um WAF de agente. Construímos a camada que decide — antes de cada ação — quanto gastar, onde rodar e o que é permitido. As mesmas quatro alavancas cortam gasto E fecham brecha.
Teto de tokens por agente, por equipe e por tarefa, com justificativa para exceder — o modelo que DoorDash adotou. Não é só economia: um cap também é o limite que impede um agente sequestrado de rodar 10 mil chamadas antes de alguém perceber. O mesmo número protege o DRE e o perímetro.
Um roteador decide tarefa a tarefa: o trivial vai para modelo local/barato (corte típico de 30-90%, dado interno e sustentado por casos como WebContinental); só o que tem ganho real vai para a cloud premium. É o mesmo router que mantém dado sensível dentro de casa — FinOps e soberania (LGPD) na mesma decisão. 'Local onde faz sentido, cloud onde dá ganho real.'
A Shopify renomeou o 'leaderboard' para 'usage dashboard', instalou disjuntores contra agentes desgovernados e verifica pessoalmente os picos de uso. Implementamos o mesmo: gatilhos que cortam um agente em loop, um custo anômalo ou um padrão de chamada suspeito — antes do postmortem. Anomalia de custo e anomalia de segurança disparam o mesmo breaker.
Separamos prompts, RAG e dados em fronteiras distintas (o padrão zero-trust que a Anthropic publicou e o caso McKinsey/Lilli tornou obrigatório). Autorização de domínio ≠ autorização de UI: o agente só executa o que a regra de negócio permite, não o que a página deixa clicar. Cada fronteira é também um ponto de medição de custo.
Triagem + routing + caps cortam tipicamente 60-90% do gasto de tokens sem reduzir entrega, porque a maior parte do consumo é trabalho de baixo valor que nunca precisou de modelo de fronteira. O ganho aparece no DRE no primeiro ciclo de fatura.
Uber zerou o orçamento de IA em março; Meta queimou ~US$900M em um mês via tokenmaxxing. Quando finance perceber o gasto 'let it rip', o corte tende a ser abrupto. Um control plane evita tanto o estouro quanto o corte cego que mata produtividade.
O DeepMind colocou US$10M para criar do zero o campo de segurança multi-agente. 'Não existe esse campo ainda' dito pela maior lab do mundo é a definição de mercado aberto. Quem chega com plano de controle pronto define o padrão.
Cap, router, breaker e fronteira de confiança são o mesmo ponto de decisão visto por ângulos diferentes. Comprar um FinOps e um security stack separados duplica custo e deixa a costura aberta — que é justamente onde o McKinsey/Lilli explodiu.
Um diagnóstico de 1 semana mapeia onde seu gasto de tokens está sangrando, onde um agente roda código sem sandbox, e quais quatro alavancas — caps, routing, breakers, fronteiras — fechariam os dois buracos de uma vez. Antes do estouro de orçamento e do postmortem de segurança.