Análise Stickybit · Junho 2026

Seu agente sangra dinheiro e abre porta ao mesmo tempo. Custo e segurança de agentes são o mesmo problema. Trate-os na mesma régua.

O mercado vende governança de custo (FinOps) e segurança de agentes como dois produtos. Não são. O mesmo loop autônomo que multiplica seu gasto de tokens é o que multiplica sua superfície de ataque. Em junho de 2026, o mercado provou os dois lados na mesma semana: Uber esgotou o orçamento de IA de 2026 em meados de março, e o DeepMind admitiu que nem existe ainda um campo de pesquisa para segurança multi-agente. Quem trata as duas dores num único plano de controle ganha nos dois eixos.

O Problema

O Problema: Dois Vazamentos, Uma Causa

Soltar agentes autônomos sem um plano de controle explícito gera, simultaneamente, um buraco no DRE e um buraco no perímetro de segurança. A causa é a mesma: o agente decide sozinho quantas chamadas faz e o que executa.

O orçamento estoura sem aviso

Uber esgotou o orçamento de IA de 2026 em meados de março (Pragmatic Engineer). Gasto com tokens cresceu 10x em seis meses em grandes empresas; um dev individual em empresa late-stage queima de US$500 a US$1.400 por dia só em Claude Code. Loop autônomo + multi-agente + atuação via browser = consumo não-linear que nenhuma planilha de headcount previu.

A métrica vira meta e apodrece (tokenmaxxing)

Na Meta, engenheiros competem em leaderboards de 'Token Legend' e queimam tokens de propósito para não parecerem 'pouco-IA': 60,2 trilhões de tokens em 30 dias, estimados em ~US$900M. Microsoft e Salesforce relataram o mesmo incentivo perverso. Lei de Goodhart em estado puro — quando uso de IA vira alvo, deixa de medir valor e passa a medir desperdício.

A execução é a superfície de ataque

Quando um LLM gera código e um agente o roda inline, 'qualquer modelo suficientemente capaz está a uma injeção de prompt de um postmortem' (InfoQ/Azure). Um Python aparentemente inocente exfiltra chaves de API usando só a stdlib. A onda de sandboxes de hardware (Azure, Cloudflare, E2B, Fly.io) em seis meses prova que rodar código de agente virou risco de infra, não detalhe.

Multi-agente é terra de ninguém

O Google DeepMind montou um fundo de US$10M (com Schmidt Sciences, ARIA, Cooperative AI Foundation) porque, nas palavras do diretor Rohin Shah, 'ainda não existe um campo de pesquisa para segurança multi-agente'. Quando milhões de agentes interagem, prompt injection vira malware auto-guiado, fraude e cascata. O risco que mais cresce é exatamente o menos estudado.

Nossa Abordagem

O Control Plane: Quatro Alavancas, Uma Régua

Não vendemos um dashboard de custo nem um WAF de agente. Construímos a camada que decide — antes de cada ação — quanto gastar, onde rodar e o que é permitido. As mesmas quatro alavancas cortam gasto E fecham brecha.

1

Caps & quotas por workload — o freio de orçamento

Teto de tokens por agente, por equipe e por tarefa, com justificativa para exceder — o modelo que DoorDash adotou. Não é só economia: um cap também é o limite que impede um agente sequestrado de rodar 10 mil chamadas antes de alguém perceber. O mesmo número protege o DRE e o perímetro.

2

Routing explícito local↔cloud — triagem por valor

Um roteador decide tarefa a tarefa: o trivial vai para modelo local/barato (corte típico de 30-90%, dado interno e sustentado por casos como WebContinental); só o que tem ganho real vai para a cloud premium. É o mesmo router que mantém dado sensível dentro de casa — FinOps e soberania (LGPD) na mesma decisão. 'Local onde faz sentido, cloud onde dá ganho real.'

3

Circuit breakers — o disjuntor da Shopify

A Shopify renomeou o 'leaderboard' para 'usage dashboard', instalou disjuntores contra agentes desgovernados e verifica pessoalmente os picos de uso. Implementamos o mesmo: gatilhos que cortam um agente em loop, um custo anômalo ou um padrão de chamada suspeito — antes do postmortem. Anomalia de custo e anomalia de segurança disparam o mesmo breaker.

4

Fronteiras de confiança — zero-trust de agente

Separamos prompts, RAG e dados em fronteiras distintas (o padrão zero-trust que a Anthropic publicou e o caso McKinsey/Lilli tornou obrigatório). Autorização de domínio ≠ autorização de UI: o agente só executa o que a regra de negócio permite, não o que a página deixa clicar. Cada fronteira é também um ponto de medição de custo.

Resultados

O que entregamos

60-90% corte

Corte de custo sem perder produtividade

Triagem + routing + caps cortam tipicamente 60-90% do gasto de tokens sem reduzir entrega, porque a maior parte do consumo é trabalho de baixo valor que nunca precisou de modelo de fronteira. O ganho aparece no DRE no primeiro ciclo de fatura.

Março / US$900M

A dor é simultânea — e foi provada

Uber zerou o orçamento de IA em março; Meta queimou ~US$900M em um mês via tokenmaxxing. Quando finance perceber o gasto 'let it rip', o corte tende a ser abrupto. Um control plane evita tanto o estouro quanto o corte cego que mata produtividade.

US$10M green field

Você está cedo num green field

O DeepMind colocou US$10M para criar do zero o campo de segurança multi-agente. 'Não existe esse campo ainda' dito pela maior lab do mundo é a definição de mercado aberto. Quem chega com plano de controle pronto define o padrão.

4 alavancas

Uma régua, não duas ferramentas

Cap, router, breaker e fronteira de confiança são o mesmo ponto de decisão visto por ângulos diferentes. Comprar um FinOps e um security stack separados duplica custo e deixa a costura aberta — que é justamente onde o McKinsey/Lilli explodiu.

Seus agentes têm um plano de controle — ou só um cartão de crédito e uma porta aberta?

Um diagnóstico de 1 semana mapeia onde seu gasto de tokens está sangrando, onde um agente roda código sem sandbox, e quais quatro alavancas — caps, routing, breakers, fronteiras — fechariam os dois buracos de uma vez. Antes do estouro de orçamento e do postmortem de segurança.