AI Cost Discipline Framework

Sua AI está sangrando dinheiro?

Microsoft cancelou licenças Claude. Uber não consegue justificar o gasto. Empresas estão queimando seis dígitos por mês em "tokenmaxxing" — sem ROI. Quatro perguntas separam quem tem disciplina de quem está perdendo.

Caso real · Axios

$500M em 1 mês

Cliente Anthropic gastou meio bilhão de dólares num único mês

Falha em estabelecer limites de uso. Não foi hack, não foi bug — foi ausência de governança. A mesma armadilha que está prestes a atingir a sua empresa.

Ver as 4 perguntas Diagnóstico gratuito 30min

O que ninguém está te contando

60-90%

do seu gasto com Claude/GPT pode ser cortado migrando workloads não-críticos para modelo menor ou local — sem perder qualidade.

caso de uso onde AI cloud tem PMF claro: coding agents. Tudo o resto exige disciplina explícita ou sangra dinheiro.

30 dias

é o tempo médio que você tem antes que o seu CFO traga essa conversa pra dentro do board.

O backlash já começou — Mai/2026

Quem está acordando para o problema.

Quatro vozes de peso, em uma única reportagem da Axios. Quando você ouve isso de Microsoft + Uber + ex-CIO + CEOs ao mesmo tempo, não é ruído — é sinal.

Microsoft

"Cancelou maioria das licenças Claude"

Custo + redundância com modelos próprios. Sinal claro: até gigantes não conseguem justificar.

Uber · COO

"Cada vez mais difícil de justificar"

Mesmo com Claude Code rodando 25% dos commits, o resto do budget de AI virou pressão.

Sophia Velastegui · ex-CIO MS

"AI hoje só funciona pra codificação"

O resto dos casos de uso exige RAG vertical, dados proprietários e fine-tuning — não API genérica.

Ali Ansari · CEO Micro1

"Tokenmaxxing — queimar tokens sem retorno"

Times internos sob pressão pra mostrar uso, gerando custo sem outcome. O cancer das implementações sem disciplina.

Fonte: Axios — "AI sticker shock hits corporate America" · 28/05/2026

Framework — 4 perguntas que pagam o consultor sozinhas

Responda essas 4.
Corte 60-90% do custo.

Não é mágica, é triagem. Cada pergunta é uma faca cirúrgica para separar o workload que JUSTIFICA cloud premium do workload que está te roubando — sem você saber.

Triagem

Quanto do seu uso é coding?

Coding agents (Claude Code, Codex, Cursor) são o único caso de uso com PMF provado em escala. Se <30% do seu gasto vai pra coding, você está pagando preço de coding por outras coisas.

O que medir

→ % de tokens vindos de IDE / dev tools
→ % de tokens vindos de chat de atendimento
→ % de tokens vindos de RAG interno
→ % de tokens "exploratórios" sem outcome definido

Corte típico se mal alocado 40-60%

Roteamento

Você roteia por tarefa ou por hábito?

Classificação, extração, sumarização curta e Q&A de FAQ rodam em modelos 50x mais baratos (ou local) sem perda perceptível. Se tudo passa por Opus/GPT-4 "porque é mais seguro", você tem um problema de router, não de modelo.

O que medir

→ Existe router explícito (model selection por task)?
→ Qual % roda em modelo "small/cheap" vs "frontier"?
→ Tem fallback automático em rate limit / custo?
→ Cache semântico de respostas frequentes existe?

Corte típico ao implementar router 30-70%

Soberania

O que pode rodar local / on-prem?

Atendimento, RAG sobre base interna, classificação de documentos, OCR estruturado e WhatsApp Business com NLU rodam muito bem em Llama 3.1 / Qwen 2.5 numa GPU única. Custo de inferência: zero. Custo de LGPD: zero.

O que medir

→ Há dados sensíveis (LGPD/saúde/jurídico) saindo da rede?
→ Qual o volume mensal de tokens por workload?
→ Quantos workloads são offline-tolerantes (batch)?
→ Qual o break-even cloud vs GPU própria/aluguel?

Corte ao migrar pra local 70-95%

Outcome

Você sabe seu custo por outcome — não por token?

Token é insumo, não resultado. Custo por ticket resolvido, custo por PR mergeado, custo por lead qualificado — é isso que paga conta. Empresas em "tokenmaxxing" medem o input e ignoram o output.

O que medir

→ Custo médio por outcome de cada workload
→ Taxa de retry / abandono por agente
→ Existe budget per-feature (não só global)?
→ Quem é dono do P&L de cada workload de IA?

Redução de gastos sem outcome 20-50%

Impacto composto típico

Quem responde as 4 com disciplina
fica entre 3x e 10x mais barato.

Realocação
por workload

Router + cache
modelo certo

Local AI
soberania + custo

Outcome-based
P&L por feature

Matriz de decisão

Onde cada workload
deveria estar rodando.

Quatro quadrantes. Se você está pagando preço de "alto valor + complexo" para algo "baixo valor + simples", encontramos o vazamento.

Alto valor · Complexo Cloud frontier

Coding agents · Deep research

Aqui Claude Opus / GPT-5 / Sonnet 4.6 pagam o preço. Ganho de produtividade de senior eng justifica $200-500/seat/mês com folga.

→ Claude Code, Cursor, Codex, agentes de pesquisa enterprise

Alto valor · Estruturado Cloud mid-tier

RAG vertical · Análise jurídica

Modelos mid-tier (Haiku, Sonnet menor, GPT-4o mini) com RAG vertical bem feito entregam o resultado sem o custo de frontier.

→ Pesquisa jurisprudencial, due diligence, classificação de contratos

Sensível · Recorrente Local / On-prem

Atendimento · WhatsApp · Dados privados

Llama 3.1 70B ou Qwen 2.5 numa GPU própria. Zero custo por mensagem, dados nunca saem da rede, LGPD resolvido por arquitetura.

→ Atendimento via WhatsApp, prontuário, processos sigilosos

Baixo valor · Volume Small + cache

Classificação · OCR · Sumarização curta

Modelos pequenos (Haiku, GPT-4o-mini, Llama 8B) com cache semântico agressivo. Custo por inferência cai 50-100x com o mesmo outcome.

→ Triagem de tickets, FAQ bot, etiquetagem em batch

Regra de ouro: a maioria das empresas tem 70-80% do volume nos quadrantes inferiores (sensível + baixo valor) e paga preço de quadrante superior (alto valor + complexo). É aí que mora o sangramento.

Como aplicamos o framework

Diagnóstico → Realocação → ROI auditável.
Sem refazer seu stack do zero.

1 Semana 1

Auditoria de gasto + workloads

Mapeamos cada workload de IA, custo por outcome real, e identificamos os 3 vazamentos prioritários.

Entrega: relatório executivo + heatmap

2 Semanas 2-4

Router + cache + workload local piloto

Implementamos um router de modelo por task, cache semântico, e um workload de teste rodando local — mantendo qualidade.

Entrega: corte de 40-60% no piloto

3 Semanas 5-8

Governança + dashboard outcome-based

Budget por feature, alerta de gasto anômalo, dashboard de custo por outcome — o seu CFO passa a dormir.

Entrega: ROI auditável + handoff

Sua AI está sangrando dinheiro?

Quem está acordando para o problema.

Responda essas 4. Corte 60-90% do custo.

Quanto do seu uso é coding?

Você roteia por tarefa ou por hábito?

O que pode rodar local / on-prem?

Você sabe seu custo por outcome — não por token?

Onde cada workloaddeveria estar rodando.

Coding agents · Deep research

RAG vertical · Análise jurídica

Atendimento · WhatsApp · Dados privados

Classificação · OCR · Sumarização curta

Diagnóstico → Realocação → ROI auditável. Sem refazer seu stack do zero.

Diagnóstico gratuito.30 minutos. Sem pitch.

Responda essas 4.
Corte 60-90% do custo.

Onde cada workload
deveria estar rodando.

Diagnóstico → Realocação → ROI auditável.
Sem refazer seu stack do zero.

Diagnóstico gratuito.
30 minutos. Sem pitch.