Editoria Especial · Stickybit 2026

O dado é a capacidade, não o modelo A lição do DataClaw0.

Um paper que disparou no Hugging Face esta semana — DataClaw0 (arXiv 2606.21337) — coloca um modelo aberto de 9B para igualar GPT-4o e Gemini na tarefa de transformar streams brutos em dado de treino limpo. Lido com frieza, é o argumento mais concreto de 2026 a favor de uma tese que defendemos: em IA aplicada, quem ganha não é quem tem o maior modelo — é quem tem o melhor dado.

A tese

Da anotação passiva à alfaiataria de dados

Streams multimodais brutos têm 'alta entropia' — ruído que atrapalha humano e máquina. A proposta do DataClaw0 é tratar a preparação de dados como capacidade aprendível, não como regra fixa.

A prática dominante é passiva: regras heurísticas ou um VLM genérico filtrando dados. O DataClaw0 propõe o oposto — um agente que refina e estrutura ativamente o dado bruto, alinhado à intenção da tarefa final. Em vez de 'limpar genericamente', ele alfaia o dado para o que o modelo downstream vai precisar.

Tecnicamente: base Qwen3.5-9B, SFT em apenas 34 mil instruções limpas, depois RL via GRPO com um reward de 'âncora físico-espacial' que preserva a ordem temporal dos eventos. Tudo em 8 GPUs A100. Nada de fronteira proprietária — um modelo aberto, médio, treinável por uma equipe pequena.

O resultado relevante para o nosso trabalho não é o ranking acadêmico. É a economia: se um 9B local faz a curadoria tão bem quanto um modelo de fronteira, o custo de produzir dado de qualidade para fine-tune e RAG vertical despenca — e a vantagem migra do tamanho do modelo para o desenho do pipeline de dados.

Quem tem o melhor dado vence quem tem o maior modelo.
— Tese Stickybit, em leitura de DataClaw0 (Wan et al., arXiv 2606.21337)

Os números

O achado: um 9B aberto encosta nos modelos de fronteira

Avaliando a qualidade da própria alfaiataria de dados (Field = completude de schema · Semantic = correção de conteúdo · Sequence = consistência temporal), a variante com roteamento por especialistas (DataClaw0-E) empata com GPT-4o e fica perto do Gemini — partindo de uma base 9B que sozinha era bem pior.

Anotador	Field	Semantic	Sequence
Claude-Sonnet-4-6	88.98	63.96	42.70
GPT-4o	97.27	75.15	49.43
Gemini-3.1-Pro	98.12	73.85	58.50
Qwen3.5-9B (base, sem treino)	89.64	60.46	36.24
DataClaw0-E · 9B (proposto)	97.53	74.94	48.86

Leitura — O ganho não vem do modelo único de 9B (a variante 'omni' fica fraca, em 87.65 de Field). Vem do roteamento por especialistas de domínio — uma decisão de arquitetura de pipeline, não de escala.

A prova

A prova que importa: o dado dele treina modelos melhores

Sob volume de treino idêntico, os mesmos dados brutos foram processados por três fontes. O dado do DataClaw0 (9B) treina modelos downstream tão bem quanto o dado gerado pelo Gemini de fronteira — e melhor em vídeo e VQA.

Fonte do dado de treino	GUI (SSR/TSR %)	Vídeo (FVD↓ / Contact↑)	VQA (%)
Sem treino (zero-shot)	12.4 / 1.2	385.2 / 18.5	9.8
Processado pelo próprio modelo base	16.8 / 3.5	362.1 / 24.2	14.2
Processado por Gemini-3.1-Pro	39.5 / 14.2	295.4 / 48.5	31.5
Processado por DataClaw0 · 9B	38.2 / 15.6	288.6 / 51.2	33.2

Leitura — Dado auto-processado quase não ajuda (16.8 vs. 12.4): o que move o ponteiro é um anotador forte. A novidade é que esse anotador forte pode ser um 9B local — não precisa ser API de fronteira.

Leitura crítica

A leitura crítica: onde os números sobrevendem

Resultado direcionalmente forte, mas com ressalvas que separam a manchete da realidade de produção.

'9B' é meio-truque

O número bom é o DataClaw0-E, que é um conjunto de especialistas + roteador — não um único 9B. O 9B sozinho ('omni') empata com a própria base. Comparar com 'um GPT-4o' mistura maçãs e cestas.

O roteador é frágil

Mandar dado de um domínio para o especialista errado derruba a métrica a zero. Streams reais não vêm rotulados por domínio — a robustez do roteador é o risco de produção que o paper não estressa.

Empata, não vence

No downstream o DataClaw0 é 'comparável ao Gemini', não superior. O valor é o custo (9B aberto e local), não a qualidade absoluta. O abstract insinua mais do que entrega.

Benchmark próprio e saturado

A métrica Field bate 100,00 para vários modelos — fácil demais. A única dimensão discriminante (Sequence) é onde todos vão mal. Mérito difícil de cravar sem um benchmark externo.

O que isso muda

Para quem faz IA vertical

9B vs. frontier

Anotador local ≈ fronteira

Para fine-tune vertical, rodar um especialista aberto na curadoria de dados pode entregar qualidade de fronteira a uma fração do custo de API — exatamente o regime de PME e consultoria local.

Pipeline > escala

O dado é o ativo, não o modelo

A vantagem migra do tamanho do modelo para o desenho do pipeline de dados. É aí que projetamos: ingestão, refinamento e os evals que provam que o dado serve à tarefa.

Gate no dado

O roteamento é encanamento a desenhar

A fragilidade do roteador é o tipo de costura que precisa ser projetada, não improvisada — com um gate que valide a rota antes do dado entrar no treino.

Fontes

Referências

Fontes desta análise.

1
Wan et al. · arXiv 2606.21337 DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams
Paper-base. Modelo DataClaw0-9B (Qwen3.5-9B + SFT + GRPO), reward de âncora físico-espacial, benchmark próprio e avaliação em GUI, vídeo e VQA.
2
Hugging Face Daily Papers — ranking de tendências
Onde o DataClaw0 apareceu em destaque (top 3 do dia, 65 votos).

Seu diferencial em IA é o modelo — ou o dado?

Se a vantagem está no dado, ela é construída: ingestão, refinamento agêntico e evals que provam que o dado serve à sua tarefa. A Stickybit projeta esse pipeline — com anotador local onde faz sentido e gate onde o dado entra no treino. Vamos conversar.

Falar sobre pipeline de dados WhatsApp