Um paper que disparou no Hugging Face esta semana — DataClaw0 (arXiv 2606.21337) — coloca um modelo aberto de 9B para igualar GPT-4o e Gemini na tarefa de transformar streams brutos em dado de treino limpo. Lido com frieza, é o argumento mais concreto de 2026 a favor de uma tese que defendemos: em IA aplicada, quem ganha não é quem tem o maior modelo — é quem tem o melhor dado.
Streams multimodais brutos têm 'alta entropia' — ruído que atrapalha humano e máquina. A proposta do DataClaw0 é tratar a preparação de dados como capacidade aprendível, não como regra fixa.
A prática dominante é passiva: regras heurísticas ou um VLM genérico filtrando dados. O DataClaw0 propõe o oposto — um agente que refina e estrutura ativamente o dado bruto, alinhado à intenção da tarefa final. Em vez de 'limpar genericamente', ele alfaia o dado para o que o modelo downstream vai precisar.
Tecnicamente: base Qwen3.5-9B, SFT em apenas 34 mil instruções limpas, depois RL via GRPO com um reward de 'âncora físico-espacial' que preserva a ordem temporal dos eventos. Tudo em 8 GPUs A100. Nada de fronteira proprietária — um modelo aberto, médio, treinável por uma equipe pequena.
O resultado relevante para o nosso trabalho não é o ranking acadêmico. É a economia: se um 9B local faz a curadoria tão bem quanto um modelo de fronteira, o custo de produzir dado de qualidade para fine-tune e RAG vertical despenca — e a vantagem migra do tamanho do modelo para o desenho do pipeline de dados.
Quem tem o melhor dado vence quem tem o maior modelo.
— Tese Stickybit, em leitura de DataClaw0 (Wan et al., arXiv 2606.21337)
Avaliando a qualidade da própria alfaiataria de dados (Field = completude de schema · Semantic = correção de conteúdo · Sequence = consistência temporal), a variante com roteamento por especialistas (DataClaw0-E) empata com GPT-4o e fica perto do Gemini — partindo de uma base 9B que sozinha era bem pior.
| Anotador | Field | Semantic | Sequence |
|---|---|---|---|
| Claude-Sonnet-4-6 | 88.98 | 63.96 | 42.70 |
| GPT-4o | 97.27 | 75.15 | 49.43 |
| Gemini-3.1-Pro | 98.12 | 73.85 | 58.50 |
| Qwen3.5-9B (base, sem treino) | 89.64 | 60.46 | 36.24 |
| DataClaw0-E · 9B (proposto) | 97.53 | 74.94 | 48.86 |
Leitura — O ganho não vem do modelo único de 9B (a variante 'omni' fica fraca, em 87.65 de Field). Vem do roteamento por especialistas de domínio — uma decisão de arquitetura de pipeline, não de escala.
Sob volume de treino idêntico, os mesmos dados brutos foram processados por três fontes. O dado do DataClaw0 (9B) treina modelos downstream tão bem quanto o dado gerado pelo Gemini de fronteira — e melhor em vídeo e VQA.
| Fonte do dado de treino | GUI (SSR/TSR %) | Vídeo (FVD↓ / Contact↑) | VQA (%) |
|---|---|---|---|
| Sem treino (zero-shot) | 12.4 / 1.2 | 385.2 / 18.5 | 9.8 |
| Processado pelo próprio modelo base | 16.8 / 3.5 | 362.1 / 24.2 | 14.2 |
| Processado por Gemini-3.1-Pro | 39.5 / 14.2 | 295.4 / 48.5 | 31.5 |
| Processado por DataClaw0 · 9B | 38.2 / 15.6 | 288.6 / 51.2 | 33.2 |
Leitura — Dado auto-processado quase não ajuda (16.8 vs. 12.4): o que move o ponteiro é um anotador forte. A novidade é que esse anotador forte pode ser um 9B local — não precisa ser API de fronteira.
Resultado direcionalmente forte, mas com ressalvas que separam a manchete da realidade de produção.
O número bom é o DataClaw0-E, que é um conjunto de especialistas + roteador — não um único 9B. O 9B sozinho ('omni') empata com a própria base. Comparar com 'um GPT-4o' mistura maçãs e cestas.
Mandar dado de um domínio para o especialista errado derruba a métrica a zero. Streams reais não vêm rotulados por domínio — a robustez do roteador é o risco de produção que o paper não estressa.
No downstream o DataClaw0 é 'comparável ao Gemini', não superior. O valor é o custo (9B aberto e local), não a qualidade absoluta. O abstract insinua mais do que entrega.
A métrica Field bate 100,00 para vários modelos — fácil demais. A única dimensão discriminante (Sequence) é onde todos vão mal. Mérito difícil de cravar sem um benchmark externo.
Para fine-tune vertical, rodar um especialista aberto na curadoria de dados pode entregar qualidade de fronteira a uma fração do custo de API — exatamente o regime de PME e consultoria local.
A vantagem migra do tamanho do modelo para o desenho do pipeline de dados. É aí que projetamos: ingestão, refinamento e os evals que provam que o dado serve à tarefa.
A fragilidade do roteador é o tipo de costura que precisa ser projetada, não improvisada — com um gate que valide a rota antes do dado entrar no treino.
Fontes desta análise.
Paper-base. Modelo DataClaw0-9B (Qwen3.5-9B + SFT + GRPO), reward de âncora físico-espacial, benchmark próprio e avaliação em GUI, vídeo e VQA.
Onde o DataClaw0 apareceu em destaque (top 3 do dia, 65 votos).
Se a vantagem está no dado, ela é construída: ingestão, refinamento agêntico e evals que provam que o dado serve à sua tarefa. A Stickybit projeta esse pipeline — com anotador local onde faz sentido e gate onde o dado entra no treino. Vamos conversar.