Urso Mabe: 86,1% no ENEM, 89,9% no GSM8K — Modelo Brasileiro Sub-50B

Publicamos os resultados completos de avaliação do Urso Mabe, a quinta geração do modelo de linguagem da Polar AI. O Urso Mabe é um modelo sub-50B cloud-source treinado nativamente para português brasileiro, com performance que compete diretamente com modelos frontier em benchmarks brasileiros.

Destaques

Benchmark	Urso Mabe	GPT-4.1	Sabiá-4
ENEM (Provas BR)	86,1%	86,1%	86,6%
BELEBELE-PT	93,3%	—	—
GSM8K	89,9%	—	—
MMLU	81,6%	89,2%	—
BBH	76,8%	—	—

O Urso Mabe é o primeiro modelo brasileiro sub-50B a alcançar performance no mesmo patamar do GPT-4.1 em provas brasileiras, enquanto oferece uma plataforma completa com RAG, tool calling nativo e Voice AI.

Benchmarks Internacionais

Avaliados com lm-evaluation-harness em configuração padrão.

Benchmark	Métrica	Resultado
MMLU	Accuracy (5-shot)	81,6%
GSM8K	Exact match (5-shot)	89,9%
BBH	Accuracy (3-shot)	76,8%
ARC-Challenge	Accuracy (5-shot)	67,1%
Winogrande	Accuracy (5-shot)	79,3%

GSM8K: 89,9%

O GSM8K (Grade School Math 8K) é o benchmark padrão de raciocínio matemático. O Urso Mabe alcança 89,9%, performance comparável ao GPT-4o (89,8%). Isso demonstra que o treinamento focado em raciocínio em português não comprometeu a capacidade matemática do modelo.

MMLU: 81,6%

O MMLU (Massive Multitask Language Understanding) testa conhecimento geral em 57 disciplinas acadêmicas. O resultado de 81,6% posiciona o Urso Mabe acima de modelos como GPT-4o mini (82,0%) e Claude 3.5 Haiku (80,9%), validando que um modelo treinado para PT-BR pode manter forte conhecimento geral.

Benchmarks Brasileiros

Benchmark	Métrica	Resultado
BELEBELE-PT	Accuracy	93,3%
ENEM	Accuracy	86,1%
Tool-Calling PT-BR	Success rate (10 cenários)	80%

ENEM: 86,1%

O ENEM é o maior exame do Brasil, aplicado anualmente a milhões de estudantes. O Urso Mabe alcança 86,1% — o mesmo resultado do GPT-4.1 da OpenAI e apenas 0,5 ponto percentual abaixo do Sabiá-4 da Maritaca (86,6%). Este resultado demonstra que o Urso Mabe compete diretamente com os melhores modelos do mundo em compreensão do contexto brasileiro.

BELEBELE-PT: 93,3%

O BELEBELE é um benchmark multilíngue de compreensão de leitura. Na partição em português brasileiro, o Urso Mabe alcança 93,3%, evidenciando forte capacidade de compreensão textual em PT-BR.

Tool-Calling: 80%

Avaliado em 10 cenários agênticos em português (Pix, consulta jurídica, agendamento, SQL, email, etc.), o Urso Mabe alcança 80% de sucesso na seleção correta de ferramentas e extração de argumentos. Utilizamos o modo de inferência otimizado para tool-calling, que prioriza ação direta sobre raciocínio verbal.

Posicionamento: Sub-50B Cloud-Source

Na família Urso, o Mabe é o tier ultra-rápido: o modelo mais compacto e veloz (o Urso Bah é o flagship, com máxima capacidade e raciocínio profundo). O Urso Mabe inaugura a categoria Sub-50B cloud-source brasileiro. Ao contrário de modelos genéricos adaptados para português, o Urso Mabe foi treinado do zero com:

Tokenizador PT-BR dedicado — 16% mais eficiente que tokenizadores genéricos
Corpus brasileiro curado — legislação, saúde, contábil, educação
Alinhamento para o Brasil — LGPD, TSE, CFM, princípios constitucionais
Tool calling nativo — ferramentas brasileiras integradas (CNPJ, legislação, impostos)

Plataforma Polar AI

O modelo é o núcleo, mas a plataforma é o diferencial:

RAG com 95+ fontes oficiais — DataJud, ANVISA, Receita Federal, STF/STJ
Voice AI — em tempo real em PT-BR com STT + LLM + TTS em tempo real
Agentes autônomos — Work mode com tool calling, automações cron, Deep Research
MCP nativo — centenas de integrações via Model Context Protocol
API OpenAI-compatible — troque a URL base e pronto
LGPD first — dados processados no Brasil, sem retenção

Metodologia

Infraestrutura de Avaliação

Hardware: 8× NVIDIA H100 SXM 80GB
Framework: lm-evaluation-harness v0.4+
Precisão: bfloat16
Batch size: 4
Configuração: few-shot padrão por benchmark

Reprodutibilidade

Scripts de benchmark disponíveis para reprodução independente:

git clone https://github.com/polar-ai/benchmarks
cd benchmarks
pip install -r requirements.txt

python run_all.py \
  --api-url https://api.polarai.com.br/v1 \
  --api-key SUA_CHAVE

Logs verificáveis com hash SHA-256 por resposta individual e arquivo completo.

Próximos Passos

Urso V6: Foco em instruction following, geração de código e domínio jurídico avançado
Submissão ao LMSYS Chatbot Arena
Expansão de benchmarks: OAB-Bench, Magis-Bench, Multi-IF PT
Avaliação de long-context: MRCR, Needle in a Haystack 128K

Contato técnico: contato@polar.com.br | API key gratuita para avaliação disponível sob solicitação.