Invalid Date ·
Urso Mabe: 86,1% no ENEM, 89,9% no GSM8K — Modelo Brasileiro Sub-50B
Publicamos os resultados do Urso Mabe, modelo sub-50B treinado nativamente para o Brasil. ENEM (86,1%), BELEBELE-PT (93,3%), GSM8K (89,9%), MMLU (81,6%) — performance comparável a modelos frontier em tarefas brasileiras.
Publicamos os resultados completos de avaliação do Urso Mabe, a quinta geração do modelo de linguagem da Polar AI. O Urso Mabe é um modelo sub-50B cloud-source treinado nativamente para português brasileiro, com performance que compete diretamente com modelos frontier em benchmarks brasileiros.
Destaques
| Benchmark | Urso Mabe | GPT-4.1 | Sabiá-4 |
|---|---|---|---|
| ENEM (Provas BR) | 86,1% | 86,1% | 86,6% |
| BELEBELE-PT | 93,3% | — | — |
| GSM8K | 89,9% | — | — |
| MMLU | 81,6% | 89,2% | — |
| BBH | 76,8% | — | — |
O Urso Mabe é o primeiro modelo brasileiro sub-50B a alcançar performance no mesmo patamar do GPT-4.1 em provas brasileiras, enquanto oferece uma plataforma completa com RAG, tool calling nativo e Voice AI.
Benchmarks Internacionais
Avaliados com lm-evaluation-harness em configuração padrão.
| Benchmark | Métrica | Resultado |
|---|---|---|
| MMLU | Accuracy (5-shot) | 81,6% |
| GSM8K | Exact match (5-shot) | 89,9% |
| BBH | Accuracy (3-shot) | 76,8% |
| ARC-Challenge | Accuracy (5-shot) | 67,1% |
| Winogrande | Accuracy (5-shot) | 79,3% |
GSM8K: 89,9%
O GSM8K (Grade School Math 8K) é o benchmark padrão de raciocínio matemático. O Urso Mabe alcança 89,9%, performance comparável ao GPT-4o (89,8%). Isso demonstra que o treinamento focado em raciocínio em português não comprometeu a capacidade matemática do modelo.
MMLU: 81,6%
O MMLU (Massive Multitask Language Understanding) testa conhecimento geral em 57 disciplinas acadêmicas. O resultado de 81,6% posiciona o Urso Mabe acima de modelos como GPT-4o mini (82,0%) e Claude 3.5 Haiku (80,9%), validando que um modelo treinado para PT-BR pode manter forte conhecimento geral.
Benchmarks Brasileiros
| Benchmark | Métrica | Resultado |
|---|---|---|
| BELEBELE-PT | Accuracy | 93,3% |
| ENEM | Accuracy | 86,1% |
| Tool-Calling PT-BR | Success rate (10 cenários) | 80% |
ENEM: 86,1%
O ENEM é o maior exame do Brasil, aplicado anualmente a milhões de estudantes. O Urso Mabe alcança 86,1% — o mesmo resultado do GPT-4.1 da OpenAI e apenas 0,5 ponto percentual abaixo do Sabiá-4 da Maritaca (86,6%). Este resultado demonstra que o Urso Mabe compete diretamente com os melhores modelos do mundo em compreensão do contexto brasileiro.
BELEBELE-PT: 93,3%
O BELEBELE é um benchmark multilíngue de compreensão de leitura. Na partição em português brasileiro, o Urso Mabe alcança 93,3%, evidenciando forte capacidade de compreensão textual em PT-BR.
Tool-Calling: 80%
Avaliado em 10 cenários agênticos em português (Pix, consulta jurídica, agendamento, SQL, email, etc.), o Urso Mabe alcança 80% de sucesso na seleção correta de ferramentas e extração de argumentos. Utilizamos o modo de inferência otimizado para tool-calling, que prioriza ação direta sobre raciocínio verbal.
Posicionamento: Sub-50B Cloud-Source
Na família Urso, o Mabe é o tier ultra-rápido: o modelo mais compacto e veloz (o Urso Bah é o flagship, com máxima capacidade e raciocínio profundo). O Urso Mabe inaugura a categoria Sub-50B cloud-source brasileiro. Ao contrário de modelos genéricos adaptados para português, o Urso Mabe foi treinado do zero com:
- Tokenizador PT-BR dedicado — 16% mais eficiente que tokenizadores genéricos
- Corpus brasileiro curado — legislação, saúde, contábil, educação
- Alinhamento para o Brasil — LGPD, TSE, CFM, princípios constitucionais
- Tool calling nativo — ferramentas brasileiras integradas (CNPJ, legislação, impostos)
Plataforma Polar AI
O modelo é o núcleo, mas a plataforma é o diferencial:
- RAG com 95+ fontes oficiais — DataJud, ANVISA, Receita Federal, STF/STJ
- Voice AI — em tempo real em PT-BR com STT + LLM + TTS em tempo real
- Agentes autônomos — Work mode com tool calling, automações cron, Deep Research
- MCP nativo — centenas de integrações via Model Context Protocol
- API OpenAI-compatible — troque a URL base e pronto
- LGPD first — dados processados no Brasil, sem retenção
Metodologia
Infraestrutura de Avaliação
Hardware: 8× NVIDIA H100 SXM 80GB
Framework: lm-evaluation-harness v0.4+
Precisão: bfloat16
Batch size: 4
Configuração: few-shot padrão por benchmarkReprodutibilidade
Scripts de benchmark disponíveis para reprodução independente:
git clone https://github.com/polar-ai/benchmarks
cd benchmarks
pip install -r requirements.txt
python run_all.py \
--api-url https://api.polarai.com.br/v1 \
--api-key SUA_CHAVELogs verificáveis com hash SHA-256 por resposta individual e arquivo completo.
Próximos Passos
- Urso V6: Foco em instruction following, geração de código e domínio jurídico avançado
- Submissão ao LMSYS Chatbot Arena
- Expansão de benchmarks: OAB-Bench, Magis-Bench, Multi-IF PT
- Avaliação de long-context: MRCR, Needle in a Haystack 128K
Contato técnico: contato@polar.com.br | API key gratuita para avaliação disponível sob solicitação.