Comparar Modelos
Compare os modelos da família Urso e escolha o ideal para seu caso de uso.
Tabela Comparativa
| Modelo | Parâmetros | Ativos | Contexto | Multimodal | Think | Entrada (R$/1M) | Saída (R$/1M) |
|---|---|---|---|---|---|---|---|
| Urso Lite | 3B | 3B | 128K | Não | Sim | R$ 0,50 | R$ 1,50 |
| Urso Base | 30B MoE | 6B | 128K | Sim | Sim | R$ 2,00 | R$ 6,00 |
| Urso Pro | 70B MoE | 14B | 128K | Sim | Sim | R$ 6,00 | R$ 18,00 |
| Urso Ultra | 200B+ MoE | 30B | 128K | Sim | Sim | R$ 15,00 | R$ 45,00 |
| Urso Embed | — | — | 8K | Não | Não | R$ 0,25 | — |
Benchmarks
Resultados em benchmarks de referência (scores aproximados):
| Benchmark | Lite | Base | Pro | Ultra |
|---|---|---|---|---|
| ENEM (PT-BR) | 62% | 78% | 86% | 92% |
| OAB (Exame da Ordem) | 55% | 74% | 83% | 90% |
| MMLU (PT-BR) | 58% | 73% | 82% | 89% |
| HumanEval (código) | 45% | 68% | 78% | 85% |
| MT-Bench (PT-BR) | 6.8 | 8.1 | 8.7 | 9.2 |
| MATH | 35% | 62% | 75% | 84% |
Os modelos -think apresentam ganhos adicionais de 5-15% em benchmarks de raciocínio (MATH, ENEM, OAB).
Recomendações por Caso de Uso
Chatbots e Atendimento ao Cliente
Recomendado: Urso Base
Equilíbrio ideal entre qualidade e custo para interações conversacionais. O modelo Base entende nuances do português brasileiro e oferece respostas naturais.
response = client.chat.completions.create(
model="urso-base",
messages=[
{"role": "system", "content": "Você é um atendente de suporte ao cliente."},
{"role": "user", "content": "Quero cancelar meu pedido."}
],
temperature=0.7
)Para chatbots de alto volume com respostas simples, o Urso Lite reduz custos significativamente.
Análise Jurídica e Contratos
Recomendado: Urso Pro ou Urso Pro Think
A análise jurídica exige compreensão profunda e precisão. O modelo Pro oferece qualidade superior em interpretação de textos legais, e a variante Think mostra o raciocínio jurídico.
response = client.chat.completions.create(
model="urso-pro-think",
messages=[
{"role": "system", "content": "Você é um advogado brasileiro especialista em direito civil."},
{"role": "user", "content": "Analise se esta cláusula contratual é abusiva segundo o CDC."}
],
temperature=0.2
)Geração de Conteúdo
Recomendado: Urso Base ou Urso Pro
Para redação de artigos, emails e comunicação profissional. O Base atende a maioria dos casos; o Pro oferece qualidade superior para conteúdo que exige sofisticação.
response = client.chat.completions.create(
model="urso-base",
messages=[
{"role": "user", "content": "Escreva um email profissional solicitando uma reunião."}
],
temperature=0.8
)Código e Desenvolvimento
Recomendado: Urso Pro Think
Para geração, revisão e debugging de código. A variante Think ajuda a decompor problemas complexos passo a passo.
response = client.chat.completions.create(
model="urso-pro-think",
messages=[
{"role": "user", "content": "Implemente uma função de busca binária em Python com tratamento de erros."}
],
temperature=0.1
)Pesquisa e Análise Científica
Recomendado: Urso Ultra Think
Para tarefas que exigem a máxima qualidade de raciocínio, análise crítica e síntese de informações complexas.
response = client.chat.completions.create(
model="urso-ultra-think",
messages=[
{"role": "user", "content": "Analise criticamente a metodologia deste estudo e proponha melhorias."}
],
temperature=0.2,
max_tokens=8192
)Aplicações Edge e Mobile
Recomendado: Urso Lite
Para execução em dispositivos com recursos limitados, APIs de alto volume e baixa latência.
response = client.chat.completions.create(
model="urso-lite",
messages=[
{"role": "user", "content": "Classifique este texto como positivo, negativo ou neutro."}
],
temperature=0.0,
max_tokens=10
)Busca Semântica e RAG
Recomendado: Urso Embed + Urso Base
Use o Embed para gerar vetores e o Base (ou Pro) para gerar respostas baseadas nos documentos recuperados.
# 1. Gerar embeddings
embedding_response = client.embeddings.create(
model="urso-embed",
input=["Texto do documento para indexar"]
)
# 2. Após recuperar documentos relevantes, gerar resposta
response = client.chat.completions.create(
model="urso-base",
messages=[
{"role": "system", "content": "Responda com base nos documentos fornecidos."},
{"role": "user", "content": "Contexto: [documentos recuperados]\n\nPergunta: Qual é a política de devolução?"}
]
)Custo vs. Qualidade
De maneira geral:
- Custo mínimo: Urso Lite — ideal para classificação, extrações simples, alto volume
- Melhor custo-benefício: Urso Base — melhor escolha para a maioria das aplicações
- Alta qualidade: Urso Pro — para aplicações enterprise e análise especializada
- Máxima qualidade: Urso Ultra — quando o custo não é a principal restrição
Latência
Estimativas típicas de latência (time-to-first-token):
| Modelo | Latência típica |
|---|---|
| Urso Lite | ~100ms |
| Urso Base | ~200ms |
| Urso Pro | ~400ms |
| Urso Ultra | ~800ms |
| Urso Embed | ~50ms |
Variantes Think adicionam latência extra devido ao raciocínio explícito, mas oferecem respostas mais precisas.