Glossário

Glossário de Termos

Token

Unidade básica de processamento de texto em modelos de linguagem. Um token pode ser uma palavra, parte de uma palavra ou um caractere de pontuação. Em português, uma palavra comum geralmente corresponde a 1-2 tokens. A API cobra por quantidade de tokens processados (entrada e saída).

Exemplo: a frase "A inteligência artificial é fascinante" pode ser dividida em aproximadamente 7 tokens.

MoE (Mixture of Experts)

Mixture of Experts é uma arquitetura de rede neural em que apenas um subconjunto dos parâmetros do modelo é ativado para cada token de entrada. Isso permite que modelos com muitos parâmetros totais tenham um custo computacional equivalente a modelos menores. O modelo Urso Bah utiliza arquitetura MoE; Urso Mabe e Urso Guto são modelos densos.

SFT (Supervised Fine-tuning)

Supervised Fine-tuning é o processo de treinar um modelo pré-treinado com dados rotulados de alta qualidade — tipicamente pares de instrução-resposta. O SFT é usado após o pré-treinamento para ensinar o modelo a seguir instruções e gerar respostas úteis.

GRPO

Group Relative Policy Optimization é uma técnica de alinhamento usada no treinamento dos modelos Urso. Semelhante ao RLHF, o GRPO otimiza as respostas do modelo com base em preferências humanas, mas usa uma abordagem de grupo relativo que é mais eficiente computacionalmente.

Think Mode

Modo de raciocínio explícito disponível nos modelos com sufixo -think (ex: urso-mabe-think (em breve)). Quando ativado, o modelo mostra seu raciocínio passo a passo (cadeia de pensamento) antes de chegar à resposta final. Útil para problemas matemáticos, lógicos e de análise complexa.

MCP (Model Context Protocol)

Model Context Protocol é um protocolo aberto que permite conectar modelos de IA a fontes externas de dados e ferramentas. O MCP padroniza como o modelo acessa informações externas como bancos de dados, APIs e sistemas de arquivos.

Embeddings

Representações numéricas (vetores) de textos em um espaço de alta dimensão. Textos semanticamente similares ficam próximos nesse espaço vetorial. O modelo urso-embed gera embeddings otimizados para português brasileiro, úteis para busca semântica, clustering e sistemas RAG.

RAG (Retrieval-Augmented Generation)

Geração Aumentada por Recuperação é uma técnica que combina busca de informações com geração de texto. Primeiro, documentos relevantes são recuperados de uma base de conhecimento usando embeddings; depois, o modelo gera uma resposta baseada nesses documentos, reduzindo alucinações e garantindo respostas fundamentadas.

PT-BR

Abreviação para português brasileiro. Os modelos Urso foram treinados com ênfase especial em PT-BR, com 65% dos dados de treinamento neste idioma, garantindo compreensão nativa de expressões coloquiais, gírias, regionalismos e contexto cultural brasileiro.

Context Window (Janela de Contexto)

Quantidade máxima de tokens que o modelo pode processar em uma única interação, incluindo entrada (prompt + histórico) e saída (resposta). Os modelos Urso possuem janela de contexto de 128K tokens (exceto Embed, com 8K), permitindo processar documentos longos e conversas extensas.

Temperature (Temperatura)

Parâmetro que controla a aleatoriedade das respostas do modelo. Valores baixos (0.0-0.3) produzem respostas mais determinísticas e focadas; valores altos (0.7-1.0) produzem respostas mais criativas e diversas. O valor padrão é tipicamente 0.7.

# Resposta determinística (análise, fatos)
response = client.chat.completions.create(
    model="urso-mabe",
    messages=[...],
    temperature=0.1
)

# Resposta criativa (escrita, brainstorming)
response = client.chat.completions.create(
    model="urso-mabe",
    messages=[...],
    temperature=0.9
)

Top-p (Nucleus Sampling)

Parâmetro que limita a amostragem aos tokens cuja probabilidade acumulada não excede o valor de top_p. Por exemplo, top_p=0.9 considera apenas os tokens que juntos somam 90% da probabilidade. Alternativa à temperature para controlar a diversidade das respostas.

Streaming

Modo de entrega de respostas em que o modelo envia tokens incrementalmente conforme são gerados, em vez de esperar a resposta completa. Permite exibir a resposta ao usuário em tempo real, melhorando a experiência com tempos de resposta percebidos menores.

stream = client.chat.completions.create(
    model="urso-mabe",
    messages=[...],
    stream=True
)

Function Calling (Chamada de Funções)

Capacidade do modelo de identificar quando uma ferramenta externa deve ser chamada e gerar os parâmetros necessários no formato correto. Permite integrar o modelo com APIs, bancos de dados e serviços externos. A Polar oferece funções nativas para ferramentas brasileiras como consulta de CEP, CNPJ e legislação.

Structured Output (Saída Estruturada)

Capacidade do modelo de gerar respostas em formatos estruturados como JSON, garantindo que a saída siga um schema pré-definido. Útil para integração com sistemas que esperam dados em formato específico.

response = client.chat.completions.create(
    model="urso-mabe",
    messages=[...],
    response_format={"type": "json_object"}
)

On this page