PolarPOLAR

Proveniência de Dados

Fontes de dados, conformidade legal e pipeline de filtragem dos modelos Urso.

Proveniência de Dados

A Polar se compromete com a transparência sobre os dados utilizados no treinamento dos modelos Urso. Este documento detalha as fontes de dados, o pipeline de filtragem, a conformidade com a legislação brasileira e os mecanismos de opt-out.

Os modelos Urso foram desenvolvidos em conformidade com o Projeto de Lei 2338/2023 (Marco Legal da Inteligência Artificial no Brasil), que estabelece princípios e diretrizes para o desenvolvimento e uso de sistemas de IA. A Polar adota os seguintes princípios:

  • Transparência: Documentação pública sobre dados de treinamento e metodologia
  • Não discriminação: Avaliação contínua de vieses nos dados e nos modelos
  • Segurança: Pipeline robusto de filtragem e descontaminação de dados
  • Responsabilidade: Canais claros de reporte e mecanismos de correção
  • Privacidade: Conformidade com a LGPD em todas as etapas do pipeline de dados

LGPD (Lei Geral de Proteção de Dados)

O pipeline de dados da Polar está em conformidade com a LGPD (Lei 13.709/2018):

  • Dados pessoais são removidos durante a fase de filtragem
  • PII (informações pessoalmente identificáveis) é detectada e anonimizada
  • Nenhum dado pessoal é armazenado após o processamento
  • Base legal: interesse legítimo para fins de pesquisa e desenvolvimento de IA

Fontes de Dados

GigaVerbo v2 (320B tokens)

Corpus curado de português brasileiro, composto por:

  • Textos jornalísticos de fontes públicas brasileiras
  • Conteúdo educacional e acadêmico
  • Documentos técnicos e científicos
  • Literatura brasileira em domínio público
  • Fóruns e discussões em português (filtrados por qualidade)

FineWeb-Edu (1.3T tokens)

Subconjunto educacional de alta qualidade da web, filtrado por relevância educacional:

  • Páginas web com conteúdo educativo
  • Artigos científicos e acadêmicos
  • Tutoriais e guias técnicos
  • Material didático
  • Documentação técnica

The Stack v2 (900B tokens)

Corpus de código-fonte com licenças permissivas:

  • Código-fonte de repositórios públicos
  • Apenas licenças que permitem uso para treinamento de IA
  • Cobertura de mais de 600 linguagens de programação
  • Inclui documentação e comentários

Wikipedia PT

  • Artigos da Wikipedia em português
  • Conteúdo enciclopédico verificado pela comunidade
  • Atualizações periódicas do dump

CulturaX

  • Corpus multilingual de alta qualidade
  • Conteúdo cultural e linguístico diverso
  • Filtrado por qualidade e relevância

Legislação e Jurisprudência Brasileira

  • Legislação federal, estadual e municipal
  • Jurisprudência dos tribunais superiores (STF, STJ, TST)
  • Súmulas e orientações jurisprudenciais
  • Diário Oficial da União
  • Dados públicos do portal do governo

Distribuição de Dados

A composição final do dataset de treinamento segue a seguinte distribuição:

CategoriaPorcentagemDescrição
Português brasileiro (PT-BR)65%Conteúdo geral, jornalístico, acadêmico em PT-BR
Inglês (EN)17%Conteúdo técnico, científico e educacional em inglês
Governo e Legal8%Legislação, jurisprudência, documentos governamentais
Matemática e Ciência6%Fórmulas, problemas, artigos científicos
Código-fonte4%Código com licenças permissivas

Pipeline de Filtragem

Os dados passam por um pipeline rigoroso de filtragem antes do treinamento:

1. Filtragem por Qualidade

  • Score de qualidade linguística (perplexidade, coerência)
  • Remoção de conteúdo de baixa qualidade (spam, texto gerado, boilerplate)
  • Filtragem por comprimento mínimo e máximo
  • Detecção de idioma para garantir distribuição correta

2. Filtragem de Toxicidade

  • Classificador de toxicidade para identificar conteúdo prejudicial
  • Remoção de discurso de ódio, conteúdo sexual explícito e violência gráfica
  • Filtragem de conteúdo que promove desinformação
  • Revisão humana de amostras do pipeline

3. Deduplicação

  • Deduplicação exata (hash-based)
  • Deduplicação aproximada (MinHash / LSH)
  • Remoção de conteúdo duplicado entre fontes
  • Redução de memorabilidade de dados específicos

4. Descontaminação

  • Remoção de sobreposição com benchmarks de avaliação (ENEM, OAB, MMLU, etc.)
  • Detecção de vazamento de dados de teste
  • Verificação de integridade dos resultados de avaliação
  • N-gram matching contra conjuntos de teste conhecidos

5. Privacidade

  • Detecção e remoção de PII (CPF, RG, endereços, telefones, emails pessoais)
  • Anonimização de dados sensíveis
  • Remoção de informações financeiras pessoais
  • Conformidade com LGPD

Mecanismo de Opt-out

A Polar respeita o direito de criadores de conteúdo de solicitar a remoção de seus dados do treinamento de modelos futuros.

Como solicitar opt-out

Envie um email para dados@polar.com.br com:

  1. Identificação do conteúdo (URLs, nomes de domínio, ou descrição)
  2. Comprovação de titularidade do conteúdo
  3. Tipo de solicitação (remoção de dados futuros ou verificação de presença)

Prazo de atendimento

  • Confirmação de recebimento: até 5 dias úteis
  • Análise e resposta: até 15 dias úteis
  • Implementação em modelos futuros: próximo ciclo de treinamento

Contato

Atualizações

Este documento é atualizado a cada ciclo de treinamento dos modelos ou quando há mudanças significativas no pipeline de dados. Última atualização: Março 2026.

On this page