PolarPOLAR

Proveniência de Dados

Conformidade legal, pipeline de filtragem e mecanismos de opt-out dos modelos Urso.

Proveniência de Dados

A Polar se compromete com a transparência sobre as práticas de coleta e tratamento de dados utilizados no treinamento dos modelos Urso. Este documento detalha a conformidade legal, o pipeline de filtragem e os mecanismos de opt-out.

Os modelos Urso foram desenvolvidos em conformidade com o Projeto de Lei 2338/2023 (Marco Legal da Inteligência Artificial no Brasil):

  • Transparência: Documentação pública sobre práticas de dados e metodologia
  • Não discriminação: Avaliação contínua de vieses nos dados e nos modelos
  • Segurança: Pipeline robusto de filtragem e descontaminação de dados
  • Responsabilidade: Canais claros de reporte e mecanismos de correção
  • Privacidade: Conformidade com a LGPD em todas as etapas

LGPD (Lei Geral de Proteção de Dados)

O pipeline de dados da Polar está em conformidade com a LGPD (Lei 13.709/2018):

  • Dados pessoais são detectados e removidos durante a filtragem
  • PII (informações pessoalmente identificáveis) é anonimizada
  • Nenhum dado pessoal de usuários é utilizado para treinamento
  • Base legal: interesse legítimo para fins de pesquisa e desenvolvimento de IA

Lei 9.610/1998 (Direitos Autorais)

  • Dados governamentais e legais são exclusivamente de domínio público, conforme Art. 8, IV da Lei 9.610/98 (atos oficiais não possuem proteção autoral)
  • Código-fonte utilizado é filtrado exclusivamente por licenças permissivas (MIT, Apache 2.0, BSD, ISC)

Categorias de Dados

Os modelos são treinados com dados de múltiplas categorias:

CategoriaDescrição
Português brasileiroConteúdo web curado, jornalístico, acadêmico e literário em PT-BR
InglêsConteúdo técnico, científico e educacional
Governo e legalLegislação federal, estadual e municipal; jurisprudência; diários oficiais
Matemática e ciênciaProblemas matemáticos, artigos científicos
Código-fonteRepositórios com licenças permissivas

Pipeline de Filtragem

Os dados passam por um pipeline rigoroso antes do treinamento:

1. Filtragem por Qualidade

  • Score de qualidade educacional para remoção de conteúdo de baixa qualidade
  • Remoção de spam, texto gerado automaticamente e boilerplate
  • Detecção de idioma para distribuição correta

2. Filtragem de Toxicidade

  • Classificador de toxicidade para conteúdo prejudicial
  • Remoção de discurso de ódio, conteúdo sexual explícito e violência
  • Filtragem de desinformação

3. Deduplicação

  • Deduplicação exata e aproximada
  • Redução de memorização de dados específicos

4. Descontaminação

  • Remoção de sobreposição com benchmarks de avaliação (ENEM, OAB, MMLU, BLUEX, etc.)
  • Verificação de integridade dos resultados de avaliação

5. Privacidade

  • Detecção e remoção de PII (CPF, RG, endereços, telefones, emails)
  • Anonimização de dados sensíveis
  • Conformidade com LGPD

6. Dados de Clientes

Dados de clientes nunca são utilizados para treinamento. Conversas, prompts e arquivos enviados pelos usuários não são coletados, armazenados ou utilizados para treinar modelos sob nenhuma circunstância.

Mecanismo de Opt-out

A Polar respeita o direito de criadores de conteúdo de solicitar a remoção de seus dados do treinamento de modelos futuros.

Como solicitar opt-out

Envie um email para dados@polar.com.br com:

  1. Identificação do conteúdo (URLs, nomes de domínio, ou descrição)
  2. Comprovação de titularidade do conteúdo
  3. Tipo de solicitação (remoção de dados futuros ou verificação de presença)

Prazo de atendimento

  • Confirmação de recebimento: até 5 dias úteis
  • Análise e resposta: até 15 dias úteis
  • Implementação em modelos futuros: próximo ciclo de treinamento

Contato

CanalUso
dados@polar.com.brDados de treinamento e opt-out
dpo@polar.com.brEncarregado de dados (DPO)
safety@polar.com.brSegurança

Atualizações

Este documento é atualizado a cada ciclo de treinamento ou quando há mudanças significativas. Última atualização: Março 2026.

On this page