Proveniência de Dados

Conformidade legal, pipeline de filtragem e mecanismos de opt-out dos modelos Urso.

Proveniência de Dados

A Polar se compromete com a transparência sobre as práticas de coleta e tratamento de dados utilizados no treinamento dos modelos Urso. Este documento detalha a conformidade legal, o pipeline de filtragem e os mecanismos de opt-out.

Conformidade Legal

PL 2338/2023 (Marco Legal da IA)

Os modelos Urso foram desenvolvidos em conformidade com o Projeto de Lei 2338/2023 (Marco Legal da Inteligência Artificial no Brasil):

Transparência: Documentação pública sobre práticas de dados e metodologia
Não discriminação: Avaliação contínua de vieses nos dados e nos modelos
Segurança: Pipeline robusto de filtragem e descontaminação de dados
Responsabilidade: Canais claros de reporte e mecanismos de correção
Privacidade: Conformidade com a LGPD em todas as etapas

LGPD (Lei Geral de Proteção de Dados)

O pipeline de dados da Polar está em conformidade com a LGPD (Lei 13.709/2018):

Dados pessoais são detectados e removidos durante a filtragem
PII (informações pessoalmente identificáveis) é anonimizada
Nenhum dado pessoal de usuários é utilizado para treinamento
Base legal: interesse legítimo para fins de pesquisa e desenvolvimento de IA

Lei 9.610/1998 (Direitos Autorais)

Dados governamentais e legais são exclusivamente de domínio público, conforme Art. 8, IV da Lei 9.610/98 (atos oficiais não possuem proteção autoral)
Código-fonte utilizado é filtrado exclusivamente por licenças permissivas (MIT, Apache 2.0, BSD, ISC)

Categorias de Dados

Os modelos são treinados com dados de múltiplas categorias:

Categoria	Descrição
Português brasileiro	Conteúdo web curado, jornalístico, acadêmico e literário em PT-BR
Inglês	Conteúdo técnico, científico e educacional
Governo e legal	Legislação federal, estadual e municipal; jurisprudência; diários oficiais
Matemática e ciência	Problemas matemáticos, artigos científicos
Código-fonte	Repositórios com licenças permissivas

Pipeline de Filtragem

Os dados passam por um pipeline rigoroso antes do treinamento:

1. Filtragem por Qualidade

Score de qualidade educacional para remoção de conteúdo de baixa qualidade
Remoção de spam, texto gerado automaticamente e boilerplate
Detecção de idioma para distribuição correta

2. Filtragem de Toxicidade

Classificador de toxicidade para conteúdo prejudicial
Remoção de discurso de ódio, conteúdo sexual explícito e violência
Filtragem de desinformação

3. Deduplicação

Deduplicação exata e aproximada
Redução de memorização de dados específicos

4. Descontaminação

Remoção de sobreposição com benchmarks de avaliação (ENEM, OAB, MMLU, BLUEX, etc.)
Verificação de integridade dos resultados de avaliação

5. Privacidade

Detecção e remoção de PII (CPF, RG, endereços, telefones, emails)
Anonimização de dados sensíveis
Conformidade com LGPD

6. Dados de Clientes

Dados de clientes nunca são utilizados para treinamento. Conversas, prompts e arquivos enviados pelos usuários não são coletados, armazenados ou utilizados para treinar modelos sob nenhuma circunstância.

Mecanismo de Opt-out

A Polar respeita o direito de criadores de conteúdo de solicitar a remoção de seus dados do treinamento de modelos futuros.

Como solicitar opt-out

Envie um email para dados@polar.com.br com:

Identificação do conteúdo (URLs, nomes de domínio, ou descrição)
Comprovação de titularidade do conteúdo
Tipo de solicitação (remoção de dados futuros ou verificação de presença)

Prazo de atendimento

Confirmação de recebimento: até 5 dias úteis
Análise e resposta: até 15 dias úteis
Implementação em modelos futuros: próximo ciclo de treinamento

Contato

Canal	Uso
dados@polar.com.br	Dados de treinamento e opt-out
dpo@polar.com.br	Encarregado de dados (DPO)
safety@polar.com.br	Segurança

Atualizações

Este documento é atualizado a cada ciclo de treinamento ou quando há mudanças significativas. Última atualização: Março 2026.

Proveniência de Dados

On this page