Proveniência de Dados
Conformidade legal, pipeline de filtragem e mecanismos de opt-out dos modelos Urso.
Proveniência de Dados
A Polar se compromete com a transparência sobre as práticas de coleta e tratamento de dados utilizados no treinamento dos modelos Urso. Este documento detalha a conformidade legal, o pipeline de filtragem e os mecanismos de opt-out.
Conformidade Legal
PL 2338/2023 (Marco Legal da IA)
Os modelos Urso foram desenvolvidos em conformidade com o Projeto de Lei 2338/2023 (Marco Legal da Inteligência Artificial no Brasil):
- Transparência: Documentação pública sobre práticas de dados e metodologia
- Não discriminação: Avaliação contínua de vieses nos dados e nos modelos
- Segurança: Pipeline robusto de filtragem e descontaminação de dados
- Responsabilidade: Canais claros de reporte e mecanismos de correção
- Privacidade: Conformidade com a LGPD em todas as etapas
LGPD (Lei Geral de Proteção de Dados)
O pipeline de dados da Polar está em conformidade com a LGPD (Lei 13.709/2018):
- Dados pessoais são detectados e removidos durante a filtragem
- PII (informações pessoalmente identificáveis) é anonimizada
- Nenhum dado pessoal de usuários é utilizado para treinamento
- Base legal: interesse legítimo para fins de pesquisa e desenvolvimento de IA
Lei 9.610/1998 (Direitos Autorais)
- Dados governamentais e legais são exclusivamente de domínio público, conforme Art. 8, IV da Lei 9.610/98 (atos oficiais não possuem proteção autoral)
- Código-fonte utilizado é filtrado exclusivamente por licenças permissivas (MIT, Apache 2.0, BSD, ISC)
Categorias de Dados
Os modelos são treinados com dados de múltiplas categorias:
| Categoria | Descrição |
|---|---|
| Português brasileiro | Conteúdo web curado, jornalístico, acadêmico e literário em PT-BR |
| Inglês | Conteúdo técnico, científico e educacional |
| Governo e legal | Legislação federal, estadual e municipal; jurisprudência; diários oficiais |
| Matemática e ciência | Problemas matemáticos, artigos científicos |
| Código-fonte | Repositórios com licenças permissivas |
Pipeline de Filtragem
Os dados passam por um pipeline rigoroso antes do treinamento:
1. Filtragem por Qualidade
- Score de qualidade educacional para remoção de conteúdo de baixa qualidade
- Remoção de spam, texto gerado automaticamente e boilerplate
- Detecção de idioma para distribuição correta
2. Filtragem de Toxicidade
- Classificador de toxicidade para conteúdo prejudicial
- Remoção de discurso de ódio, conteúdo sexual explícito e violência
- Filtragem de desinformação
3. Deduplicação
- Deduplicação exata e aproximada
- Redução de memorização de dados específicos
4. Descontaminação
- Remoção de sobreposição com benchmarks de avaliação (ENEM, OAB, MMLU, BLUEX, etc.)
- Verificação de integridade dos resultados de avaliação
5. Privacidade
- Detecção e remoção de PII (CPF, RG, endereços, telefones, emails)
- Anonimização de dados sensíveis
- Conformidade com LGPD
6. Dados de Clientes
Dados de clientes nunca são utilizados para treinamento. Conversas, prompts e arquivos enviados pelos usuários não são coletados, armazenados ou utilizados para treinar modelos sob nenhuma circunstância.
Mecanismo de Opt-out
A Polar respeita o direito de criadores de conteúdo de solicitar a remoção de seus dados do treinamento de modelos futuros.
Como solicitar opt-out
Envie um email para dados@polar.com.br com:
- Identificação do conteúdo (URLs, nomes de domínio, ou descrição)
- Comprovação de titularidade do conteúdo
- Tipo de solicitação (remoção de dados futuros ou verificação de presença)
Prazo de atendimento
- Confirmação de recebimento: até 5 dias úteis
- Análise e resposta: até 15 dias úteis
- Implementação em modelos futuros: próximo ciclo de treinamento
Contato
| Canal | Uso |
|---|---|
| dados@polar.com.br | Dados de treinamento e opt-out |
| dpo@polar.com.br | Encarregado de dados (DPO) |
| safety@polar.com.br | Segurança |
Atualizações
Este documento é atualizado a cada ciclo de treinamento ou quando há mudanças significativas. Última atualização: Março 2026.