Proveniência de Dados
Fontes de dados, conformidade legal e pipeline de filtragem dos modelos Urso.
Proveniência de Dados
A Polar se compromete com a transparência sobre os dados utilizados no treinamento dos modelos Urso. Este documento detalha as fontes de dados, o pipeline de filtragem, a conformidade com a legislação brasileira e os mecanismos de opt-out.
Conformidade Legal
PL 2338/2023 (Marco Legal da IA)
Os modelos Urso foram desenvolvidos em conformidade com o Projeto de Lei 2338/2023 (Marco Legal da Inteligência Artificial no Brasil), que estabelece princípios e diretrizes para o desenvolvimento e uso de sistemas de IA. A Polar adota os seguintes princípios:
- Transparência: Documentação pública sobre dados de treinamento e metodologia
- Não discriminação: Avaliação contínua de vieses nos dados e nos modelos
- Segurança: Pipeline robusto de filtragem e descontaminação de dados
- Responsabilidade: Canais claros de reporte e mecanismos de correção
- Privacidade: Conformidade com a LGPD em todas as etapas do pipeline de dados
LGPD (Lei Geral de Proteção de Dados)
O pipeline de dados da Polar está em conformidade com a LGPD (Lei 13.709/2018):
- Dados pessoais são removidos durante a fase de filtragem
- PII (informações pessoalmente identificáveis) é detectada e anonimizada
- Nenhum dado pessoal é armazenado após o processamento
- Base legal: interesse legítimo para fins de pesquisa e desenvolvimento de IA
Fontes de Dados
GigaVerbo v2 (320B tokens)
Corpus curado de português brasileiro, composto por:
- Textos jornalísticos de fontes públicas brasileiras
- Conteúdo educacional e acadêmico
- Documentos técnicos e científicos
- Literatura brasileira em domínio público
- Fóruns e discussões em português (filtrados por qualidade)
FineWeb-Edu (1.3T tokens)
Subconjunto educacional de alta qualidade da web, filtrado por relevância educacional:
- Páginas web com conteúdo educativo
- Artigos científicos e acadêmicos
- Tutoriais e guias técnicos
- Material didático
- Documentação técnica
The Stack v2 (900B tokens)
Corpus de código-fonte com licenças permissivas:
- Código-fonte de repositórios públicos
- Apenas licenças que permitem uso para treinamento de IA
- Cobertura de mais de 600 linguagens de programação
- Inclui documentação e comentários
Wikipedia PT
- Artigos da Wikipedia em português
- Conteúdo enciclopédico verificado pela comunidade
- Atualizações periódicas do dump
CulturaX
- Corpus multilingual de alta qualidade
- Conteúdo cultural e linguístico diverso
- Filtrado por qualidade e relevância
Legislação e Jurisprudência Brasileira
- Legislação federal, estadual e municipal
- Jurisprudência dos tribunais superiores (STF, STJ, TST)
- Súmulas e orientações jurisprudenciais
- Diário Oficial da União
- Dados públicos do portal do governo
Distribuição de Dados
A composição final do dataset de treinamento segue a seguinte distribuição:
| Categoria | Porcentagem | Descrição |
|---|---|---|
| Português brasileiro (PT-BR) | 65% | Conteúdo geral, jornalístico, acadêmico em PT-BR |
| Inglês (EN) | 17% | Conteúdo técnico, científico e educacional em inglês |
| Governo e Legal | 8% | Legislação, jurisprudência, documentos governamentais |
| Matemática e Ciência | 6% | Fórmulas, problemas, artigos científicos |
| Código-fonte | 4% | Código com licenças permissivas |
Pipeline de Filtragem
Os dados passam por um pipeline rigoroso de filtragem antes do treinamento:
1. Filtragem por Qualidade
- Score de qualidade linguística (perplexidade, coerência)
- Remoção de conteúdo de baixa qualidade (spam, texto gerado, boilerplate)
- Filtragem por comprimento mínimo e máximo
- Detecção de idioma para garantir distribuição correta
2. Filtragem de Toxicidade
- Classificador de toxicidade para identificar conteúdo prejudicial
- Remoção de discurso de ódio, conteúdo sexual explícito e violência gráfica
- Filtragem de conteúdo que promove desinformação
- Revisão humana de amostras do pipeline
3. Deduplicação
- Deduplicação exata (hash-based)
- Deduplicação aproximada (MinHash / LSH)
- Remoção de conteúdo duplicado entre fontes
- Redução de memorabilidade de dados específicos
4. Descontaminação
- Remoção de sobreposição com benchmarks de avaliação (ENEM, OAB, MMLU, etc.)
- Detecção de vazamento de dados de teste
- Verificação de integridade dos resultados de avaliação
- N-gram matching contra conjuntos de teste conhecidos
5. Privacidade
- Detecção e remoção de PII (CPF, RG, endereços, telefones, emails pessoais)
- Anonimização de dados sensíveis
- Remoção de informações financeiras pessoais
- Conformidade com LGPD
Mecanismo de Opt-out
A Polar respeita o direito de criadores de conteúdo de solicitar a remoção de seus dados do treinamento de modelos futuros.
Como solicitar opt-out
Envie um email para dados@polar.com.br com:
- Identificação do conteúdo (URLs, nomes de domínio, ou descrição)
- Comprovação de titularidade do conteúdo
- Tipo de solicitação (remoção de dados futuros ou verificação de presença)
Prazo de atendimento
- Confirmação de recebimento: até 5 dias úteis
- Análise e resposta: até 15 dias úteis
- Implementação em modelos futuros: próximo ciclo de treinamento
Contato
- Dados e opt-out: dados@polar.com.br
- DPO (Encarregado de Dados): dpo@polar.com.br
- Segurança: safety@polar.com.br
Atualizações
Este documento é atualizado a cada ciclo de treinamento dos modelos ou quando há mudanças significativas no pipeline de dados. Última atualização: Março 2026.