Moderação e Guardrails

Filtragem de conteúdo, disclaimers setoriais e guardrails de segurança da plataforma Polar.

Visão Geral

A Polar implementa camadas de moderação e guardrails para garantir uso seguro e responsável dos modelos Urso. Isso inclui filtragem de conteúdo, disclaimers setoriais automáticos conforme a legislação brasileira (PL 2338/2023), e guardrails customizáveis.

Filtragem de Conteúdo

Todos os modelos Urso possuem filtragem de conteúdo integrada que detecta e bloqueia automaticamente:

Conteúdo violento ou de incitação à violência
Discurso de ódio e discriminação
Conteúdo sexual envolvendo menores
Instruções para atividades ilegais
Informações pessoais sensíveis (PII)

Verificando Moderação

from openai import OpenAI

client = OpenAI(
    base_url="https://api.polarai.com.br/v1",
    api_key="pk-your-key-here"
)

response = client.chat.completions.create(
    model="urso-mabe",
    messages=[
        {"role": "user", "content": "Sua mensagem aqui"}
    ]
)

# O campo finish_reason indica se houve filtragem
if response.choices[0].finish_reason == "content_filter":
    print("Conteúdo filtrado pelo sistema de moderação")
else:
    print(response.choices[0].message.content)

Disclaimers Setoriais

Em conformidade com o PL 2338/2023 (Marco Legal da IA no Brasil), a Polar adiciona automaticamente disclaimers em respostas de setores regulados:

Saúde

Quando o modelo responde sobre temas médicos, um disclaimer é automaticamente adicionado:

AVISO: Esta informação tem caráter educativo e não substitui a consulta
com um profissional de saúde. Procure um médico para diagnóstico e
tratamento adequados.

Jurídico

Para orientações jurídicas:

AVISO: Esta informação tem caráter educativo e não constitui
aconselhamento jurídico. Consulte um advogado para orientação
específica sobre o seu caso.

Farmacêutico

Para informações sobre medicamentos:

AVISO: Esta informação não substitui a orientação de um farmacêutico
ou médico. Nunca se automedique. Consulte um profissional de saúde
antes de usar qualquer medicamento.

Configurando Disclaimers

response = client.chat.completions.create(
    model="urso-mabe",
    messages=[
        {"role": "user", "content": "Quais remédios posso tomar para dor de cabeça?"}
    ],
    extra_body={
        "guardrails": {
            "sector_disclaimers": True,  # Padrão: True
            "sectors": ["medical", "pharmaceutical"]
        }
    }
)

Guardrails Customizados

Além dos guardrails padrão, você pode definir regras customizadas para sua aplicação:

Python

response = client.chat.completions.create(
    model="urso-mabe",
    messages=[
        {
            "role": "system",
            "content": "Você é um assistente de atendimento ao cliente da empresa XYZ. Regras: 1) Nunca fale sobre concorrentes. 2) Não faça promessas de prazo. 3) Sempre sugira que o cliente entre em contato com o suporte para questões técnicas."
        },
        {"role": "user", "content": "Qual a diferença entre vocês e o concorrente?"}
    ]
)

TypeScript

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.polarai.com.br/v1",
  apiKey: "pk-your-key-here",
});

const response = await client.chat.completions.create({
  model: "urso-mabe",
  messages: [
    {
      role: "system",
      content:
        "You are a customer service assistant for XYZ company. Rules: 1) Never discuss competitors. 2) Do not make delivery time promises. 3) Always suggest contacting support for technical issues.",
    },
    { role: "user", content: "How are you different from the competition?" },
  ],
});

console.log(response.choices[0].message.content);

curl

curl -X POST https://api.polarai.com.br/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer pk-your-key-here" \
  -d '{
    "model": "urso-mabe",
    "messages": [
      {
        "role": "system",
        "content": "Você é um assistente de atendimento. Nunca fale sobre concorrentes. Não faça promessas de prazo."
      },
      {
        "role": "user",
        "content": "Quando meu pedido vai chegar?"
      }
    ]
  }'

Guardrails via API

Configure guardrails programaticamente:

response = client.chat.completions.create(
    model="urso-mabe",
    messages=[
        {"role": "user", "content": "Analise este contrato e me diga os riscos."}
    ],
    extra_body={
        "guardrails": {
            "content_filter": True,
            "sector_disclaimers": True,
            "pii_detection": True,
            "max_risk_level": "medium",
            "blocked_topics": ["politica_partidaria", "religiao"],
            "custom_rules": [
                "Sempre mencione que a análise não substitui consultoria profissional",
                "Não cite valores monetários específicos em orientações"
            ]
        }
    }
)

Recursos de Segurança

Detecção de PII

O sistema pode detectar e mascarar informações pessoais sensíveis:

Tipo	Exemplo	Mascaramento
CPF	123.456.789-00	*..-
CNPJ	12.345.678/0001-90	../-
Email	joao@email.com	j*@e*.com
Telefone	(11) 99999-0000	(11) ***-**

Níveis de Risco

Nível	Descrição
`low`	Filtragem mínima, mais permissivo
`medium`	Equilíbrio entre segurança e utilidade (padrão)
`high`	Filtragem rigorosa, mais restritivo

Conformidade Regulatória

A Polar está em conformidade com:

LGPD — Lei Geral de Proteção de Dados (Lei 13.709/2018)
PL 2338/2023 — Marco Legal da Inteligência Artificial
Marco Civil da Internet — Lei 12.965/2014
CDC — Código de Defesa do Consumidor aplicado a serviços digitais

Próximos Passos

Chat Completions — referência completa da API
Function Calling — ferramentas com guardrails
Structured Output — respostas estruturadas e seguras

Moderação e Guardrails

On this page