PolarPOLAR

Urso Eco — Voice Chat

Chat de voz em tempo real com múltiplas personas. Arquitetura WebSocket com vozes nativas em PT-BR.

Visão Geral

O Urso Eco é o sistema de voice chat em tempo real da Polar. Utilizando uma arquitetura bidirecional baseada em WebSocket, o Urso Eco permite conversas por voz naturais e fluidas com latência ultra-baixa. O sistema é alimentado pelo engine Moshi, otimizado para vozes nativas em português brasileiro.

Arquitetura

O Urso Eco utiliza uma arquitetura speech-to-speech que processa áudio diretamente, sem etapas intermediárias de transcrição. Isso resulta em:

  • Latência ultra-baixa — resposta em menos de 500ms
  • Tempo real — respostas instantâneas com latência ultra-baixa
  • Naturalidade — entonação, pausas e expressividade preservadas
  • Streaming contínuo — sem espera por turnos de fala

Fluxo de Dados

Microfone → WebSocket → Moshi Engine → Modelo Urso → Síntese de Voz → WebSocket → Alto-falante
                ↕                                                           ↕
          Frames de áudio                                          Frames de áudio +
          (PCM 16-bit, 16kHz)                                     texto (opcional)

Funcionalidades

Múltiplas Personas

O Urso Eco suporta diferentes personas, cada uma com sua própria voz, personalidade e conhecimento especializado:

PersonaDescriçãoCaso de Uso
Assistente GeralAssistente conversacional versátilPerguntas gerais, tarefas do dia-a-dia
JurídicoEspecialista em direito brasileiroConsultas jurídicas, explicação de leis
AtendimentoAgente de atendimento ao clienteSuporte, SAC, resolução de problemas
EducacionalTutor e professorEnsino, explicações didáticas
PersonalizadoDefinido pelo usuárioQualquer caso de uso específico

Processamento de Áudio em Tempo Real

  • Formato de entrada: PCM 16-bit, mono, 16kHz
  • Formato de saída: PCM 16-bit, mono, 24kHz
  • Tamanho do frame: 20ms (640 bytes a 16kHz)
  • Codec: Opus (opcional, para reduzir banda)
  • VAD (Voice Activity Detection): integrado

Logging de Conversas

Todas as conversas podem ser opcionalmente logadas para:

  • Transcrição completa (texto)
  • Gravação de áudio
  • Métricas de latência
  • Análise de sentimento

Início Rápido

1. Conectar via WebSocket

const ws = new WebSocket("wss://api.polarai.com.br/v1/urso-eco/stream");

ws.onopen = () => {
  // Autenticar
  ws.send(JSON.stringify({
    type: "auth",
    api_key: "pk-sua-chave-aqui",
    persona: "assistente_geral",
    config: {
      sample_rate: 16000,
      channels: 1,
      encoding: "pcm_s16le"
    }
  }));
};

2. Enviar Áudio

// Capturar áudio do microfone
navigator.mediaDevices.getUserMedia({ audio: true })
  .then(stream => {
    const audioContext = new AudioContext({ sampleRate: 16000 });
    const source = audioContext.createMediaStreamSource(stream);
    const processor = audioContext.createScriptProcessor(1024, 1, 1);

    source.connect(processor);
    processor.connect(audioContext.destination);

    processor.onaudioprocess = (e) => {
      const audioData = e.inputBuffer.getChannelData(0);
      const pcmData = convertFloat32ToPCM16(audioData);
      ws.send(pcmData);
    };
  });

3. Receber Respostas

ws.onmessage = (event) => {
  if (event.data instanceof Blob) {
    // Frame de áudio — reproduzir
    playAudio(event.data);
  } else {
    const msg = JSON.parse(event.data);
    switch (msg.type) {
      case "text_delta":
        console.log("Texto:", msg.text);
        break;
      case "session_start":
        console.log("Sessão iniciada:", msg.session_id);
        break;
      case "error":
        console.error("Erro:", msg.message);
        break;
    }
  }
};

Preços

RecursoPreço
Voice chat (personas padrão)R$ 1,50 por minuto
Logging de transcriçãoIncluído
Gravação de áudioR$ 0,02 por minuto adicional
Personas personalizadasR$ 2,50 por minuto

Próximos Passos

On this page