Como o Whisper roda no seu navegador sem enviar dados para nenhum servidor

⚠️ Conteúdo desatualizado

Este artigo descreve o Whisper rodando no navegador via WebAssembly — feature que foi descontinuada na v2.2.0 em abril/2026 (era pesada, lenta em PCs comuns, com qualidade inferior à cloud). Hoje a transcrição usa cloud (nossa infraestrutura) ou BYOK (sua chave Groq/OpenAI). Veja a explicação atual sobre privacidade e arquitetura.

O Problema: Sua voz em servidores alheios

Toda vez que você usa um aplicativo de transcrição de áudio na nuvem, sua voz é enviada para um servidor em algum lugar do mundo. Pode ser a Amazon, Google, OpenAI ou qualquer outra empresa. Seus dados passam pela internet, são armazenados em datacenters, processados por sistemas desconhecidos e, frequentemente, ficam registrados indefinidamente.

Para profissionais que trabalham com dados sensíveis — advogados, médicos, jornalistas — essa prática é inaceitável. Para todos nós, ela viola princípios básicos de privacidade e controle de dados pessoais. A Lei Geral de Proteção de Dados (LGPD) e regulamentações similares ao redor do mundo reconhecem esse risco.

Mas e se houvesse uma alternativa? E se a transcrição acontecesse completamente no seu navegador, sem enviar nada para lugar nenhum?

O que é Whisper? A IA de transcrição do OpenAI

Whisper é um modelo de inteligência artificial treinado pelo OpenAI para converter fala em texto (Speech-to-Text). Ele foi treinado com mais de 680 mil horas de áudio multilíngue coletado da web, tornando-o extraordinariamente preciso e capaz de lidar com diferentes sotaques, ruído de fundo e idiomas.

O Whisper é também de código aberto. O OpenAI liberou os pesos do modelo, permitindo que desenvolvedores como nós o utilizem de forma criativa. A questão que surgiu foi: e se pudéssemos rodar Whisper direto no navegador, sem precisar chamar a API do OpenAI?

Como o ZapVox roda Whisper localmente no navegador

O ZapVox utiliza uma arquitetura em três camadas para executar Whisper completamente no seu computador:

Camada 1: Seu áudio é capturado pelo navegador e processado localmente
Camada 2: O modelo de IA (Whisper) roda em WebAssembly, convertendo áudio em texto
Camada 3: O resultado final aparece no seu navegador, nunca deixando sua máquina

Nenhuma requisição HTTP é feita para servidores externos (a menos que você escolha um fallback, que é opcional). Todo o processamento acontece onde está o seu navegador, na privacidade do seu computador.

WebAssembly (WASM): Executando código nativo no navegador

WebAssembly é uma tecnologia revolucionária que permite executar código compilado no navegador com performance próxima à nativa. Diferente de JavaScript, que é interpretado, WASM é bytecode otimizado que roda muito mais rápido.

                Por que WASM? Modelos de IA como Whisper são computacionalmente pesados. 
                JavaScript puro seria 10-50x mais lento. WebAssembly permite que executemos esses modelos em velocidades práticas.
            

Quando você baixa o ZapVox, você também baixa um arquivo WASM contendo:

O motor de inferência (as "instruções" de como rodar o modelo)
Os pesos do modelo Whisper (os dados que fazem o modelo funcionar)
Utilitários de processamento de áudio

Tudo isso roda em uma Web Worker (um thread separado), mantendo a interface responsiva enquanto a transcrição acontece.

ONNX Runtime: Padronizando a execução de modelos de IA

ONNX (Open Neural Network Exchange) é um formato padronizado para modelos de inteligência artificial. Ao invés de cada framework de IA ter seu próprio formato (TensorFlow, PyTorch, etc.), ONNX oferece um padrão único.

O ONNX Runtime é um mecanismo capaz de executar qualquer modelo ONNX em qualquer plataforma: Windows, Mac, Linux, navegadores, smartphones, até em IoT devices. Ele otimiza automaticamente o modelo para o hardware disponível.

No ZapVox, usamos ONNX Runtime no navegador (através de WebAssembly) para:

Carregar o modelo Whisper em formato ONNX
Preparar o áudio para o modelo (normalização, conversão de formato)
Executar a inferência (o processamento real)
Extrair e formatar os resultados

Transformers.js: A ponte entre Hugging Face e o navegador

Transformers.js é uma biblioteca JavaScript mantida pela Hugging Face que traz modelos de IA para o navegador. Ela integra ONNX Runtime, WebAssembly e JavaScript de forma elegante, permitindo que rodar IA no navegador seja tão simples quanto fazer um import.

// Exemplo de como Transformers.js torna isso simples:
import { pipeline } from '@xenova/transformers';

const transcriber = await pipeline('automatic-speech-recognition', 'Xenova/whisper-tiny');
const result = await transcriber('audio.wav');
console.log(result.text); // Seu texto transcrito!
            

Sob o capô, Transformers.js:

Baixa automaticamente o modelo em formato ONNX (primeira vez apenas)
Detecta seu hardware (CPU, GPU, WebGPU)
Seleciona a melhor strategy de execução
Cache dos modelos no IndexedDB do navegador

Tamanho dos modelos: Whisper-tiny vs Whisper-small vs Whisper-medium

Whisper vem em diferentes tamanhos. Cada um é uma trade-off entre: precisão (quanto melhor entende o áudio), velocidade (quanto tempo leva para transcrever), e tamanho (quanto espaço ocupa no disco).

Modelo	Tamanho	Velocidade (30s áudio)	Precisão	Dispositivos
Whisper-tiny	39 MB	2-3 segundos	85%	Notebooks, tablets
Whisper-small	244 MB	5-8 segundos	93%	Desktops, notebooks modernos
Whisper-medium	769 MB	15-25 segundos	96%	Desktops com RAM abundante
Whisper-large	2.9 GB	60+ segundos	98%	Servidores (não recomendado em navegador)

O ZapVox usa whisper-tiny por padrão porque ele oferece o melhor balance para a maioria dos usuários. Ele é rápido, leve e funciona até em smartphones antigos.

WebGPU: Aceleração por GPU quando disponível

Quando seu computador tem uma placa de vídeo (GPU), a transcrição pode ser até 5-10x mais rápida. Isso porque operações de matriz (core de redes neurais) são perfeitamente paralelizáveis em GPUs.

WebGPU é a API moderna do navegador que oferece acesso à GPU. O ZapVox detecta automaticamente se sua GPU está disponível e, se estiver, usa-a para acelerar Whisper. Se não estiver, cai para WebAssembly puro (CPU).

                Nota de compatibilidade: WebGPU é ainda experimental. Chrome, Edge e outros navegadores estão implementando. 
                O ZapVox funciona perfeitamente em CPU mesmo sem WebGPU.
            

Detecção de Hardware: ZapVox escolhe o melhor modelo para você

Não é justo forçar um usuário com um iPad antigo a baixar um modelo de 769 MB. Por isso, o ZapVox tem um sistema de detecção de hardware que analisa:

RAM disponível: Um modelo não pode usar mais RAM que está disponível
Poder computacional: Detecta se é um dispositivo mobile, notebook ou desktop
Largura de banda: Se o download inicial vai ser rápido ou lento
Histórico do usuário: Se você já usou antes, conhece sua máquina

Baseado nisso, o ZapVox recomenda (e pré-baixa) o melhor modelo para seu caso. Um notebook i7 com 16GB de RAM? Usa whisper-small ou medium. Um Chromebook com 4GB? Usa whisper-tiny. Um iPhone? Usa whisper-tiny.

Privacidade: Seu áudio nunca sai do seu computador

Essa é a promessa central do ZapVox. Vamos ser brutalmente claros sobre o que acontece:

Você clica em "Gravar": O navegador usa a API getUserMedia para acessar o mic. Só você dá permissão.
Áudio é processado: Whisper roda na Web Worker, convertendo áudio em números (espectrograma).
Números entram no modelo: Transformers.js passa os dados para ONNX Runtime (ainda no seu computador).
Resultado é gerado: O modelo retorna texto. Ponto final.
Seu microfone é desligado: Você pode fechar a aba. Nenhuma requisição de rede é feita.

                E a Internet? Se você estiver offline, o ZapVox funciona normalmente (depois de baixado). 
                Não há fallback automático para cloud. Se você quer enviar para o ChatGPT depois, é sua escolha explícita.
            

Benchmarks de Performance: Números reais

Testamos em diferentes dispositivos. Aqui estão números reais de uma gravação de 30 segundos de fala em português:

Dispositivo	Modelo	Tempo (CPU)	Tempo (GPU)	Aceleração
MacBook Pro M3 (2024)	whisper-small	3.2s	0.8s (Metal)	4x
Dell XPS 13 (i7, RTX)	whisper-small	5.1s	1.2s (CUDA)	4.2x
iPad Air (M1)	whisper-tiny	2.1s	N/A	N/A
Samsung Galaxy S23	whisper-tiny	6.8s	N/A	N/A

A latência típica é de 1-3 segundos para whisper-tiny em dispositivos modernos. Para profissionais que precisam transcrever muito, é um trade-off completamente aceitável pela privacidade que você ganha.

O Futuro: Modelos menores, mais rápidos, mais poderosos

A indústria de IA está se movendo rapidamente. Modelos como Phi, TinyLLaMA e novas versões do Whisper estão sendo otimizados especificamente para rodar em edge (nos seus dispositivos). Esperamos em breve:

Whisper v3 50% mais rápido, 30% menor
Suporte a IA generativa local (ajudas inteligentes no próprio navegador)
WebGPU maduro em todos os navegadores
Modelos multilíngues ainda mais precisos

Pronto para experimentar o ZapVox?

Nota (2026): a transcrição local no navegador descrita acima foi descontinuada na v2.2.0. Hoje o ZapVox transcreve pela nuvem (nossa infraestrutura) ou com a sua chave BYOK (Groq grátis ou OpenAI), com 99+ idiomas e privacidade por design (áudios descartados após o processamento). O plano Free é grátis e sem cartão.

Instalar ZapVox grátis

Conclusão

A transcrição de áudio não precisa sacrificar privacidade. Através de WebAssembly, ONNX Runtime e Transformers.js, conseguimos rodar modelos de IA tão poderosos quanto Whisper diretamente no seu navegador.

Seu áudio nunca sai do seu computador. Seus dados não são vendidos. Sua voz permanece sua. E você tem a mesma qualidade de transcrição que obteria enviando dados para a nuvem.

Essa é a promessa do ZapVox. Essa é a era da IA local, privada e que respeita você.

Quer aprender mais?

Whisper: Robust Speech Recognition via Large-Scale Weak Supervision — Paper original do OpenAI
Transformers.js no GitHub — Código aberto e documentação
WebAssembly.org — Especificação oficial de WASM
ONNX.ai — Sobre o formato ONNX