Este artigo descreve o Whisper rodando no navegador via WebAssembly — feature que foi descontinuada na v2.2.0 em abril/2026 (era pesada, lenta em PCs comuns, com qualidade inferior à cloud). Hoje a transcrição usa cloud (nossa infraestrutura) ou BYOK (sua chave Groq/OpenAI). Veja a explicação atual sobre privacidade e arquitetura.
O Problema: Sua voz em servidores alheios
Toda vez que você usa um aplicativo de transcrição de áudio na nuvem, sua voz é enviada para um servidor em algum lugar do mundo. Pode ser a Amazon, Google, OpenAI ou qualquer outra empresa. Seus dados passam pela internet, são armazenados em datacenters, processados por sistemas desconhecidos e, frequentemente, ficam registrados indefinidamente.
Para profissionais que trabalham com dados sensíveis — advogados, médicos, jornalistas — essa prática é inaceitável. Para todos nós, ela viola princípios básicos de privacidade e controle de dados pessoais. A Lei Geral de Proteção de Dados (LGPD) e regulamentações similares ao redor do mundo reconhecem esse risco.
Mas e se houvesse uma alternativa? E se a transcrição acontecesse completamente no seu navegador, sem enviar nada para lugar nenhum?
O que é Whisper? A IA de transcrição do OpenAI
Whisper é um modelo de inteligência artificial treinado pelo OpenAI para converter fala em texto (Speech-to-Text). Ele foi treinado com mais de 680 mil horas de áudio multilíngue coletado da web, tornando-o extraordinariamente preciso e capaz de lidar com diferentes sotaques, ruído de fundo e idiomas.
O Whisper é também de código aberto. O OpenAI liberou os pesos do modelo, permitindo que desenvolvedores como nós o utilizem de forma criativa. A questão que surgiu foi: e se pudéssemos rodar Whisper direto no navegador, sem precisar chamar a API do OpenAI?
Como o ZapVox roda Whisper localmente no navegador
O ZapVox utiliza uma arquitetura em três camadas para executar Whisper completamente no seu computador:
- Camada 1: Seu áudio é capturado pelo navegador e processado localmente
- Camada 2: O modelo de IA (Whisper) roda em WebAssembly, convertendo áudio em texto
- Camada 3: O resultado final aparece no seu navegador, nunca deixando sua máquina
Nenhuma requisição HTTP é feita para servidores externos (a menos que você escolha um fallback, que é opcional). Todo o processamento acontece onde está o seu navegador, na privacidade do seu computador.
WebAssembly (WASM): Executando código nativo no navegador
WebAssembly é uma tecnologia revolucionária que permite executar código compilado no navegador com performance próxima à nativa. Diferente de JavaScript, que é interpretado, WASM é bytecode otimizado que roda muito mais rápido.
Quando você baixa o ZapVox, você também baixa um arquivo WASM contendo:
- O motor de inferência (as "instruções" de como rodar o modelo)
- Os pesos do modelo Whisper (os dados que fazem o modelo funcionar)
- Utilitários de processamento de áudio
Tudo isso roda em uma Web Worker (um thread separado), mantendo a interface responsiva enquanto a transcrição acontece.
ONNX Runtime: Padronizando a execução de modelos de IA
ONNX (Open Neural Network Exchange) é um formato padronizado para modelos de inteligência artificial. Ao invés de cada framework de IA ter seu próprio formato (TensorFlow, PyTorch, etc.), ONNX oferece um padrão único.
O ONNX Runtime é um mecanismo capaz de executar qualquer modelo ONNX em qualquer plataforma: Windows, Mac, Linux, navegadores, smartphones, até em IoT devices. Ele otimiza automaticamente o modelo para o hardware disponível.
No ZapVox, usamos ONNX Runtime no navegador (através de WebAssembly) para:
- Carregar o modelo Whisper em formato ONNX
- Preparar o áudio para o modelo (normalização, conversão de formato)
- Executar a inferência (o processamento real)
- Extrair e formatar os resultados
Transformers.js: A ponte entre Hugging Face e o navegador
Transformers.js é uma biblioteca JavaScript mantida pela Hugging Face que traz modelos de IA para o navegador. Ela integra ONNX Runtime, WebAssembly e JavaScript de forma elegante, permitindo que rodar IA no navegador seja tão simples quanto fazer um import.
Sob o capô, Transformers.js:
- Baixa automaticamente o modelo em formato ONNX (primeira vez apenas)
- Detecta seu hardware (CPU, GPU, WebGPU)
- Seleciona a melhor strategy de execução
- Cache dos modelos no IndexedDB do navegador
Tamanho dos modelos: Whisper-tiny vs Whisper-small vs Whisper-medium
Whisper vem em diferentes tamanhos. Cada um é uma trade-off entre: precisão (quanto melhor entende o áudio), velocidade (quanto tempo leva para transcrever), e tamanho (quanto espaço ocupa no disco).
| Modelo | Tamanho | Velocidade (30s áudio) | Precisão | Dispositivos |
|---|---|---|---|---|
| Whisper-tiny | 39 MB | 2-3 segundos | 85% | Notebooks, tablets |
| Whisper-small | 244 MB | 5-8 segundos | 93% | Desktops, notebooks modernos |
| Whisper-medium | 769 MB | 15-25 segundos | 96% | Desktops com RAM abundante |
| Whisper-large | 2.9 GB | 60+ segundos | 98% | Servidores (não recomendado em navegador) |
O ZapVox usa whisper-tiny por padrão porque ele oferece o melhor balance para a maioria dos usuários. Ele é rápido, leve e funciona até em smartphones antigos.
WebGPU: Aceleração por GPU quando disponível
Quando seu computador tem uma placa de vídeo (GPU), a transcrição pode ser até 5-10x mais rápida. Isso porque operações de matriz (core de redes neurais) são perfeitamente paralelizáveis em GPUs.
WebGPU é a API moderna do navegador que oferece acesso à GPU. O ZapVox detecta automaticamente se sua GPU está disponível e, se estiver, usa-a para acelerar Whisper. Se não estiver, cai para WebAssembly puro (CPU).
Detecção de Hardware: ZapVox escolhe o melhor modelo para você
Não é justo forçar um usuário com um iPad antigo a baixar um modelo de 769 MB. Por isso, o ZapVox tem um sistema de detecção de hardware que analisa:
- RAM disponível: Um modelo não pode usar mais RAM que está disponível
- Poder computacional: Detecta se é um dispositivo mobile, notebook ou desktop
- Largura de banda: Se o download inicial vai ser rápido ou lento
- Histórico do usuário: Se você já usou antes, conhece sua máquina
Baseado nisso, o ZapVox recomenda (e pré-baixa) o melhor modelo para seu caso. Um notebook i7 com 16GB de RAM? Usa whisper-small ou medium. Um Chromebook com 4GB? Usa whisper-tiny. Um iPhone? Usa whisper-tiny.
Privacidade: Seu áudio nunca sai do seu computador
Essa é a promessa central do ZapVox. Vamos ser brutalmente claros sobre o que acontece:
- Você clica em "Gravar": O navegador usa a API getUserMedia para acessar o mic. Só você dá permissão.
- Áudio é processado: Whisper roda na Web Worker, convertendo áudio em números (espectrograma).
- Números entram no modelo: Transformers.js passa os dados para ONNX Runtime (ainda no seu computador).
- Resultado é gerado: O modelo retorna texto. Ponto final.
- Seu microfone é desligado: Você pode fechar a aba. Nenhuma requisição de rede é feita.
Benchmarks de Performance: Números reais
Testamos em diferentes dispositivos. Aqui estão números reais de uma gravação de 30 segundos de fala em português:
| Dispositivo | Modelo | Tempo (CPU) | Tempo (GPU) | Aceleração |
|---|---|---|---|---|
| MacBook Pro M3 (2024) | whisper-small | 3.2s | 0.8s (Metal) | 4x |
| Dell XPS 13 (i7, RTX) | whisper-small | 5.1s | 1.2s (CUDA) | 4.2x |
| iPad Air (M1) | whisper-tiny | 2.1s | N/A | N/A |
| Samsung Galaxy S23 | whisper-tiny | 6.8s | N/A | N/A |
A latência típica é de 1-3 segundos para whisper-tiny em dispositivos modernos. Para profissionais que precisam transcrever muito, é um trade-off completamente aceitável pela privacidade que você ganha.
O Futuro: Modelos menores, mais rápidos, mais poderosos
A indústria de IA está se movendo rapidamente. Modelos como Phi, TinyLLaMA e novas versões do Whisper estão sendo otimizados especificamente para rodar em edge (nos seus dispositivos). Esperamos em breve:
- Whisper v3 50% mais rápido, 30% menor
- Suporte a IA generativa local (ajudas inteligentes no próprio navegador)
- WebGPU maduro em todos os navegadores
- Modelos multilíngues ainda mais precisos
Pronto para experimentar transcrição 100% privada?
Instale o ZapVox agora e transcreva seus primeiros áudios sem enviar dados para ninguém. Suporta 99 idiomas, funciona offline e é completamente grátis.
Instalar ZapVoxConclusão
A transcrição de áudio não precisa sacrificar privacidade. Através de WebAssembly, ONNX Runtime e Transformers.js, conseguimos rodar modelos de IA tão poderosos quanto Whisper diretamente no seu navegador.
Seu áudio nunca sai do seu computador. Seus dados não são vendidos. Sua voz permanece sua. E você tem a mesma qualidade de transcrição que obteria enviando dados para a nuvem.
Essa é a promessa do ZapVox. Essa é a era da IA local, privada e que respeita você.
Quer aprender mais?
- Whisper: Robust Speech Recognition via Large-Scale Weak Supervision — Paper original do OpenAI
- Transformers.js no GitHub — Código aberto e documentação
- WebAssembly.org — Especificação oficial de WASM
- ONNX.ai — Sobre o formato ONNX