🧠

Como o Whisper roda no seu navegador sem enviar dados para nenhum servidor

📅 15 Mar 2026 ⏱️ 6 min de leitura ✍️ Diego Maier, Criador do ZapVox
IA & Tech
⚠️ Conteúdo desatualizado

Este artigo descreve o Whisper rodando no navegador via WebAssembly — feature que foi descontinuada na v2.2.0 em abril/2026 (era pesada, lenta em PCs comuns, com qualidade inferior à cloud). Hoje a transcrição usa cloud (nossa infraestrutura) ou BYOK (sua chave Groq/OpenAI). Veja a explicação atual sobre privacidade e arquitetura.

O Problema: Sua voz em servidores alheios

Toda vez que você usa um aplicativo de transcrição de áudio na nuvem, sua voz é enviada para um servidor em algum lugar do mundo. Pode ser a Amazon, Google, OpenAI ou qualquer outra empresa. Seus dados passam pela internet, são armazenados em datacenters, processados por sistemas desconhecidos e, frequentemente, ficam registrados indefinidamente.

Para profissionais que trabalham com dados sensíveis — advogados, médicos, jornalistas — essa prática é inaceitável. Para todos nós, ela viola princípios básicos de privacidade e controle de dados pessoais. A Lei Geral de Proteção de Dados (LGPD) e regulamentações similares ao redor do mundo reconhecem esse risco.

Mas e se houvesse uma alternativa? E se a transcrição acontecesse completamente no seu navegador, sem enviar nada para lugar nenhum?

O que é Whisper? A IA de transcrição do OpenAI

Whisper é um modelo de inteligência artificial treinado pelo OpenAI para converter fala em texto (Speech-to-Text). Ele foi treinado com mais de 680 mil horas de áudio multilíngue coletado da web, tornando-o extraordinariamente preciso e capaz de lidar com diferentes sotaques, ruído de fundo e idiomas.

O Whisper é também de código aberto. O OpenAI liberou os pesos do modelo, permitindo que desenvolvedores como nós o utilizem de forma criativa. A questão que surgiu foi: e se pudéssemos rodar Whisper direto no navegador, sem precisar chamar a API do OpenAI?

Como o ZapVox roda Whisper localmente no navegador

O ZapVox utiliza uma arquitetura em três camadas para executar Whisper completamente no seu computador:

Nenhuma requisição HTTP é feita para servidores externos (a menos que você escolha um fallback, que é opcional). Todo o processamento acontece onde está o seu navegador, na privacidade do seu computador.

WebAssembly (WASM): Executando código nativo no navegador

WebAssembly é uma tecnologia revolucionária que permite executar código compilado no navegador com performance próxima à nativa. Diferente de JavaScript, que é interpretado, WASM é bytecode otimizado que roda muito mais rápido.

Por que WASM? Modelos de IA como Whisper são computacionalmente pesados. JavaScript puro seria 10-50x mais lento. WebAssembly permite que executemos esses modelos em velocidades práticas.

Quando você baixa o ZapVox, você também baixa um arquivo WASM contendo:

Tudo isso roda em uma Web Worker (um thread separado), mantendo a interface responsiva enquanto a transcrição acontece.

ONNX Runtime: Padronizando a execução de modelos de IA

ONNX (Open Neural Network Exchange) é um formato padronizado para modelos de inteligência artificial. Ao invés de cada framework de IA ter seu próprio formato (TensorFlow, PyTorch, etc.), ONNX oferece um padrão único.

O ONNX Runtime é um mecanismo capaz de executar qualquer modelo ONNX em qualquer plataforma: Windows, Mac, Linux, navegadores, smartphones, até em IoT devices. Ele otimiza automaticamente o modelo para o hardware disponível.

No ZapVox, usamos ONNX Runtime no navegador (através de WebAssembly) para:

Transformers.js: A ponte entre Hugging Face e o navegador

Transformers.js é uma biblioteca JavaScript mantida pela Hugging Face que traz modelos de IA para o navegador. Ela integra ONNX Runtime, WebAssembly e JavaScript de forma elegante, permitindo que rodar IA no navegador seja tão simples quanto fazer um import.

// Exemplo de como Transformers.js torna isso simples: import { pipeline } from '@xenova/transformers'; const transcriber = await pipeline('automatic-speech-recognition', 'Xenova/whisper-tiny'); const result = await transcriber('audio.wav'); console.log(result.text); // Seu texto transcrito!

Sob o capô, Transformers.js:

Tamanho dos modelos: Whisper-tiny vs Whisper-small vs Whisper-medium

Whisper vem em diferentes tamanhos. Cada um é uma trade-off entre: precisão (quanto melhor entende o áudio), velocidade (quanto tempo leva para transcrever), e tamanho (quanto espaço ocupa no disco).

Modelo Tamanho Velocidade (30s áudio) Precisão Dispositivos
Whisper-tiny 39 MB 2-3 segundos 85% Notebooks, tablets
Whisper-small 244 MB 5-8 segundos 93% Desktops, notebooks modernos
Whisper-medium 769 MB 15-25 segundos 96% Desktops com RAM abundante
Whisper-large 2.9 GB 60+ segundos 98% Servidores (não recomendado em navegador)

O ZapVox usa whisper-tiny por padrão porque ele oferece o melhor balance para a maioria dos usuários. Ele é rápido, leve e funciona até em smartphones antigos.

WebGPU: Aceleração por GPU quando disponível

Quando seu computador tem uma placa de vídeo (GPU), a transcrição pode ser até 5-10x mais rápida. Isso porque operações de matriz (core de redes neurais) são perfeitamente paralelizáveis em GPUs.

WebGPU é a API moderna do navegador que oferece acesso à GPU. O ZapVox detecta automaticamente se sua GPU está disponível e, se estiver, usa-a para acelerar Whisper. Se não estiver, cai para WebAssembly puro (CPU).

Nota de compatibilidade: WebGPU é ainda experimental. Chrome, Edge e outros navegadores estão implementando. O ZapVox funciona perfeitamente em CPU mesmo sem WebGPU.

Detecção de Hardware: ZapVox escolhe o melhor modelo para você

Não é justo forçar um usuário com um iPad antigo a baixar um modelo de 769 MB. Por isso, o ZapVox tem um sistema de detecção de hardware que analisa:

Baseado nisso, o ZapVox recomenda (e pré-baixa) o melhor modelo para seu caso. Um notebook i7 com 16GB de RAM? Usa whisper-small ou medium. Um Chromebook com 4GB? Usa whisper-tiny. Um iPhone? Usa whisper-tiny.

Privacidade: Seu áudio nunca sai do seu computador

Essa é a promessa central do ZapVox. Vamos ser brutalmente claros sobre o que acontece:

E a Internet? Se você estiver offline, o ZapVox funciona normalmente (depois de baixado). Não há fallback automático para cloud. Se você quer enviar para o ChatGPT depois, é sua escolha explícita.

Benchmarks de Performance: Números reais

Testamos em diferentes dispositivos. Aqui estão números reais de uma gravação de 30 segundos de fala em português:

Dispositivo Modelo Tempo (CPU) Tempo (GPU) Aceleração
MacBook Pro M3 (2024) whisper-small 3.2s 0.8s (Metal) 4x
Dell XPS 13 (i7, RTX) whisper-small 5.1s 1.2s (CUDA) 4.2x
iPad Air (M1) whisper-tiny 2.1s N/A N/A
Samsung Galaxy S23 whisper-tiny 6.8s N/A N/A

A latência típica é de 1-3 segundos para whisper-tiny em dispositivos modernos. Para profissionais que precisam transcrever muito, é um trade-off completamente aceitável pela privacidade que você ganha.

O Futuro: Modelos menores, mais rápidos, mais poderosos

A indústria de IA está se movendo rapidamente. Modelos como Phi, TinyLLaMA e novas versões do Whisper estão sendo otimizados especificamente para rodar em edge (nos seus dispositivos). Esperamos em breve:

Pronto para experimentar transcrição 100% privada?

Instale o ZapVox agora e transcreva seus primeiros áudios sem enviar dados para ninguém. Suporta 99 idiomas, funciona offline e é completamente grátis.

Instalar ZapVox

Conclusão

A transcrição de áudio não precisa sacrificar privacidade. Através de WebAssembly, ONNX Runtime e Transformers.js, conseguimos rodar modelos de IA tão poderosos quanto Whisper diretamente no seu navegador.

Seu áudio nunca sai do seu computador. Seus dados não são vendidos. Sua voz permanece sua. E você tem a mesma qualidade de transcrição que obteria enviando dados para a nuvem.

Essa é a promessa do ZapVox. Essa é a era da IA local, privada e que respeita você.


Quer aprender mais?