WAAS: Whisper as a Service - GUI e API para OpenAI Whisper

WAAS

3.5 | 301 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/14
Descrição:
WAAS (Whisper as a Service) é uma GUI e API de código aberto para o Whisper da OpenAI, permitindo uma fácil transcrição de áudio e vídeo com notificações por e-mail e um editor local baseado em navegador.
Compartilhar:
voz para texto
transcrição de áudio
transcrição de vídeo
Whisper API
OpenAI

Visão geral de WAAS

WAAS: Whisper como Serviço - GUI e API para OpenAI Whisper

WAAS (Whisper as a Service) é um projeto de código aberto que fornece uma GUI e API para o Whisper da OpenAI, tornando a transcrição de áudio e vídeo mais acessível e amigável. Ele oferece tanto uma interface gráfica de usuário (GUI) para facilitar o upload e transcrição de arquivos, quanto uma API para acesso programático.

O que é WAAS?

WAAS fornece uma interface para fazer upload e transcrever arquivos de áudio ou vídeo. Após a transcrição, os usuários recebem um e-mail com links para download da transcrição em vários formatos, incluindo Jojo-file, SRT ou texto simples. Um recurso importante é o editor local baseado em navegador para corrigir erros de transcrição.

Principais Recursos

  • GUI para Upload e Transcrição: Interface simples para fazer upload de arquivos de áudio e vídeo.
  • Notificações por E-mail: Receba notificações por e-mail com links para download após a transcrição.
  • Múltiplos Formatos de Saída: Baixe transcrições em formatos Jojo-file, SRT ou texto simples.
  • Editor Local Baseado em Navegador: Corrija erros de transcrição dentro do navegador.
  • Acesso à API: Acesso programático aos serviços de transcrição via API.

Como funciona o WAAS?

WAAS permite que os usuários façam upload de arquivos de áudio ou vídeo através de uma GUI (chamada Jojo) ou via API. O arquivo carregado é então processado usando o modelo Whisper da OpenAI para transcrição. Uma vez que a transcrição esteja completa, o usuário recebe um e-mail contendo links para baixar a transcrição em vários formatos. O editor baseado em navegador permite que os usuários refinem e corrijam quaisquer erros na transcrição antes de salvar o resultado final.

Documentação da API

A API WAAS fornece vários endpoints para transcrição e tarefas relacionadas:

  • POST /v1/transcribe: Adiciona um novo trabalho de transcrição à fila.
    • Parâmetros obrigatórios: email_callback ou webhook_id.
    • Parâmetros opcionais: language, model, task, filename.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/transcribe: Recupera as opções disponíveis para a rota de transcrição.
  • POST /v1/detect: Detecta o idioma do arquivo de áudio.
    • Parâmetro opcional: model.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/detect: Recupera as opções disponíveis para a rota de detecção.
  • GET /v1/download/<job_id>: Recupera a transcrição concluída no formato de saída solicitado.
    • Parâmetro opcional: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Recupera as opções disponíveis para a rota de download.
  • GET /v1/jobs/<job_id>: Recupera o status e os metadados do trabalho especificado.
  • GET /v1/queue: Recupera o comprimento atual da fila.

Integração de Webhook

WAAS oferece suporte a notificações de webhook. Após uma transcrição bem-sucedida ou falhada, uma solicitação POST é enviada para o URL de webhook configurado com um payload JSON e um cabeçalho X-WAAS-Signature para verificação de conteúdo.

Para quem é o WAAS?

  • Pesquisadores que precisam transcrever entrevistas ou palestras.
  • Jornalistas que trabalham com conteúdo de áudio ou vídeo.
  • Desenvolvedores que integram serviços de transcrição em seus aplicativos.
  • Qualquer pessoa que precise transcrever arquivos de áudio ou vídeo de forma rápida e precisa.

Instalação

Para instalar e executar o WAAS, siga estas etapas:

  1. Clone o repositório.
  2. Crie um ambiente virtual.
  3. Instale os pacotes Python necessários usando pip install -r requirements.txt.
  4. Configure variáveis de ambiente como BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD e EMAIL_SENDER_HOST.
  5. Execute a configuração usando o Docker Compose.

Executando com Docker Compose

  1. Crie um arquivo .envrc com as variáveis de ambiente necessárias.
  2. Adicione um arquivo allowed_webhooks.json (se estiver usando webhooks) com URLs e tokens de webhook válidos.
  3. Execute docker-compose --env-file .envrc up.

Usando NVIDIA CUDA

Para habilitar a aceleração de GPU com NVIDIA CUDA:

  1. Instale o NVIDIA Docker.
  2. Edite o arquivo docker-compose.yml para usar o Dockerfile.gpu e remova o comentário da reserva do dispositivo.
  3. Execute docker-compose --env-file .envrc up.

Por que escolher o WAAS?

WAAS oferece uma interface amigável e uma API para aproveitar o modelo Whisper da OpenAI. Seus recursos, como notificações por e-mail, múltiplos formatos de saída e edição local baseada em navegador, tornam-no uma solução conveniente e eficiente para necessidades de transcrição de áudio e vídeo. A flexibilidade para executá-lo localmente ou integrá-lo em sistemas existentes através da API o torna uma ferramenta versátil para vários casos de uso.

Em conclusão, o WAAS é uma ferramenta valiosa para quem procura transcrever conteúdo de áudio ou vídeo de forma rápida e precisa. Sua natureza de código aberto e facilidade de uso o tornam uma excelente escolha para uso pessoal e profissional.

Melhores ferramentas alternativas para "WAAS"

WhisperUI
Imagem não disponível
555 0

WhisperUI fornece conversão de voz para texto acessível usando OpenAI Whisper. Converta arquivos de áudio para formatos de texto e SRT facilmente. Comece com uma conta gratuita!

transcrição de áudio
Transcript LOL
Imagem não disponível
484 0

Transcript LOL fornece transcrição de áudio e vídeo com tecnologia de IA com alta precisão, reconhecimento de locutores e minutos ilimitados. Perfeito para criadores de conteúdo, pesquisadores e empresas.

transcrição de IA
voz para texto
Whisper Notes
Imagem não disponível
409 0

Whisper Notes é um aplicativo offline de voz para texto para iOS/macOS, utilizando Whisper AI para transcrição privada e precisa. Ele suporta mais de 80 idiomas, importação de arquivos de áudio e oferece acesso vitalício com uma compra única.

transcrição offline
voz para texto
Buzz Captions
Imagem não disponível
644 0

Buzz Captions é uma ferramenta de transcrição e tradução de áudio offline alimentada por Whisper da OpenAI. Ele suporta vários formatos de áudio/vídeo e exporta para CSV, SRT, TXT e VTT.

transcrição de áudio
voz para texto

Tags Relacionadas a WAAS