WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS

3.5 | 304 | 0
유형:
오픈 소스 프로젝트
최종 업데이트:
2025/10/14
설명:
WAAS (Whisper as a Service)는 OpenAI의 Whisper를 위한 오픈 소스 GUI 및 API로, 이메일 알림 및 로컬 브라우저 기반 편집기를 통해 오디오 및 비디오를 쉽게 필사할 수 있습니다.
공유:
음성을 텍스트로 변환
오디오 필사
비디오 필사
Whisper API
OpenAI

WAAS 개요

WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.

WAAS란 무엇입니까?

WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.

주요 기능

  • 업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
  • 이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
  • 다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
  • 로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
  • API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.

WAAS는 어떻게 작동합니까?

WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.

API 문서

WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.

  • POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
    • 필수 매개변수: email_callback 또는 webhook_id입니다.
    • 선택적 매개변수: language, model, task, filename입니다.
    • Body: 원시 오디오 데이터입니다.
  • OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
  • POST /v1/detect: 오디오 파일의 언어를 감지합니다.
    • 선택적 매개변수: model입니다.
    • Body: 원시 오디오 데이터입니다.
  • OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
  • GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
    • 선택적 매개변수: output(json, timecode_txt, txt, vtt, srt)입니다.
  • OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
  • GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
  • GET /v1/queue: 대기열의 현재 길이를 검색합니다.

Webhook 통합

WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.

WAAS는 누구를 위한 것입니까?

  • 인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
  • 오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
  • 트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
  • 오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.

설치

WAAS를 설치하고 실행하려면 다음 단계를 따르세요.

  1. 리포지토리를 복제합니다.
  2. 가상 환경을 만듭니다.
  3. pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.
  4. BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORDEMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.
  5. Docker Compose를 사용하여 설정을 실행합니다.

Docker Compose로 실행

  1. 필요한 환경 변수가 포함된 .envrc 파일을 만듭니다.
  2. 유효한 webhook URL 및 토큰이 포함된 allowed_webhooks.json 파일(webhook을 사용하는 경우)을 추가합니다.
  3. docker-compose --env-file .envrc up을 실행합니다.

NVIDIA CUDA 사용

NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.

  1. NVIDIA Docker를 설치합니다.
  2. docker-compose.yml 파일을 편집하여 Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.
  3. docker-compose --env-file .envrc up을 실행합니다.

WAAS를 선택하는 이유는 무엇입니까?

WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.

결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.

"WAAS"의 최고의 대체 도구

WhisperAPI
이미지가 없습니다
189 0

WhisperAPI는 OpenAI Whisper로 구동되는 빠르고 정확한 비디오 및 오디오 필사 API를 제공합니다. 매일 5회의 무료 필사를 받으세요. 다양한 형식, 넉넉한 제한 및 개인 정보 보호 우선 접근 방식을 지원합니다.

오디오 필사
비디오 필사
Yescribe.ai
이미지가 없습니다
483 0

Yescribe.ai는 99.9%의 정확도로 오디오 및 비디오를 텍스트로 변환하고 98개 이상의 언어를 지원하는 AI 기반 필사 서비스입니다. 다양한 산업 분야에 빠르고 안전하며 저렴한 필사 솔루션을 제공합니다.

오디오 필사
비디오 필사
Hello Transcribe
이미지가 없습니다
449 0

Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.

음성을 텍스트로
필사
오프라인
FreeTTS
이미지가 없습니다
409 0

FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.

텍스트 음성 변환

WAAS 관련 태그