WAAS 개요
WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API
WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.
WAAS란 무엇입니까?
WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.
주요 기능
- 업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
- 이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
- 다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
- 로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
- API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.
WAAS는 어떻게 작동합니까?
WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.
API 문서
WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.
- POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
- 필수 매개변수:
email_callback또는webhook_id입니다. - 선택적 매개변수:
language,model,task,filename입니다. - Body: 원시 오디오 데이터입니다.
- 필수 매개변수:
- OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
- POST /v1/detect: 오디오 파일의 언어를 감지합니다.
- 선택적 매개변수:
model입니다. - Body: 원시 오디오 데이터입니다.
- 선택적 매개변수:
- OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
- 선택적 매개변수:
output(json, timecode_txt, txt, vtt, srt)입니다.
- 선택적 매개변수:
- OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
- GET /v1/queue: 대기열의 현재 길이를 검색합니다.
Webhook 통합
WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.
WAAS는 누구를 위한 것입니까?
- 인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
- 오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
- 트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
- 오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.
설치
WAAS를 설치하고 실행하려면 다음 단계를 따르세요.
- 리포지토리를 복제합니다.
- 가상 환경을 만듭니다.
pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORD및EMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.- Docker Compose를 사용하여 설정을 실행합니다.
Docker Compose로 실행
- 필요한 환경 변수가 포함된
.envrc파일을 만듭니다. - 유효한 webhook URL 및 토큰이 포함된
allowed_webhooks.json파일(webhook을 사용하는 경우)을 추가합니다. docker-compose --env-file .envrc up을 실행합니다.
NVIDIA CUDA 사용
NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.
- NVIDIA Docker를 설치합니다.
docker-compose.yml파일을 편집하여Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.docker-compose --env-file .envrc up을 실행합니다.
WAAS를 선택하는 이유는 무엇입니까?
WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.
결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.
"WAAS"의 최고의 대체 도구
WhisperAPI는 OpenAI Whisper로 구동되는 빠르고 정확한 비디오 및 오디오 필사 API를 제공합니다. 매일 5회의 무료 필사를 받으세요. 다양한 형식, 넉넉한 제한 및 개인 정보 보호 우선 접근 방식을 지원합니다.
Yescribe.ai는 99.9%의 정확도로 오디오 및 비디오를 텍스트로 변환하고 98개 이상의 언어를 지원하는 AI 기반 필사 서비스입니다. 다양한 산업 분야에 빠르고 안전하며 저렴한 필사 솔루션을 제공합니다.
Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.
FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.