WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS 개요

WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.

WAAS란 무엇입니까?

WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.

주요 기능

업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.

WAAS는 어떻게 작동합니까?

WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.

API 문서

WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.

POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
- 필수 매개변수: email_callback 또는 webhook_id입니다.
- 선택적 매개변수: language, model, task, filename입니다.
- Body: 원시 오디오 데이터입니다.
OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
POST /v1/detect: 오디오 파일의 언어를 감지합니다.
- 선택적 매개변수: model입니다.
- Body: 원시 오디오 데이터입니다.
OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
- 선택적 매개변수: output(json, timecode_txt, txt, vtt, srt)입니다.
OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
GET /v1/queue: 대기열의 현재 길이를 검색합니다.

Webhook 통합

WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.

WAAS는 누구를 위한 것입니까?

인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.

설치

WAAS를 설치하고 실행하려면 다음 단계를 따르세요.

리포지토리를 복제합니다.
가상 환경을 만듭니다.
pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.
BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD 및 EMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.
Docker Compose를 사용하여 설정을 실행합니다.

Docker Compose로 실행

필요한 환경 변수가 포함된 .envrc 파일을 만듭니다.
유효한 webhook URL 및 토큰이 포함된 allowed_webhooks.json 파일(webhook을 사용하는 경우)을 추가합니다.
docker-compose --env-file .envrc up을 실행합니다.

NVIDIA CUDA 사용

NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.

NVIDIA Docker를 설치합니다.
docker-compose.yml 파일을 편집하여 Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.
docker-compose --env-file .envrc up을 실행합니다.

WAAS를 선택하는 이유는 무엇입니까?

WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.

결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.

"WAAS"의 최고의 대체 도구

WhisperAPI

189 0

WhisperAPI는 OpenAI Whisper로 구동되는 빠르고 정확한 비디오 및 오디오 필사 API를 제공합니다. 매일 5회의 무료 필사를 받으세요. 다양한 형식, 넉넉한 제한 및 개인 정보 보호 우선 접근 방식을 지원합니다.

오디오 필사

비디오 필사

Yescribe.ai

483 0

Yescribe.ai는 99.9%의 정확도로 오디오 및 비디오를 텍스트로 변환하고 98개 이상의 언어를 지원하는 AI 기반 필사 서비스입니다. 다양한 산업 분야에 빠르고 안전하며 저렴한 필사 솔루션을 제공합니다.

오디오 필사

비디오 필사

Hello Transcribe

449 0

Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.

음성을 텍스트로

필사

오프라인

FreeTTS

409 0

FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.

텍스트 음성 변환

WAAS의 추가 대안

즐겨찾기에 추가

즐겨찾기 편집

WAAS

WAAS 개요