Google Speech-to-Text API 사용 방법

Google Speech-to-Text API는 음성을 텍스트로 변환하는 강력한 도구다.

이를 활용하려면 Google Cloud Platform(GCP) 계정이 필요하며, 아래 단계를 통해 API 설정과 사용 방법을 배울 수 있다.

1. Google Cloud 프로젝트 설정

Google Cloud Console에 로그인
새 프로젝트를 생성하거나 기존 프로젝트를 선택
API 및 서비스 → API 및 서비스 사용 설정으로 이동
Speech-to-Text API를 검색한 후 활성화

2. 서비스 계정 키 생성 및 다운로드

서비스 계정 키 생성

Google Cloud Console에서 프로젝트를 선택
IAM 및 관리자 → 서비스 계정으로 이동
서비스 계정 생성을 클릭하고 권한을 추가
키 추가 버튼을 클릭하여 JSON 형식의 키 파일을 다운로드

API 키 생성 (대안)

서비스 계정 키 대신 API 키를 사용하여 인증할 수도 있다:

API 및 서비스 → 사용자 인증 정보로 이동
사용자 인증 정보 만들기를 클릭하고 API 키를 선택
생성된 API 키를 저장(API 호출 시 이 키를 사용)

Info

API 키는 간편한 인증 방식이지만, 서비스 계정 키는 더 강력한 권한 제어와 보안을 제공한다. 프로젝트 규모에 따라 적합한 방법을 선택하자.

3. 환경 변수 설정

다운로드한 키 파일을 환경 변수로 설정해야 한다.

Python 코드에서 설정

import os
 
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/path/to/your-service-account-key.json"

터미널에서 설정

export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your-service-account-key.json"

4. Google Speech-to-Text API 사용 예제

전체 코드

아래는 Google Speech-to-Text API를 사용하는 Python 예제이다:

import os
from google.cloud import speech
 
# 환경 변수 설정
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/path/to/your-service-account-key.json"
 
# 클라이언트 생성
client = speech.SpeechClient()
 
# MP3 파일 읽기
with open('/path/to/audio.mp3', 'rb') as audio_file:
    content = audio_file.read()
 
# RecognitionAudio 객체 생성
audio = speech.RecognitionAudio(content=content)
 
# RecognitionConfig 설정
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.MP3,
    sample_rate_hertz=16000,
    language_code='ko-KR'
)
 
# API 요청
try:
    response = client.recognize(config=config, audio=audio)
    for result in response.results:
        print("Transcript: {}".format(result.alternatives[0].transcript))
except Exception as e:
    print(f"Error during API call: {e}")

코드 주요 단계

클라이언트 생성
- speech.SpeechClient()를 사용하여 API와의 연결을 설정
오디오 파일 읽기
- 파일을 바이너리 형식으로 읽어 RecognitionAudio 객체를 생성
RecognitionConfig 설정
- 오디오 파일의 인코딩 방식, 샘플링 속도, 언어 코드를 지정
- 위 예제에서는 MP3 형식과 **한국어(ko-KR)**를 사용
API 요청 및 처리
- client.recognize()로 요청을 보내고, 결과를 출력

5. 실행 결과

API를 성공적으로 호출하면, 오디오 파일의 텍스트 변환 결과가 출력된다.

예를 들어:

Transcript: 안녕하세요, 여기는 Google Cloud Speech-to-Text API입니다.

오류가 발생하면 예외(Exception) 메시지를 출력한다:

Error during API call: 403 PERMISSION_DENIED

6. API 사용 시 주의사항

사용량 제한
- Speech-to-Text API는 사용량에 따라 과금된다. Google Cloud Console에서 무료 할당량과 청구 설정을 확인하자.
오디오 파일 형식
- 지원되는 오디오 형식을 확인하고, 샘플링 속도(sample_rate_hertz)와 인코딩(encoding)을 정확히 설정하자.
환경 변수 보안
- 서비스 계정 키는 프로젝트에 민감한 정보를 포함하므로, 안전한 경로에서 관리해야 한다.

🪴 Sameta-cani

PARA

Google Speech-to-Text API 사용 방법

Google Speech-to-Text API 사용 방법

1. Google Cloud 프로젝트 설정

2. 서비스 계정 키 생성 및 다운로드

서비스 계정 키 생성

API 키 생성 (대안)

3. 환경 변수 설정

Python 코드에서 설정

터미널에서 설정

4. Google Speech-to-Text API 사용 예제

5. 실행 결과

6. API 사용 시 주의사항

그래프 뷰

Table of Contents

백링크