Speech-to-Text API ๋น๊ต: OpenAI Whisper, Google Speech-to-Text, Amazon Transcribe
์์ฑ ์ธ์ API๋ ๋ค์ํ ์ฐ์ ์์ ํ์์ ์ธ ๊ธฐ์ ๋ก ์๋ฆฌ ์ก๊ณ ์๋ค. ์ด ๊ธ์์๋ OpenAI Whisper, Google Speech-to-Text, Amazon Transcribe์ ์ฑ๋ฅ, ๊ธฐ๋ฅ, ์ธ์ด ์ง์, ๊ฐ๊ฒฉ, ํตํฉ, ๋ณด์ ๋ฑ ์ฃผ์ ์ธก๋ฉด์ ๋น๊ต ๋ถ์ํ๊ณ ์ ํ๋ค.
1. Accuracy and Speed
Word Error Rate(WER)
- OpenAI Whisper-v2:
| Size | Parameters | English-only model | Multilingual model |
|---|---|---|---|
| tiny | 39 M | โ | โ |
| base | 74 M | โ | โ |
| small | 244 M | โ | โ |
| medium | 769 M | โ | โ |
| turbo | 798 M | โ | |
| large | 1550 M | โ | |
| large-v2 | 1550 M | โ | |
| large-v3 | 1550 M | โ |
WER: 8.06%, ์ฒ๋ฆฌ ์๋: 10-30๋ถ/1์๊ฐ ์ค๋์ค
์ฅ์ : ๋ชจ๋ธ ํฌ๊ธฐ ์ ํ ๊ฐ๋ฅ(39M~1.55B ํ๋ผ๋ฏธํฐ)์ผ๋ก ์ ํ๋์ ์๋ ๊ท ํ ์กฐ์ ๊ฐ๋ฅ.
- Google Speech-to-Text: WER: 16.51%-20.63%, ์ฒ๋ฆฌ ์๋: 20-30๋ถ/1์๊ฐ ์ค๋์ค
- Amazon Transcribe: WER: 18.42%-22%, ์ฒ๋ฆฌ ์๋: Google๊ณผ ์ ์ฌ.
Sources:ย Hugging Face,ย Clari,ย Statista, Gladia
English test
๊ฒฐ๋ก : Whisper๋ ๋์ ์ ํ๋์ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋๋ก ์ฐ์. ๊ทธ๋ฌ๋ hallucination(ํ๊ฐ) ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์.
2. Features
๋น๊ตํ
| OpenAI | Golgle | Amazon | |
|---|---|---|---|
| ์ค์๊ฐ ์ ์ฌ(Live) | โ | โ | โ |
| ์ธ์ด ์๋ ๊ฐ์ง | โ | โ | โ |
| ๋จ์ด๋ณ ํ์์คํฌํ | โ | โ | โ |
| ํ์ ๋ถ๋ฆฌ | โ | โ | |
| ์์ค ํํฐ | โ | โ | |
| PII ์ ๊ฑฐ(๋ฏผ๊ฐ ์ ๋ณด ์ญ์ ) | โ | ||
| ๊ฐ์ ๋ถ์ | |||
| ์ปค์คํ ๋จ์ด ์ถ๊ฐ | โ | ||
| ์์ฑ ์ ์ | โ | โ | โ |
| ๋ค์ค ์ฑ๋ ์ธ์ | โ | โ | |
| ์ก์ ๊ฐ์ธ์ฑ | โ | โ | โ |
| ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ | โ | โ | |
| ์๋ ๊ตฌ๋์ ์ฝ์ | โ | โ | โ |
| ์ ํด ์ค๋์ค ์ฝํ ์ธ ๊ฐ์ง | โ | ||
| ๋จ์ด ์์ค ์ ๋ขฐ๋ | โ |
๊ฒฐ๋ก : Amazon์ด PII ์ ๊ฑฐ ๋ฐ ์๋ฃ/์ฝ์ผํฐ ๋ถ์ ๋ฑ์ ์ ๋ฌธํ๋ ๊ธฐ๋ฅ์ผ๋ก ๊ฐ์ฅ ์๋ฒฝํ ๊ธฐ๋ฅ ์ธํธ๋ฅผ ์ ๊ณต.
3. Language Support
- OpenAI Whisper:
98๊ฐ ์ธ์ด ์ง์, ๋์ ์ ํ๋. ๋จ, ์์ด ๋ฐ์ดํฐ ๋น์ค์ด ๋์ ํ ์ธ์ด์์๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ.
โ ์ปค์คํ
๋ชจ๋ธ๋ก ํน์ ์ธ์ด์ ๋ฐฉ์ธ ์ต์ ํ ๊ฐ๋ฅ.
- Google Speech-to-Text: 125๊ฐ ์ด์์ ์ธ์ด ๋ฐ ๋ฐฉ์ธ ์ง์. ๋ค์ํ ์ต์๊ณผ ์์์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ. โ ๋ชจ๋ธ ์กฐ์ (Adaptation) ๊ธฐ๋ฅ์ผ๋ก ํน์ ๋จ์ด๋ ๋ฌธ๊ตฌ ์ธ์ ๊ฐ๋ฅ.
- Amazon Transcribe: 100๊ฐ ์ด์์ ์ธ์ด ์ง์, ์๋ ์ธ์ด ๊ฐ์ง, ์ปค์คํ ๋จ์ด ์ถ๊ฐ ๊ฐ๋ฅ.
๊ฒฐ๋ก : ์ธ์ด ์ ๊ธฐ์ค์ผ๋ก Google์ด ์์์ง๋ง, Whisper๋ ์ ํ๋์ ์ค์ ์ฌ์ฉ ์ฌ๋ก์์ ๊ฐ๋ ฅ.
4. Cost
์๋น์ค ๊ฐ๊ฒฉ
- OpenAI Whisper $0.006/๋ถ
- Google Speech-to-Text $0.016/๋ถ
- Amazon Transcribe $0.0102-$0.024/๋ถ
- RTZR ์ฐธ๊ณ
๊ฒฐ๋ก : Whisper๊ฐ ๊ฐ์ฅ ์ ๋ ดํ๋ฉฐ, ๋น์ฉ ๋๋น ํ์ง์ด ์ฐ์.
5. Integration
- OpenAI Whisper API: Python, JavaScript ๋ฑ ๋ค์ํ ์ธ์ด ์ง์, ๊ฐ๋จํ ์ฝ๋ ๊ตฌ์กฐ(6์ค ์ดํ)๋ก ๋น ๋ฅธ ํตํฉ ๊ฐ๋ฅ. โ ์ง๊ด์ ์ธ ๋ฌธ์ ์ ๊ณต.
- Google Speech-to-Text: Google Cloud ์๋น์ค์ ํตํฉ์ ๊ฐ์ . ๋ค๋ง, ์ด๊ธฐ ์ค์ ๋ณต์ก.์ฐธ๊ณ
- Amazon Transcribe: SDK ์ง์(๋ค์ํ ์ธ์ด), ๋ฌธ์ ์ฒด๊ณ์ ์ด๋ ์ด๊ธฐ ๋ฑ๋ก ๊ณผ์ ๋ณต์ก.
๊ฒฐ๋ก : Whisper๋ ๊ฐ์ฅ ์ฌ์ด ์ด๊ธฐ ์ค์ ๊ณผ ๊ฐ๋จํ ์จ๋ณด๋ฉ1 ๊ฒฝํ ์ ๊ณต.
6. Privacy and Security
- Amazon Transcribe: ๋ฐ์ดํฐ ์ ์ก ์ TLS ์ฌ์ฉ, KMS ํค๋ก ์ถ๊ฐ ์ํธํ.
- Google Speech-to-Text: ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ์ง ์๊ณ ๋ฉ๋ชจ๋ฆฌ์์ ์ฒ๋ฆฌ. GDPR, HIPAA ๋ฑ ๊ท์ ์ค์.
- OpenAI Whisper: OSS ๋ชจ๋ธ ์ฌ์ฉ ์ ๋ก์ปฌ์์ ๋ชจ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ. API ์ฌ์ฉ ์ ๋ฐ์ดํฐ๋ 30์ผ๊ฐ ์ ์ฅ, Zero Data Retention ์ต์ ์ ๊ณต.
๊ฒฐ๋ก : ๋ณด์ ์ธก๋ฉด์์ Google๊ณผ Amazon์ด ๊ฐ์ฅ ์ฐ์.
์ต์ข ๊ฒฐ๋ก : ์ด๋ค API๊ฐ ์ ํฉํ๊ฐ?
| ๊ธฐ์ค | OpenAI Whisper | Google Speech-to-Text | Amazon Transcribe |
|---|---|---|---|
| ์ ํ๋/์๋ | ์ต๊ณ | ํ๊ท | ํ๊ท |
| ๊ธฐ๋ฅ | ์ ํ์ | ๊ด๋ฒ์ | ๊ฐ์ฅ ๊ด๋ฒ์ |
| ์ธ์ด ์ง์ | ๋์ ์ ํ๋ | ์ต๋ค ์ธ์ด ์ง์ | ์ค๊ฐ |
| ๋น์ฉ | ๊ฐ์ฅ ์ ๋ ด | ์ค๊ฐ | ๋น์ธ์ง๋ง ๋ค์ํ ์ต์ |
| ํตํฉ/์ฌ์ฉ ํธ์ | ์ฌ์ | ์ค๊ฐ | ์ค๊ฐ |
| ๋ณด์ | ๋ก์ปฌ ์ฒ๋ฆฌ ์ง์ | ๊ฐ๋ ฅํ ๋ณด์ | ๊ฐ๋ ฅํ ๋ณด์ |
Whisper๋ ์๋, ์ ํ๋, ๋น์ฉ์์ ๊ฐ์ ์ ๋ณด์ด๋ฉฐ, ๊ฐ๋ฐ์ ์นํ์ ์ธ ์๋ฃจ์ .
Google๊ณผ Amazon์ ์ถ๊ฐ ๊ธฐ๋ฅ๊ณผ ๋ณด์์ด ํ์ํ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์ ์ ํฉ.
๊ทธ์ธ
ํ ํ๋ก์ ํธ์ ์ด์ธ๋ฆฌ๋ STT ๋ชจ๋ธ๋ก๋ Whisper๊ฐ ๊ด์ฐฎ๋ค๊ณ ์๊ฐํ๋๋ฐ, โ๋ฆฌํด์ ๋กโ๊ฐ ํ๊ตญ์ด ์ดํด๋ ฅ ์ธ๊ณ ์ต๊ณ ์์ค ๋ฌ์ฑ.
https://blog.rtzr.ai/korean-speechai-benchmark/
| API \ ๋ฐ์ดํฐ์ | Avg. CER(%) | ์ฃผ์ ์์ญ๋ณ ํ์ | ํ์ | ์๋ด | ์ ์์ง ์ ํ๋ง | ํ๊ตญ์ด ๊ฐ์ | KsponSpeech eval clean | KsponSpeech eval other |
|---|---|---|---|---|---|---|---|---|
| OpenAI Whisper | 11.39 | 10.49 | 10.16 | 7.51 | 17.27 | 10.89 | 12.06 | 11.34 |
| Google api v2 | 11.50 | N/A2 | 11.62 | 8.37 | 14.11 | 11.48 | 11.82 | 11.59 |
| ETRI | 10.19 | 9.95 | 10.56 | 8.36 | 15.46 | 9.89 | 9.99 | 7.15 |
| Naver ClovaSpeech | 9.52 | 7.88 | 8.53 | 5.89 | 9.09 | 13.71 | 10.66 | 10.86 |
| ๋ฆฌํด์ ๋ก | 6.18 | 6.78 | 7.27 | 3.56 | 4.66 | 7.76 | 6.61 | 6.64 |
| ๋ฆฌํด์ ๋ก Whisper3 | 6.59 | 6.84 | 8.33 | 4.1 | 4.26 | 7.11 | 7.78 | 7.73 |
์ฌ๊ธฐ์ CER(Character Error Rate)๋ ์์ ์ค๋ช ํ WER์ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๊ฑฐ์ ๋์ผํ๋ค. WER์ ๋จ์ด๊ฐ ํ ํฐ์ด ๋๋ฉฐ, CER์ ๋ฌธ์๊ฐ ํ ํฐ์ด๋ผ๋ ์ฐจ์ด์ ์ด ์๋ค. ํ๊ตญ์ด ์์ฑ์ธ์์ WER์ด ์๋ CER๋ก ํ๊ฐ๋์ด์ผ ์ ์ ํ๋ค๊ณ ํ๋ค.
์ CER๋ก ๊ณ์ฐ?
ํ๊ตญ์ด๋ ๊ต์ฐฉ์ด(์ฒจ๊ฐ์ด)๋ก ์กฐ์ฌ๋ฅผ ์ฌ์ฉํ๊ณ ๋ค๋ฅธ ์ธ์ด์ ๋น๊ตํ์ ๋ ํํ์์ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ๋ฉฐ, ๋จ์ด์ ๋จ์ด ์ฌ์ด์ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํ๋ค. ์ด๋ฌํ ์ธ์ด ๊ตฌ์กฐ์ ํน์ฑ์ผ๋ก ์ธํด ๋จ์ด ์์ค์์์ ํ๊ฐ๊ฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์, ๋ฌธ์ ๋จ์์ ์ค๋ฅ๋ฅผ ์ธก์ ํ๋ CER์ด ํ๊ตญ์ด ์์ฑ์ธ์์์ ๋ ์ ํํ ํ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ฃผ๋๋ค.