Apa itu teks OpenAI ke suara ucapan?
Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif.
Teks OpenAI ke suara ucapan tersedia melalui dua varian model: Neural
dan NeuralHD
.
-
Neural
: Dioptimalkan untuk kasus penggunaan real time dengan latensi terendah, tetapi kualitasnya lebih rendah daripadaNeuralHD
. -
NeuralHD
: Dioptimalkan untuk kualitas.
Teks yang tersedia untuk suara ucapan di layanan Azure AI
Anda mungkin bertanya: Jika saya ingin menggunakan teks OpenAI untuk suara ucapan, haruskah saya menggunakannya melalui Layanan Azure OpenAI atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?
Setiap model suara menawarkan fitur dan kemampuan yang berbeda, memungkinkan Anda memilih salah satu yang paling sesuai dengan kebutuhan spesifik Anda. Anda ingin memahami opsi dan perbedaan antara suara teks ke ucapan yang tersedia di layanan Azure AI.
Anda dapat memilih dari teks berikut ke suara ucapan di layanan Azure AI:
- Teks OpenAI ke suara ucapan di Azure OpenAI Service. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
- Teks OpenAI ke suara ucapan di Azure AI Speech. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
- Teks layanan Ucapan Azure AI ke suara ucapan. Tersedia di puluhan wilayah. Lihat daftar wilayah.
Teks OpenAI ke suara ucapan melalui Azure OpenAI Service atau melalui Azure AI Speech?
Jika Anda ingin menggunakan teks OpenAI untuk suara ucapan, Anda dapat memilih apakah akan menggunakannya melalui Azure OpenAI atau melalui Azure AI Speech. Anda dapat mengunjungi Galeri Suara untuk mendengarkan sampel suara Azure OpenAI atau mensintesis ucapan dengan teks Anda sendiri menggunakan Pembuatan Konten Audio. Output audio identik dalam kedua kasus, dengan hanya beberapa perbedaan fitur antara kedua layanan. Lihat tabel di bawah ini untuk detailnya.
Berikut adalah perbandingan fitur antara teks OpenAI dengan suara ucapan di Azure OpenAI Service dan teks OpenAI dengan suara ucapan di Azure AI Speech.
Fitur | Layanan Azure OpenAI (suara OpenAI) | Azure AI Speech (suara OpenAI) | Suara Azure AI Speech |
---|---|---|---|
Wilayah | US Tengah Utara, Swedia Tengah | US Tengah Utara, Swedia Tengah | Tersedia di puluhan wilayah. Lihat daftar wilayah. |
Variasi suara | 6 | 12 | Lebih dari 500 |
Nomor suara multibahasa | 6 | 12 | 49 |
Cakupan bahasa multibahasa maks | 57 | 57 | 77 |
Dukungan Speech Synthesis Markup Language (SSML) | Tidak didukung | Dukungan untuk subset elemen SSML. | Dukungan untuk set lengkap SSML di Azure AI Speech. |
Opsi pengembangan | REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Opsi penyebaran | Hanya cloud | Hanya cloud | Cloud, tersemat, hibrid, dan kontainer. |
Sintesis real time atau batch | Real time | Sintesis real time dan batch | Sintesis real time dan batch |
Latensi | lebih besar dari 500 mdtk | lebih besar dari 500 mdtk | kurang dari 300 mdtk |
Laju sampel audio yang disintesis | 24 kHz | 8, 16, 24, dan 48 kHz | 8, 16, 24, dan 48 kHz |
Format audio output ucapan | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Ada fitur dan kemampuan tambahan yang tersedia di Azure AI Speech yang tidak tersedia dengan suara OpenAI. Contohnya:
- Teks OpenAI ke suara ucapan di Azure AI Speech hanya mendukung subset elemen SSML. Suara Azure AI Speech mendukung set lengkap elemen SSML.
- Azure AI Speech mendukung peristiwa batas kata. Suara OpenAI tidak mendukung peristiwa batas kata.
Teks OpenAI yang tersedia untuk suara ucapan
Suara OpenAI yang tersedia di Azure OpenAI Service adalah:
alloy
echo
fable
onyx
nova
shimmer
Suara OpenAI yang tersedia di Azure AI Speech adalah:
en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD
Elemen SSML yang didukung oleh teks OpenAI ke suara ucapan di Azure AI Speech
Speech Synthesis Markup Language (SSML) dengan teks input menentukan struktur, konten, dan karakteristik teks ke output ucapan lainnya. Misalnya, Anda dapat menggunakan SSML untuk menentukan paragraf, kalimat, jeda atau jeda, atau keheningan. Anda dapat membungkus teks dengan tag peristiwa seperti bookmark atau viseme yang dapat diproses nanti oleh aplikasi Anda.
Tabel berikut menguraikan elemen Speech Synthesis Markup Language (SSML) yang didukung oleh teks OpenAI ke suara ucapan dalam ucapan Azure AI. Hanya subset tag SSML berikut yang didukung untuk suara OpenAI. Lihat struktur dan peristiwa dokumen SSML untuk informasi selengkapnya.
Nama elemen SSML | Deskripsi |
---|---|
<speak> |
Menyertakan seluruh konten yang akan diucapkan. Ini adalah elemen akar dari dokumen SSML. |
<voice> |
Menentukan suara yang digunakan untuk output teks ke ucapan. |
<sub> |
Menunjukkan bahwa nilai teks atribut alias harus diucapkan alih-alih teks terlampir elemen. |
<say-as> |
Menunjukkan jenis konten, seperti angka atau tanggal, teks elemen.interpret-as Semua nilai properti didukung untuk elemen ini kecuali interpret-as="name" . Misalnya, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> didukung, tetapi <say-as interpret-as="name">ED</say-as> tidak didukung. Untuk informasi selengkapnya, lihat pengucapan dengan SSML. |
<s> |
Menunjukkan kalimat. |
<lang> |
Menunjukkan lokal default untuk bahasa yang Anda inginkan untuk diucapkan suara neural. |
<break> |
Gunakan untuk mengambil alih perilaku default jeda atau jeda antar kata. |