Mik azok az OpenAI-szövegek a beszédhangokhoz?
Az Azure AI Speech-hangokhoz hasonlóan az OpenAI-szövegek beszédhangokká alakítása kiváló minőségű beszédszintézist biztosít az írott szövegek természetes hangzású beszélt hanggá alakításához. Ez számos lehetőséget kínál a modern és interaktív felhasználói élményekhez.
Az OpenAI szöveg és a beszédhangok két modellvariánson keresztül érhetők el: Neural
és NeuralHD
.
-
Neural
: A legkisebb késéssel rendelkező, de alacsonyabb minőséggelNeuralHD
rendelkező valós idejű használati esetekre van optimalizálva. -
NeuralHD
: Minőségre optimalizálva.
Beszédhangok számára elérhető szöveg az Azure AI-szolgáltatásokban
Felteheti a kérdést: Ha OpenAI-szöveget szeretnék használni a beszédhanghoz, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?
Minden hangmodell különböző funkciókat és képességeket kínál, így kiválaszthatja az igényeinek leginkább megfelelőt. Szeretné megismerni az Azure AI-szolgáltatásokban elérhető szövegek és beszédhangok közötti lehetőségeket és különbségeket.
Az Azure AI-szolgáltatásokban a következő szöveg és beszédhangok közül választhat:
- Az Azure OpenAI szolgáltatásban a beszédhangok közötti openAI szövegfelolvasás. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
- OpenAI text to speech voices in Azure AI Speech. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
- Az Azure AI Speech szolgáltatás szövege beszédhangokra. Több tucat régióban érhető el. Tekintse meg a régiólistát.
Az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül nyitja meg a beszédhangokat?
Ha OpenAI-szöveget szeretne használni a beszédhangokhoz, kiválaszthatja, hogy azOkat az Azure OpenAI-on vagy az Azure AI Speechen keresztül szeretné-e használni. A Hangtárban meghallgathatja az Azure OpenAI-hangok mintáit, vagy saját szöveggel szintetizálhatja a beszédet a hangtartalmak létrehozásával. A hangkimenet mindkét esetben azonos, és csak néhány funkcióbeli különbség van a két szolgáltatás között. A részletekért tekintse meg a lenti táblázatot.
Íme egy összehasonlítása az OpenAI-szövegek és az Azure OpenAI szolgáltatás beszédhangjai és az OpenAI szöveg és az Azure AI Speech beszédhangjai közötti funkciók összehasonlítása.
Szolgáltatás | Azure OpenAI szolgáltatás (OpenAI-hangok) | Azure AI Speech (OpenAI-hangok) | Azure AI Speech-hangok |
---|---|---|---|
Régió | North Central US, Svédország Közép | North Central US, Svédország Közép | Több tucat régióban érhető el. Tekintse meg a régiólistát. |
Hangkultúra | 6 | 12 | Több mint 500 |
Többnyelvű hangszám | 6 | 12 | 49 |
Többnyelvű nyelvi lefedettség maximális kihasználtság | 57 | 57 | 77 |
Beszédszintézis korrektúranyelv (SSML) támogatása | Nem támogatott | SSML-elemek egy részhalmazának támogatása. | Az SSML teljes készletének támogatása az Azure AI Speechben. |
Fejlesztési lehetőségek | REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Üzembe helyezési lehetőség | Csak felhő | Csak felhő | Felhő, beágyazott, hibrid és tárolók. |
Valós idejű vagy kötegszintézis | Valós idejű | Valós idejű és kötegszintézis | Valós idejű és kötegszintézis |
Késés | 500 ms-nál nagyobb | 500 ms-nál nagyobb | kisebb, mint 300 ms |
A szintetizált hang mintasebessége | 24 kHz | 8, 16, 24 és 48 kHz | 8, 16, 24 és 48 kHz |
Beszédkimenet hangformátuma | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Az Azure AI Speechben további funkciók és képességek érhetők el, amelyek nem érhetők el OpenAI-hangokkal. Példa:
- Az Azure AI Speechben csak az SSML-elemek egy részhalmazát támogatják az OpenAI szövegfelolvasók a beszédhangokhoz. Az Azure AI Speech-hangok támogatják az SSML-elemek teljes készletét.
- Az Azure AI Speech támogatja a szavak határeseteit. Az OpenAI-hangok nem támogatják a szavak határeseteit.
Elérhető OpenAI-szöveg a beszédhangok számára
Az Azure OpenAI szolgáltatásban elérhető OpenAI-hangok a következők:
alloy
echo
fable
onyx
nova
shimmer
Az Azure AI Speechben elérhető OpenAI-hangok a következők:
en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD
Az OpenAI text to speech voices által támogatott SSML-elemek az Azure AI Speechben
A beszédszintézis korrektúranyelve (SSML) bemeneti szöveggel határozza meg a szöveg szerkezetét, tartalmát és egyéb jellemzőit a beszédkimenethez. Az SSML használatával például definiálhat bekezdést, mondatot, szünetet, szünetet vagy csendet. Az alkalmazás később feldolgozható eseménycímkéket, például könyvjelzőt vagy viseme-et tartalmazó szöveget tördelhet.
Az alábbi táblázat az OpenAI-szövegek és az Azure AI-beszéd beszédhangjai által támogatott Beszédszintézis korrektúranyelv (SSML) elemeit ismerteti. Az OpenAI-hangok csak az SSML-címkék alábbi részhalmazát támogatják. További információkért tekintse meg az SSML-dokumentum struktúráját és eseményeit .
SSML-elem neve | Leírás |
---|---|
<speak> |
A teljes kimondandó tartalmat belefoglalja. Ez egy SSML-dokumentum gyökéreleme. |
<voice> |
A szöveg és a beszéd kimenetéhez használt hangot adja meg. |
<sub> |
Azt jelzi, hogy az alias attribútum szöveges értékét az elem zárt szövege helyett ki kell ejteni. |
<say-as> |
Az elem szövegének tartalomtípusát (például számot vagy dátumot) jelzi. Ehhez az elemhez az interpret-as összes tulajdonságérték támogatott, kivéve interpret-as="name" . Például támogatott, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> de <say-as interpret-as="name">ED</say-as> nem támogatott. További információ: kiejtés az SSML-vel. |
<s> |
Mondatokat jelöl. |
<lang> |
Azt jelzi, hogy a neurális hang milyen alapértelmezett területi beállítást ad meg a beszédhez. |
<break> |
A szavak közötti szünetek vagy szünetek alapértelmezett viselkedésének felülbírálására használható. |