Mi az a beszédszöveg?

Cikk
03/10/2025

Ebben az áttekintésben megismerheti az Azure AI-szolgáltatások részét képező Speech szolgáltatás szövegről beszédre funkciójának előnyeit és képességeit.

A szövegfelolvasás lehetővé teszi az alkalmazások, eszközök vagy eszközök számára, hogy a szöveget emberivé, például szintetizált beszédgé alakítják. A szövegfelolvasási képességet beszédszintézisnek is nevezik. Használjon emberi, például előre összeállított neurális hangokat a dobozból, vagy hozzon létre egy egyéni neurális hangot, amely egyedi a termék vagy a márka számára. A támogatott hangok, nyelvek és területi beállítások teljes listájáért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.

Alapvető funkciók

A szövegfelolvasás a következő funkciókat tartalmazza:

Szolgáltatás	Összegzés	Bemutató
Előre összeállított neurális hang (a díjszabási oldalon neurális)	Nagyon természetes, házon kívüli hangok. Hozzon létre egy Azure-előfizetést és egy Speech-erőforrást, majd használja a Speech SDK-t , vagy látogasson el a Speech Studio portáljára , és válassza ki az előre összeállított neurális hangokat az első lépésekhez. Tekintse meg a díjszabás részleteit.	Ellenőrizze a Hangtárat , és határozza meg az üzleti igényeinek megfelelő hangot.
Egyéni neurális hang (a díjszabási oldalon egyéni neurális)	Könnyen használható önkiszolgáló természetes márkahangok létrehozása, korlátozott hozzáféréssel a felelősségteljes használathoz. Hozzon létre egy Azure-előfizetést és speech-erőforrást (az S0 szinttel), és alkalmazza az egyéni hangfunkció használatára. Miután megkapta a hozzáférést, látogasson el a Speech Studio portálra , és válassza az Egyéni hang lehetőséget az első lépésekhez. Tekintse meg a díjszabás részleteit.	Ellenőrizze a hangmintákat.

További információ a neurális szövegek beszédfunkcióiról

A szövegfelolvasás mély neurális hálózatokkal teszi a számítógépek hangját szinte megkülönböztethetetlenné az emberek felvételeiből. A szavak egyértelmű artikulációjával a neurális szövegek beszédre történő használata jelentősen csökkenti a figyelési fáradtságot, amikor a felhasználók AI-rendszerekkel kommunikálnak.

A beszélt nyelvben a stressz és az intonáció mintáit prosodiának nevezzük. A hagyományos szövegfelolvasási rendszerek a prosodisztiát különálló nyelvi elemzési és akusztikai előrejelzési lépésekre bontják, amelyeket független modellek szabályoznak. Ez elfojtott, zümmögő hangszintézist eredményezhet.

Az alábbiakban további információt talál a beszédszolgáltatás neurális szövegről beszédfunkcióira vonatkozóan, valamint arról, hogy hogyan oldják meg a hagyományos szöveg és a beszédrendszerek korlátait:

Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával előre összeállított neurális hangokkal vagy egyéni neurális hangokkal konvertálhat szöveget beszédté.
A hosszú hang aszinkron szintézise: A batch synthesis API használatával aszinkron módon szintetizálhatja a szöveget a 10 percnél hosszabb beszédfájlokhoz (például hangkönyvekhez vagy előadásokhoz). A Speech SDK-val vagy a Speech to text REST API-val végzett szintézissel ellentétben a válaszok nem valós időben jelennek meg. Az elvárás az, hogy a kéréseket aszinkron módon küldi el a rendszer, a rendszer lekérdezi a válaszokat, és amikor a szolgáltatás elérhetővé teszi, a rendszer letölti a szintetizált hangot.
Előre összeállított neurális hangok: Az Azure AI Speech mély neurális hálózatokkal oldja fel a hagyományos beszédszintézis korlátait a stressz és az intonáció tekintetében a beszélt nyelven. A prosody előrejelzése és a hangszintézis egyidejűleg történik, ami több folyadék- és természetes hangzású kimenetet eredményez. Minden előre összeállított neurális hangmodell 24 kHz-en és 48 kHz-en érhető el. A neurális hangokat a következőhöz használhatja:
- A csevegőrobotokkal és a hangsegédekkel folytatott interakciók természetesebbé és vonzóbbá tétele.
- Digitális szövegek, például e-könyvek átalakítása hangoskönyvekké.
- Autón belüli navigációs rendszerek továbbfejlesztése.
Az előre összeállított Azure AI Speech neurális hangjainak teljes listájáért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.
A szöveg beszédkimenetének javítása az SSML-vel: A Beszédszintézis korrektúranyelv (SSML) egy XML-alapú korrektúranyelv, amellyel a szöveg a beszédkimenetekre szabható. Az SSML-vel beállíthatja a hangmagasságot, szüneteltethet, javíthatja a kiejtést, módosíthatja a beszédsebességet, módosíthatja a hangerőt, és több hangot rendelhet egyetlen dokumentumhoz.

Az SSML használatával saját lexikonokat definiálhat, vagy válthat különböző beszédstílusokra. A többnyelvű hangokkal az SSML-en keresztül is módosíthatja a beszélő nyelveket. A forgatókönyv hangkimenetének javításához tekintse meg a Beszédszintézis korrektúranyelv és a Beszédszintézis fejlesztése a Hangtartalom-létrehozás eszközzel című témakört.
Visemes: Visemes a legfontosabb pózok a megfigyelt beszéd, beleértve a helyzet az ajkak, állkapocs, és a nyelv előállításában egy adott fonál. A Visemes erős korrelációt mutat a hangokkal és a fonefonokkal.

A Speech SDK viseme eseményeinek használatával arcanimációs adatokat hozhat létre. Ezek az adatok az arcok animálására használhatók az olvasási kommunikációban, az oktatásban, a szórakozásban és az ügyfélszolgálatban. A Viseme jelenleg csak az en-US (amerikai angol) neurális hangok esetében támogatott.

Feljegyzés

Az Azure AI Speech neurális (nem HD) hangjai mellett azure AI Speech nagy felbontású (HD) és Azure OpenAI neurális (HD és nem HD) hangokat is használhat. A HD-hangok magasabb minőséget biztosítanak a sokoldalúbb forgatókönyvekhez.

Egyes hangok nem támogatják az összes beszédszintézis-korrektúrajelölési (SSML) címkét. Ez magában foglalja a neurális szöveget a beszédalapú HD-hangokhoz, a személyes hangokat és a beágyazott hangokat.

Az Azure AI Speech nagy felbontású (HD) hangjaihoz tekintse meg itt az SSML-támogatást.
Személyes hang esetén itt találja az SSML-támogatást.
Beágyazott hangokat itt talál az SSML-támogatásban.

Első lépések

A szövegfelolvasás első lépéseit a rövid útmutatóban találhatja meg. A beszédhez szükséges szöveg a Speech SDK-val, a REST API-val és a Speech CLI-vel érhető el.

Tipp.

Ha kód nélküli megközelítéssel szeretne szöveget beszédgé alakítani, próbálja ki a Hangtartalom létrehozása eszközt a Speech Studióban .

Mintakód

A szövegfelolvasás mintakódja a GitHubon érhető el. Ezek a minták a legnépszerűbb programozási nyelvek szövegről beszédre konvertálását ismertetik:

Egyéni neurális hang

Az előre összeállított neurális hangok mellett egyéni neurális hangokat is létrehozhat, amelyek egyediek a termék vagy a márka számára. Az első lépésekhez mindössze néhány hangfájlra és a kapcsolódó átiratra van szükség. További információ: Ismerkedés az egyéni neurális hanggal.

Díjszabási megjegyzés

Számlázható karakterek

Amikor a szövegfelolvasási funkciót használja, a rendszer minden beszédté konvertált karakter után kiszámláz, beleértve az írásjeleket is. Bár maga az SSML-dokumentum nem számlázható, a szöveg beszédgé alakításához használt választható elemeket, például a hangmagasságot és a hangmagasságot számlázható karaktereknek kell tekinteni. Íme egy lista a számlázható díjakról:

A kérés SSML-törzsében a szövegfelolvasási funkciónak átadott szöveg
A kérelem törzsének szövegmezőjében lévő összes korrektúra <speak> SSML formátumban, a címkék kivételével <voice>
Betűk, írásjelek, szóközök, tabulátorok, korrektúra és minden szóköz karakter
Unicode-ban definiált minden kódpont

Részletes információkért lásd a Speech service díjszabását.

Fontos

Minden kínai karakter két karakternek számít a számlázáshoz, beleértve a japánul használt kanjit, a koreai nyelven használt handzsát vagy a más nyelveken használt hanzit.

Modell betanítási és üzemeltetési idő egyéni neurális hanghoz

Az egyéni neurális hangképzést és -üzemeltetést óránként és másodpercenként számlázva számítjuk ki. A számlázási egység árának megtekintéséhez tekintse meg a Speech szolgáltatás díjszabását.

Az egyéni neurális hang (CNV) betanítási idejét a "számítási óra" (a gép futási idejének mérésére használt egység) méri. Hangmodell betanításakor általában két számítási feladat fut párhuzamosan. A számított számítási órák tehát hosszabbak, mint a tényleges betanítási idő. A CNV Lite-hang betanítása átlagosan kevesebb mint egy számítási órát vesz igénybe; míg a CNV Pro esetében általában 20–40 számítási órát vesz igénybe egy egystílusú hang betanítása, a többstílusú hang betanítása pedig körülbelül 90 számítási órát vesz igénybe. A CNV betanítási ideje 96 számítási óra korláttal van kiszámlázva. Tehát abban az esetben, ha egy hangmodellt 98 számítási óra alatt tanít be, csak 96 számítási órát kell fizetnie.

Az egyéni neurális hangvégpont üzemeltetése a tényleges idő (óra) alapján történik. Az egyes végpontok üzemeltetési idejét (óraszámát) az előző 24 órában minden nap 00:00 (UTC) időpontban számítjuk ki. Ha például a végpont az első napon 24 órán keresztül aktív volt, akkor a második napon 24 órán át kell számlázni, UTC 00:00-kor. Ha a végpontot a nap folyamán újonnan hozták létre vagy függesztették fel, akkor a rendszer a második napon 00:00-ig (UTC) számítja fel a halmozott futási időt. Ha a végpont jelenleg nincs üzemeltetve, a számlázás nem történik meg. A naponta 00:00 (UTC) időpontban történő számítás mellett a számlázás azonnal aktiválódik, amikor egy végpontot törölnek vagy felfüggesztenek. Például egy december 1-jén 08:00 (UTC) időpontban létrehozott végpont esetében az üzemeltetési óra 16 órára lesz kiszámítva december 2-án 00:00(UTC), december 3-án pedig 00:00 (UTC) időpontban. Ha a felhasználó december 3-án 16:30 -kor (UTC) felfüggeszti a végpont üzemeltetését, a számlázáshoz az időtartam (16,5 óra) számítható ki 00:00 és 16:30 (UTC) között december 3-án.

Személyes hang

Ha a személyes hangfunkciót használja, a profiltárolásért és a szintézisért is fizetnie kell.

Profiltároló: A személyes hangprofil létrehozása után a rendszer kiszámlázzák, amíg el nem távolítják a rendszerből. A számlázási egység naponta hangonként van megadva. Ha a hangtárolás 24 óránál rövidebb ideig tart, akkor is egy teljes nap lesz számlázva.
Szintézis: Karakterenként számlázva. A számlázható karakterek részleteiért lásd a fenti számlázható karaktereket.

Szövegről beszédre avatar

Ha a szövegfelolvasási avatar funkciót használja, a díjakat másodpercenként számítjuk fel a videó kimenetének hossza alapján. A valós idejű avatar esetében azonban a díjak másodpercenként kerülnek számlázásra attól függően, hogy az avatar mikor aktív, függetlenül attól, hogy beszél-e, vagy csendes marad. A valós idejű avatarhasználat költségeinek optimalizálásához tekintse meg a "Helyi videó használata tétlenként" tippeket az avatar csevegési mintakódjában.

Az egyéni szöveg–beszéd avatar betanítás az idő "számítási óra" (a gép futási ideje) alapján mérve és másodpercenként számlázva. A betanítás időtartama a használt adatok mennyiségétől függően változik. Az egyéni avatarok betanítása általában átlagosan 20-40 számítási órát vesz igénybe. Az avatar betanítási ideje 96 számítási óra korláttal van kiszámlázva. Tehát abban az esetben, ha egy avatarmodell 98 számítási órán belül van betanítve, csak 96 számítási óráért kell fizetnie.

Az Avatar-üzemeltetés másodpercenkénti számlázása végpontonként történik. A költségek csökkentése érdekében felfüggesztheti a végpontot. Ha fel szeretné függeszteni a végpontot, közvetlenül törölheti azt. Az ismételt használathoz helyezze újra üzembe a végpontot.

Azure-szöveg és beszédmetrikák monitorozása

Az erőforrás-használat kezeléséhez és a költségek szabályozásához elengedhetetlen a szöveggel a beszédszolgáltatásokhoz társított főbb metrikák monitorozása. Ez a szakasz bemutatja, hogyan kereshet használati adatokat az Azure Portalon, és részletes definíciókat adhat meg a főbb metrikákról. Az Azure Monitor-metrikákkal kapcsolatos további információkért tekintse meg az Azure Monitor-metrikák áttekintését.

Használati adatok keresése az Azure Portalon

Az Azure-erőforrások hatékony kezeléséhez elengedhetetlen a használati adatok rendszeres elérése és áttekintése. A használati adatok a következőképpen találhatók:

Lépjen az Azure Portalra , és jelentkezzen be az Azure-fiókjával.
Lépjen az Erőforrások elemre, és válassza ki a figyelni kívánt erőforrást.
A bal oldali menüben válassza a Figyelés csoportban lévő Metrikákat.
Metrikanézetek testreszabása.

Az adatokat erőforrástípus, metrikatípus, időtartomány és egyéb paraméterek szerint szűrheti, hogy a monitorozási igényeknek megfelelő egyéni nézeteket hozzon létre. Emellett a metrikanézetet az irányítópultokra is mentheti a Gyakran használt metrikákhoz való könnyű hozzáférés érdekében a Mentés irányítópultra lehetőség kiválasztásával.
Riasztások beállítása.

A használat hatékonyabb kezeléséhez a riasztásokat a bal oldali menü Figyelés csoportjában található Riasztások lapra lépve állíthatja be. A riasztások értesítést kaphatnak arról, ha a használat eléri a meghatározott küszöbértékeket, így elkerülhetők a váratlan költségek.

Metrikák definíciója

Íme egy táblázat, amely összefoglalja az Azure-szövegek beszédre vonatkozó főbb metrikáit.

Metrika neve	Leírás
Szintetizált karakterek	Nyomon követi a beszédté konvertált karakterek számát, beleértve az előre összeállított neurális hangot és az egyéni neurális hangot. A számlázható karakterekről további információt a Számlázható karakterek című témakörben talál.
Videó másodpercben szintetizált	A videószintézis teljes időtartamát méri, beleértve a kötegelt avatarszintézist, a valós idejű avatarszintézist és az egyéni avatarszintézist.
Avatar modell üzemeltetés másodpercben	Nyomon követi az egyéni avatarmodell teljes időtartamát másodpercben.
Hangmodell üzemeltetési ideje	Nyomon követi az egyéni neurális hangmodell üzemeltetése során eltelt órák teljes idejét.
Hangmodell – betanítási percek	Az egyéni neurális hangmodell betanításához szükséges percek teljes idejét méri.

Referenciadokumentumok

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Megosztás a következőn keresztül: