Spracherkennung-REST-API

Artikel
03/10/2025

Die Spracherkennungs-REST-API wird für die Batch-Transkription und für Custom Speech verwendet.

Wichtig

Version 2024-11-15 der Spracherkennungs-REST-API ist die aktuelle Version, die allgemein verfügbar ist.

Version 2024-05-15-preview der Spracherkennungs-REST-API wird zu einem Datum eingestellt, das noch bekannt gegeben wird.
Spracherkennungs-REST-API v3.0, v3.1, v3.2, 3.2-preview.1 und 3.2-preview.2 werden am 1. April 2026 eingestellt.

Weitere Informationen zum Upgraden finden Sie in den Migrationsleitfäden v3.0 zu v3.1, v3.1 zu v3.2 und v3.2 to 2024-11-15 der Spracherkennung-REST-API.

Referenzdokumentation zur Spracherkennungs-REST-API 2024-11-15

Verwenden Sie die Spracherkennung-REST-API für Folgendes:

Schnelle Transkription: Transkribieren Sie Audiodateien synchron und viel schneller als Echtzeitaudio. Verwenden Sie die API für schnelle Transkription (/speechtotext/transcriptions:transcribe) in Szenarien, in denen Sie das Transkript einer Audioaufzeichnung so schnell wie möglich und mit vorhersagbarer Latenz benötigen, z. B. für die schnelle Audio- oder Videotranskription oder die Videoübersetzung.
Custom Speech: Laden Sie eigene Daten hoch, testen und trainieren Sie ein benutzerdefiniertes Modell, vergleichen Sie die Genauigkeit zwischen Modellen, und stellen Sie ein Modell auf einem benutzerdefinierten Endpunkt bereit. Kopieren von Modellen in andere Abonnements, wenn Sie möchten, dass Kollegen Zugriff auf ein von Ihnen erstelltes Modell haben oder wenn Sie ein Modell in mehreren Regionen bereitstellen möchten.
Batch-Transkription: Transkribieren Sie Audiodateien als Batch aus mehreren URLs oder aus einem Azure-Container.

Die Spracherkennung-REST-API umfasst Features wie:

Abrufen von Protokollen für jeden Endpunkt, wenn für den betreffenden Endpunkt Protokolle angefordert werden.
Anfordern des Manifests für die von Ihnen erstellten Modelle, um lokale Container einzurichten.
Hochladen von Daten aus Azure-Speicherkonten mithilfe eines SAS-URI (Shared Access Signature).
Verwenden von eigenem Speicher (Bring Your Own Storage, BYOS): Verwenden Sie Ihre eigenen Speicherkonten für Protokolle, Transkriptionsdateien und andere Daten.
Einige Vorgänge unterstützen Webhook-Benachrichtigungen. Sie können Ihre Webhooks dort registrieren, wo Benachrichtigungen gesendet werden.

Batch-Transkription

Die folgenden Vorgangsgruppen gelten für die Batch-Transkription.

Vorgangsgruppe	Beschreibung
Modelle	Verwenden Sie Basismodelle oder benutzerdefinierte Modelle, um Audiodateien zu transkribieren. Sie können Modelle mit Custom Speech und mit der Batch-Transkription verwenden. So können Sie beispielsweise Audiodateien unter Verwendung eines Modells transkribieren, das mit einem bestimmten Dataset trainiert wurde. Beispiele zum Trainieren und Verwalten von Custom Speech-Modellen finden Sie unter Trainieren eines Modells und Lebenszyklus eines Custom Speech-Modells.
Transkriptionen	Verwenden Sie Transkriptionen, um große Mengen an Audiomaterial im Speicher zu transkribieren. Wenn Sie die Batch-Transkription verwenden, senden Sie mehrere Dateien pro Anforderung oder verweisen auf einen Azure Blob Storage-Container mit den zu transkribierenden Audiodateien. Beispiele für das Erstellen einer Transkription aus mehreren Audiodateien finden Sie unter Erstellen einer Batch-Transkription.
Webhooks	Verwenden Sie Webhooks, um Benachrichtigungen zu Erstellungs-, Verarbeitungs-, Abschluss- und Löschereignissen zu erhalten. Sie können Webhooks mit Custom Speech und mit der Batch-Transkription verwenden. Webhooks gelten für Datasets, Endpunkte, Auswertungen, Modelle und Transkriptionen.

Custom Speech

Die folgenden Vorgangsgruppen gelten für Custom Speech.

Vorgangsgruppe	Beschreibung
Datasets	Verwenden Sie Datasets, um Custom Speech-Modelle zu trainieren und zu testen. Sie können beispielsweise die Leistung eines Custom Speech-Modells, das mit einem bestimmten Dataset trainiert wurde, mit der Leistung eines Basismodells oder Custom Speech-Modells vergleichen, das mit einem anderen Dataset trainiert wurde. Beispiele zum Hochladen von Datasets finden Sie unter Hochladen von Trainings- und Testdatasets für Custom Speech.
Endpunkte	Stellen Sie Custom Speech-Modelle auf Endpunkten bereit. Sie müssen einen benutzerdefinierten Endpunkt bereitstellen, um ein Custom Speech-Modell verwenden zu können. Beispiele für die Verwaltung von Bereitstellungsendpunkten finden Sie unter Bereitstellen eines Custom Speech-Modells.
Auswertungen	Verwenden Sie Auswertungen, um die Leistung verschiedener Modelle zu vergleichen. Sie können beispielsweise die Leistung eines Custom Speech-Modells, das mit einem bestimmten Dataset trainiert wurde, mit der Leistung eines Basismodells oder benutzerdefinierten Modells vergleichen, das mit einem anderen Dataset trainiert wurde. Beispiele für das Testen und Auswerten von Custom Speech-Modellen finden Sie unter Testen der Erkennungsqualität eines Custom Speech-Modells sowie unter Testen der Genauigkeit eines Custom Speech-Modells.
Modelle	Verwenden Sie Basismodelle oder benutzerdefinierte Modelle, um Audiodateien zu transkribieren. Sie können Modelle mit Custom Speech und mit der Batch-Transkription verwenden. So können Sie beispielsweise Audiodateien unter Verwendung eines Modells transkribieren, das mit einem bestimmten Dataset trainiert wurde. Beispiele zum Trainieren und Verwalten von Custom Speech-Modellen finden Sie unter Trainieren eines Modells und Lebenszyklus eines Custom Speech-Modells.
Projekte	Verwenden Sie Projekte, um Custom Speech-Modelle, Trainings- und Testdatasets sowie Bereitstellungsendpunkte zu verwalten. Custom Speech-Projekte enthalten Modelle, Trainings- und Testdatasets sowie Bereitstellungsendpunkte. Jedes Projekt ist für ein Gebietsschema spezifisch. Sie können beispielsweise ein Projekt für das Englisch in den USA erstellen. Beispiele für das Erstellen von Projekten finden Sie unter Erstellen eines Custom Speech-Projekts.
Webhooks	Verwenden Sie Webhooks, um Benachrichtigungen zu Erstellungs-, Verarbeitungs-, Abschluss- und Löschereignissen zu erhalten. Sie können Webhooks mit Custom Speech und mit der Batch-Transkription verwenden. Webhooks gelten für Datasets, Endpunkte, Auswertungen, Modelle und Transkriptionen.

Dienststatus

Service Health bietet Erkenntnisse zur allgemeinen Integrität des Diensts und der Unterkomponenten. Weitere Informationen finden Sie unter Service Health.

Freigeben über

Spracherkennung-REST-API

Batch-Transkription

Custom Speech

Dienststatus

Nächste Schritte

Feedback

Zusätzliche Ressourcen