Freigeben über


microsoft-cognitiveservices-speech-sdk package

Klassen

ActivityReceivedEventArgs

Definiert den Inhalt der empfangenen Nachricht/Ereignisse.

AudioConfig

Stellt die Audioeingabekonfiguration dar, die verwendet wird, um anzugeben, welche Art von Eingabe verwendet werden soll (Mikrofon, Datei, Stream).

AudioInputStream

Stellt den Audioeingabedatenstrom dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

AudioOutputStream

Stellt den Audioausgabedatenstrom dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

AudioStreamFormat

Stellt das Audiostreamformat dar, das für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

AutoDetectSourceLanguageConfig

Automatische Spracherkennungskonfiguration.

AutoDetectSourceLanguageResult

Ausgabeformat

AvatarConfig

Definiert die Konfiguration des sprechenden Avatars.

AvatarEventArgs

Definiert Inhalte zum Sprechen von Avatarereignissen.

AvatarSynthesizer

Definiert den Avatar-Synthesizer.

AvatarVideoFormat

Definiert das Avatarausgabevideoformat.

AvatarWebRTCConnectionResult

Definiert das WebRTC-Verbindungsergebnis des Avatars.

BaseAudioPlayer

ToDO-Basis-Audioplayerklasse: Gibt derzeit nur PCM wieder.

BotFrameworkConfig

Klasse, die Konfigurationen für das Dialogdienstconnectorobjekt für die Verwendung eines Bot Framework-Back-End definiert.

CancellationDetails

Enthält detaillierte Informationen dazu, warum ein Ergebnis abgebrochen wurde.

CancellationDetailsBase

Enthält detaillierte Informationen dazu, warum ein Ergebnis abgebrochen wurde.

Connection

Die Verbindung ist eine Proxyklasse zum Verwalten der Verbindung mit dem Sprachdienst der angegebenen Erkennung. Standardmäßig verwaltet ein Erkennungsmodul bei Bedarf die Verbindung mit dem Dienst autonom. Die Connection-Klasse bietet zusätzliche Methoden für Benutzer, um eine Verbindung explizit zu öffnen oder zu schließen und Verbindungsstatusänderungen zu abonnieren. Die Verwendung von "Connection" ist optional und hauptsächlich für Szenarien, in denen die Feinabstimmung des Anwendungsverhaltens basierend auf dem Verbindungsstatus erforderlich ist. Benutzer können optional Open() aufrufen, um eine Verbindung im Voraus manuell einzurichten, bevor die Erkennung für die dieser Verbindung zugeordnete Erkennung gestartet wird. Wenn die Erkennung eine Verbindung mit dem Dienst herstellen oder trennen muss, wird die Verbindung unabhängig voneinander eingerichtet oder heruntergefahren. In diesem Fall wird die Verbindung durch Änderung des Verbindungsstatus über Verbundene/Getrennte Ereignisse benachrichtigt. In Version 1.2.1 hinzugefügt.

ConnectionEventArgs

Definiert nutzlast für Verbindungsereignisse wie Connected/Disconnected. Hinzugefügt in Version 1.2.0

ConnectionMessage

ConnectionMessage stellt implementierungsspezifische Nachrichten dar, die an den Sprachdienst gesendet und empfangen werden. Diese Nachrichten werden für Debuggingzwecke bereitgestellt und sollten nicht für Produktionsanwendungsfälle mit dem Azure Cognitive Services Speech Service verwendet werden. Nachrichten, die an den Sprachdienst gesendet und empfangen werden, können ohne Vorherige Ankündigung geändert werden. Dazu gehören Nachrichteninhalte, Kopfzeilen, Nutzlasten, Sortierung usw. In Version 1.11.0 hinzugefügt.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Führt spracherkennung mit Lautsprechertrennung von Mikrofon- oder Dateidatenströmen oder anderen Audioeingabedatenströmen aus und ruft als Ergebnis transkribierten Text ab.

ConversationTranscriptionCanceledEventArgs

Definiert den Inhalt eines RecognitionErrorEvent-Ereignisses.

ConversationTranscriptionEventArgs

Definiert den Inhalt des transkribierten/transkribierten Ereignisses für Unterhaltungen.

ConversationTranscriptionResult

Definiert das Ergebnis der Unterhaltungstranskription.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Definiert Die Nutzlast für Sitzungsereignisse wie "Sprachstart/Ende erkannt"

ConversationTranslationResult

Übersetzungstextergebnis.

ConversationTranslator

Teilnehmen, Verlassen oder Herstellen einer Verbindung mit einer Unterhaltung.

Coordinate

Definiert eine Koordinate im 2D-Raum.

CustomCommandsConfig

Klasse, die Konfigurationen für das Dialogdienstconnectorobjekt für die Verwendung eines CustomCommands-Back-End definiert.

Diagnostics

Definiert die Diagnose-API zum Verwalten der Konsolenausgabe, die in Version 1.21.0 hinzugefügt wurde.

DialogServiceConfig

Klasse, die Basiskonfigurationen für den Dialogdienstconnector definiert

DialogServiceConnector

Dialog Service Connector

IntentRecognitionCanceledEventArgs

Definieren Sie die Nutzlast der abgebrochenen Ergebnisereignisse der Absichtserkennung.

IntentRecognitionEventArgs

Ergebnisargumente für die Absichtserkennung.

IntentRecognitionResult

Zielerkennungsergebnis.

IntentRecognizer

Intent-Erkennung.

KeywordRecognitionModel

Stellt ein Schlüsselworterkennungsmodell für die Erkennung dar, wenn der Benutzer ein Schlüsselwort sagt, um eine weitere Spracherkennung zu initiieren.

LanguageUnderstandingModel

Sprachverständnismodell

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Definiert den Inhalt eines MeetingTranscriptionCanceledEvent.

MeetingTranscriptionEventArgs

Definiert den Inhalt des transkribierten/transkribierten Besprechungsereignisses.

NoMatchDetails

Enthält detaillierte Informationen zu NoMatch-Erkennungsergebnissen.

Participant

Stellt einen Teilnehmer in einer Unterhaltung dar. Hinzugefügt in Version 1.4.0

PhraseListGrammar

Ermöglicht das Hinzufügen neuer Ausdrücke zur Verbesserung der Spracherkennung.

Ausdrücke, die der Erkennung hinzugefügt werden, werden am Anfang der nächsten Erkennung wirksam, oder wenn die SpeechSDK das nächste Mal eine Verbindung mit dem Sprachdienst herstellen muss.

PronunciationAssessmentConfig

Konfiguration der Aussprachebewertung.

PronunciationAssessmentResult

Ergebnisse der Aussprachebewertung.

PropertyCollection

Stellt eine Auflistung von Eigenschaften und deren Werten dar.

PullAudioInputStream

Stellt den Audioeingabedatenstrom dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

PullAudioInputStreamCallback

Eine abstrakte Basisklasse, die Rückrufmethoden (read() und close()) für benutzerdefinierte Audioeingabedatenströme definiert.

PullAudioOutputStream

Stellt den speichergesicherten Push-Audioausgabedatenstrom dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

PushAudioInputStream

Stellt speichergesicherte Push-Audioeingabedatenstrom dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

PushAudioOutputStream

Stellt den Audioausgabedatenstrom dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

PushAudioOutputStreamCallback

Eine abstrakte Basisklasse, die Rückrufmethoden (write() und close()) für benutzerdefinierte Audioausgabedatenströme definiert.

RecognitionEventArgs

Definiert Die Nutzlast für Sitzungsereignisse wie "Sprachstart/Ende erkannt"

RecognitionResult

Definiert das Ergebnis der Spracherkennung.

Recognizer

Definiert die Basisklassenerkennung, die hauptsächlich allgemeine Ereignishandler enthält.

ServiceEventArgs

Definiert die Nutzlast für jedes Dienstnachrichtenereignis, das in Version 1.9.0 hinzugefügt wurde.

SessionEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Quellsprachenkonfiguration.

SpeakerAudioDestination

Stellt das Audioziel der Lautsprecherwiedergabe dar, das nur im Browser funktioniert. Hinweis: Das SDK versucht, Medienquellenerweiterungen zum Wiedergeben von Audio zu verwenden. Das Mp3-Format unterstützt microsoft Edge, Chrome und Safari (Desktop), daher ist es besser, mp3-Format für die Wiedergabe anzugeben.

SpeakerIdentificationModel

Defines SpeakerIdentificationModel class for Speaker Recognition Model contains a set of profiles against which to identify speaker(s)

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Ausgabeformat

SpeakerRecognizer

Definiert die SpeakerRecognizer-Klasse für die Lautsprechererkennung verarbeitet Vorgänge von Benutzern für VoIP-Profilvorgänge (z. B. createProfile, deleteProfile)

SpeakerVerificationModel

Definiert die SpeakerVerificationModel-Klasse für das Lautsprechererkennungsmodell enthält ein Profil, anhand dessen ein Lautsprecher überprüft werden soll.

SpeechConfig

Sprachkonfiguration.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Definiert den Inhalt des Spracherkennungs-/erkannten Ereignisses.

SpeechRecognitionResult

Definiert das Ergebnis der Spracherkennung.

SpeechRecognizer

Führt die Spracherkennung aus Mikrofon, Datei oder anderen Audioeingabedatenströmen aus und ruft als Ergebnis transkribierten Text ab.

SpeechSynthesisBookmarkEventArgs

Definiert den Inhalt des Textmarkenereignisses für die Sprachsynthese.

SpeechSynthesisEventArgs

Definiert den Inhalt von Sprachsyntheseereignissen.

SpeechSynthesisResult

Definiert das Ergebnis der Sprachsynthese.

SpeechSynthesisVisemeEventArgs

Definiert den Inhalt des Sprachsynthese-Viseme-Ereignisses.

SpeechSynthesisWordBoundaryEventArgs

Definiert den Inhalt des Sprachsynthesewortbegrenzungsereignisses.

SpeechSynthesizer

Definiert die Klasse SpeechSynthesizer für Text zu Sprache. Aktualisiert in Version 1.16.0

SpeechTranslationConfig

Sprachübersetzungskonfiguration.

SynthesisResult

Basisklasse für Syntheseergebnisse

SynthesisVoicesResult

Definiert das Ergebnis der Sprachsynthese.

Synthesizer
TranslationRecognitionCanceledEventArgs

Definieren sie die Nutzlast der abgebrochenen Ergebnisereignisse der Spracherkennung.

TranslationRecognitionEventArgs

Argumente für das Übersetzungsergebnisergebnis.

TranslationRecognitionResult

Übersetzungstextergebnis.

TranslationRecognizer

Übersetzungserkennung

TranslationSynthesisEventArgs

Übersetzungssynthese-Ereignisargumente

TranslationSynthesisResult

Definiert das Übersetzungssyntheseergebnis, d. h. die Sprachausgabe des übersetzten Texts in der Zielsprache.

Translations

Stellt eine Auflistung von Parametern und deren Werten dar.

TurnStatusReceivedEventArgs

Definiert den Inhalt der empfangenen Nachricht/Ereignisse.

User
VoiceInfo

Informationen zur Sprachsynthesestimme, die in Version 1.20.0 hinzugefügt wurde.

VoiceProfile

Definiert die Sprachprofilklasse für die Sprechererkennung

VoiceProfileCancellationDetails
VoiceProfileClient

Definiert die VoiceProfileClient-Klasse für die Sprechererkennung verarbeitet Vorgänge von Benutzern für VoIP-Profilvorgänge (z. B. createProfile, deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Ausgabeformat

VoiceProfilePhraseResult

Ausgabeformat

VoiceProfileResult

Ausgabeformat

Schnittstellen

CancellationEventArgs
ConversationInfo
IParticipant

Stellt einen Teilnehmer in einer Unterhaltung dar. Hinzugefügt in Version 1.4.0

IPlayer

Stellt die Audioplayerschnittstelle dar, um die Audiowiedergabe zu steuern, z. B. Anhalten, Fortsetzen usw.

IVoiceJson
MeetingInfo
VoiceSignature

Enumerationen

AudioFormatTag
CancellationErrorCode

Definiert den Fehlercode, wenn "CancellationReason" "Error" lautet. In Version 1.1.0 hinzugefügt.

CancellationReason

Definiert die möglichen Gründe, warum ein Erkennungsergebnis abgebrochen werden kann.

LanguageIdMode

Sprachidentifikationsmodus

LogLevel
NoMatchReason

Definiert die möglichen Gründe, warum ein Erkennungsergebnis möglicherweise nicht erkannt wird.

OutputFormat

Definieren von Ausgabeformaten für die Spracherkennung.

ParticipantChangedReason
ProfanityOption

Profanitätsoption. In Version 1.7.0 hinzugefügt.

PronunciationAssessmentGradingSystem

Definiert das Punktsystem für die Aussprachebewertungskalibrierung; Der Standardwert ist FivePoint. Hinzugefügt in Version 1.15.0

PronunciationAssessmentGranularity

Definiert die Granularität der Ausspracheauswertung; Der Standardwert ist "Phoneme". Hinzugefügt in Version 1.15.0

PropertyId

Definiert Spracheigenschaften-IDs.

ResultReason

Definiert die möglichen Gründe, warum ein Erkennungsergebnis generiert werden kann.

ServicePropertyChannel

Definiert Kanäle, die zum Übergeben von Eigenschaftseinstellungen an den Dienst verwendet werden. In Version 1.7.0 hinzugefügt.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Definiert den Grenztyp des Grenzereignisses der Sprachsynthese.

SpeechSynthesisOutputFormat

Definieren Sie Audioausgabeformate für die Sprachsynthese. SpeechSynthesisOutputFormat Aktualisiert in Version 1.17.0

VoiceProfileType

Ausgabeformat