Konuşma tanıma hizmeti nedir?

Makale
03/10/2025

Konuşma tanıma hizmeti, konuşma kaynağıyla metne konuşma ve metin okuma özellikleri sağlar. Konuşmayı yüksek doğrulukla metne dönüştürebilir, konuşma seslerine doğal sesli metin üretebilir, konuşulan sesi çevirebilir ve konuşmalar sırasında konuşmacı tanımayı kullanabilirsiniz.

Bazı Konuşma hizmeti özelliklerini vurgulayan kutucukların resmi.

Özel sesler oluşturun, temel sözlüğünüze belirli sözcükleri ekleyin veya kendi modellerinizi oluşturun. Konuşma hizmetini istediğiniz yerde, bulutta veya uç cihazlarda kapsayıcılarda çalıştırın. Konuşma CLI'sı, Konuşma SDK'sı ve REST API'leri ile uygulamalarınızı, araçlarınızı ve cihazlarınızı konuşmayla kolayca etkinleştirebilirsiniz.

Konuşma birçok dil, bölge ve fiyat noktası için kullanılabilir.

Konuşma tanıma senaryoları

Konuşma için yaygın senaryolar şunlardır:

Resim yazısı: Açıklamalı altyazıları giriş sesinizle eşitlemeyi, küfür filtreleri uygulamayı, kısmi sonuçlar almayı, özelleştirmeleri uygulamayı ve çok dilli senaryolar için konuşulan dilleri tanımlamayı öğrenin.
Ses İçeriği Oluşturma: Sohbet botları ve sesli yardımcılarla etkileşimleri daha doğal ve ilgi çekici hale getirmek, e-kitap gibi dijital metinleri sesli kitaplara dönüştürmek ve araç içi gezinti sistemlerini geliştirmek için sinir seslerini kullanabilirsiniz.
Çağrı Merkezi: Çağrıları gerçek zamanlı olarak yazın veya bir grup aramayı işleyin, kişisel olarak tanımlayan bilgileri yeniden işleyin ve çağrı merkezi kullanım örneğinize yardımcı olmak için yaklaşım gibi içgörüleri ayıklayın.
Dil öğrenmesi: Dil öğrencilerine söyleniş değerlendirmesi geri bildirimi sağlayın, uzaktan öğrenme konuşmaları için gerçek zamanlı transkripsiyonu destekleyin ve nöral seslerle sesli öğretim materyallerini okuyun.
Sesli yardımcılar: Uygulamaları ve deneyimleri için doğal, insan benzeri konuşma arabirimleri oluşturun. Sesli yardımcı özelliği, bir cihaz ile yardımcı uygulaması arasında hızlı ve güvenilir etkileşim sağlar.

Microsoft, Teams'de açıklamalı alt yazı, Office 365'te dikte etme ve Microsoft Edge tarayıcısında Sesli Okuma gibi birçok senaryo için Konuşma özelliğini kullanır.

Konuşma hizmetinin kullanıldığı Microsoft ürünlerinin logolarını gösteren resim.

Konuşma özellikleri

Bu bölümlerde daha fazla bilgi için Konuşma özellikleri ve bağlantılar özetlenmiştir.

Konuşmayı metne dönüştürme

Konuşmayı metne dönüştürerek gerçek zamanlı veya toplu transkripsiyonla zaman uyumsuz olarak ses dökümünü alın.

İpucu

Speech Studio'da herhangi bir koda kaydolmadan veya yazmadan gerçek zamanlı konuşmayı metne dönüştürmeyi deneyebilirsiniz.

Mikrofonlar, ses dosyaları ve blob depolama alanı gibi çok çeşitli kaynaklardan gelen sesleri metne dönüştürün. Kimin ne zaman ve ne zaman söylediğini belirlemek için konuşmacı dilarizasyonu kullanın. Otomatik biçimlendirme ve noktalandırma sayesinde okunabilir konuşma metinleri elde edin.

Ses ortam gürültüsü içeriyorsa veya sektöre ve etki alanına özgü çok sayıda jargon içeriyorsa temel model yeterli olmayabilir. Bu gibi durumlarda akustik, dil ve söyleniş verileriyle özel konuşma modelleri oluşturabilir ve eğitebilirsiniz. Özel konuşma modelleri özeldir ve rekabet avantajı sunabilir.

Gerçek zamanlı konuşmayı metne dönüştürme

Gerçek zamanlı konuşmayı metne dönüştürme ile, konuşma bir mikrofondan veya dosyadan tanındıkça ses dökümünü alır. Ses dökümünü gerçek zamanlı olarak yazması gereken uygulamalar için metinde gerçek zamanlı konuşma kullanın, örneğin:

Canlı toplantılar için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar
Gündağılama
Söyleniş değerlendirmesi
İletişim merkezi aracıları yardımı
Dikte
Ses aracıları

Hızlı transkripsiyon API'si

Hızlı transkripsiyon API'si, sonuç döndüren ses dosyalarının zaman uyumlu ve gerçek zamanlı sesten çok daha hızlı dökümünü almak için kullanılır. Aşağıdakiler gibi öngörülebilir gecikme süresiyle ses kaydının transkriptine ihtiyacınız olan senaryolarda hızlı transkripsiyonu kullanın:

Hızlı ses veya video transkripsiyonu, alt yazılar ve düzenleme.
Video çevirisi

Hızlı transkripsiyonu kullanmaya başlamak için bkz . Hızlı transkripsiyon API'sini kullanma.

Toplu transkripsiyon

Toplu transkripsiyon , depolamadaki büyük miktarda ses dökümünü almak için kullanılır. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Ses dökümünü toplu olarak yazması gereken uygulamalar için toplu transkripsiyonu kullanın, örneğin:

Önceden kaydedilmiş ses için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar
Kişi merkezi arama sonrası analiz
Gündağılama

Metin okuma

Metin okuma ile giriş metnini sentezlenmiş konuşma gibi insana dönüştürebilirsiniz. Derin sinir ağları tarafından desteklenen insan sesi gibi sinir seslerini kullanın. Konuşma Sentezi İşaretlemeyi Dili'ni (SSML) kullanarak konuşma, söyleniş, konuşma hızı, ses düzeyi ve daha fazlasını ince ayarlayın.

Önceden oluşturulmuş sinir sesi: Çok doğal, kullanıma hazır sesler. Ses Galerisi'nin önceden oluşturulmuş sinir sesi örneklerini kontrol edin ve iş gereksinimleriniz için doğru sesi belirleyin.
Özel sinir sesi: Kutudan çıkan önceden oluşturulmuş nöral seslerin yanı sıra, markanıza veya ürününüz için tanınabilir ve benzersiz özel bir sinir sesi de oluşturabilirsiniz. Özel sinir sesleri özeldir ve rekabet avantajı sunabilir. Özel sinir sesi örneklerini buradan kontrol edin.

Konuşma çevirisi

Konuşma çevirisi uygulamalarınıza, araçlarınıza ve cihazlarınıza gerçek zamanlı, çok dilli konuşma çevirisi sağlar. Konuşmayı konuşmaya ve konuşmayı metin çevirisine dönüştürme için bu özelliği kullanın.

Dil belirleme

Dil belirleme , desteklenen diller listesiyle karşılaştırıldığında seste konuşulan dilleri tanımlamak için kullanılır. Dil tanımlamayı kendi başına, konuşmayı metin tanımayla veya konuşma çevirisiyle kullanın.

Konuşmacı tanıma

Konuşmacı tanıma , konuşmacıları benzersiz ses özelliklerine göre doğrulayan ve tanımlayan algoritmalar sağlar. Konuşmacı tanıma, "Kim konuşuyor?" sorusunu yanıtlamak için kullanılır.

Söyleniş değerlendirmesi

Söyleniş değerlendirmesi , konuşma söylenişini değerlendirir ve konuşmacılara konuşulan sesin doğruluğu ve akıcılığı hakkında geri bildirim sağlar. Söyleniş değerlendirmesi sayesinde dil öğrenenler alıştırma yapabilir, anında geri bildirim alabilir ve güvenle konuşmak ve sunum yapmak için söylenişlerini geliştirebilir.

Amaç tanıma

Amaç tanıma: Dökümü alınmış konuşmadan kullanıcı amaçlarını türetmek ve sesli komutlar üzerinde işlem yapmak için konuşma dilini anlayarak konuşmayı metne dönüştürmeyi kullanın.

Teslim ve iletişim durumu

Azure AI Konuşma özelliklerini bulutta veya şirket içinde dağıtabilirsiniz.

Kapsayıcılarla uyumluluk, güvenlik veya diğer operasyonel nedenlerle hizmeti verilerinize yaklaştırabilirsiniz.

Bağımsız bulutlarda konuşma hizmeti dağıtımı, bazı kamu kuruluşları ve iş ortakları tarafından kullanılabilir. Örneğin, Azure Kamu bulutu ABD kamu kuruluşları ve iş ortakları tarafından kullanılabilir. 21Vianet bulutu tarafından sağlanan Microsoft Azure, Çin'de iş varlığı olan kuruluşlar tarafından kullanılabilir. Daha fazla bilgi için bkz . bağımsız bulutlar.

Konuşma hizmetinin dağıtılıp erişilebildiği yerleri gösteren diyagram.

Uygulamanızda Konuşma kullanma

Speech Studio, Azure AI Konuşma Tanıma hizmetinden özellikleri uygulamalarınızda derlemeye ve tümleştirmeye yönelik bir dizi kullanıcı arabirimi tabanlı araçtır. Speech Studio'da kod içermeyen bir yaklaşım kullanarak projeler oluşturur ve ardından Konuşma SDK'sı, Konuşma CLI'sı veya REST API'lerini kullanarak uygulamalarınızdaki bu varlıklara başvurabilirsiniz.

Konuşma CLI'sı, herhangi bir kod yazmak zorunda kalmadan Konuşma hizmetini kullanmaya yönelik bir komut satırı aracıdır. Konuşma SDK'sındaki özelliklerin çoğu Konuşma CLI'sinde kullanılabilir; ayrıca bazı gelişmiş özellikler ve özelleştirmeler Konuşma CLI'sinde basitleştirilmiştir.

Konuşma SDK'sı, konuşma özellikli uygulamalar geliştirmek için kullanabileceğiniz konuşma hizmeti özelliklerinin çoğunu kullanıma sunar. Konuşma SDK'sı birçok programlama dilinde ve tüm platformlarda kullanılabilir.

Bazı durumlarda Konuşma SDK'sını kullanamaz veya kullanmamalısınız. Böyle durumlarda, Konuşma tanıma hizmetine erişmek için REST API'lerini kullanabilirsiniz. Örneğin, toplu transkripsiyon ve konuşmacı tanıma REST API'leri için REST API'lerini kullanın.

Kullanmaya başlayın

Birçok popüler programlama dilinde hızlı başlangıçlar sunuyoruz. Her hızlı başlangıç, size temel tasarım desenlerini öğretecek ve 10 dakikadan kısa bir sürede kod çalıştırmanızı sağlamak için tasarlanmıştır. Her özellik için hızlı başlangıç için aşağıdaki listeye bakın:

Kod örnekleri

Konuşma hizmeti için örnek kod GitHub'da kullanılabilir. Bu örnekler dosya veya akıştan ses okuma, sürekli ve tek seferlik tanıma ve özel modellerle çalışma gibi yaygın senaryoları kapsar. SDK ve REST örneklerini görüntülemek için şu bağlantıları kullanın:

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Aracılığıyla paylaş

Konuşma tanıma hizmeti nedir?

Konuşma tanıma senaryoları

Konuşma özellikleri

Konuşmayı metne dönüştürme

Gerçek zamanlı konuşmayı metne dönüştürme

Hızlı transkripsiyon API'si

Toplu transkripsiyon

Metin okuma

Konuşma çevirisi

Dil belirleme

Konuşmacı tanıma

Söyleniş değerlendirmesi

Amaç tanıma

Teslim ve iletişim durumu

Uygulamanızda Konuşma kullanma

Kullanmaya başlayın

Kod örnekleri

Sorumlu AI

Konuşmayı metne dönüştürme

Söyleniş Değerlendirmesi

Özel sinir sesi

Konuşmacı Tanıma

Sonraki adımlar

Geri Bildirim

Ek kaynaklar