Konuşma tanıma hizmeti nedir?
Konuşma tanıma hizmeti, konuşma kaynağıyla metne konuşma ve metin okuma özellikleri sağlar. Konuşmayı yüksek doğrulukla metne dönüştürebilir, konuşma seslerine doğal sesli metin üretebilir, konuşulan sesi çevirebilir ve konuşmalar sırasında konuşmacı tanımayı kullanabilirsiniz.
Özel sesler oluşturun, temel sözlüğünüze belirli sözcükleri ekleyin veya kendi modellerinizi oluşturun. Konuşma hizmetini istediğiniz yerde, bulutta veya uç cihazlarda kapsayıcılarda çalıştırın. Konuşma CLI'sı, Konuşma SDK'sı ve REST API'leri ile uygulamalarınızı, araçlarınızı ve cihazlarınızı konuşmayla kolayca etkinleştirebilirsiniz.
Konuşma birçok dil, bölge ve fiyat noktası için kullanılabilir.
Konuşma tanıma senaryoları
Konuşma için yaygın senaryolar şunlardır:
- Resim yazısı: Açıklamalı altyazıları giriş sesinizle eşitlemeyi, küfür filtreleri uygulamayı, kısmi sonuçlar almayı, özelleştirmeleri uygulamayı ve çok dilli senaryolar için konuşulan dilleri tanımlamayı öğrenin.
- Ses İçeriği Oluşturma: Sohbet botları ve sesli yardımcılarla etkileşimleri daha doğal ve ilgi çekici hale getirmek, e-kitap gibi dijital metinleri sesli kitaplara dönüştürmek ve araç içi gezinti sistemlerini geliştirmek için sinir seslerini kullanabilirsiniz.
- Çağrı Merkezi: Çağrıları gerçek zamanlı olarak yazın veya bir grup aramayı işleyin, kişisel olarak tanımlayan bilgileri yeniden işleyin ve çağrı merkezi kullanım örneğinize yardımcı olmak için yaklaşım gibi içgörüleri ayıklayın.
- Dil öğrenmesi: Dil öğrencilerine söyleniş değerlendirmesi geri bildirimi sağlayın, uzaktan öğrenme konuşmaları için gerçek zamanlı transkripsiyonu destekleyin ve nöral seslerle sesli öğretim materyallerini okuyun.
- Sesli yardımcılar: Uygulamaları ve deneyimleri için doğal, insan benzeri konuşma arabirimleri oluşturun. Sesli yardımcı özelliği, bir cihaz ile yardımcı uygulaması arasında hızlı ve güvenilir etkileşim sağlar.
Microsoft, Teams'de açıklamalı alt yazı, Office 365'te dikte etme ve Microsoft Edge tarayıcısında Sesli Okuma gibi birçok senaryo için Konuşma özelliğini kullanır.
Konuşma özellikleri
Bu bölümlerde daha fazla bilgi için Konuşma özellikleri ve bağlantılar özetlenmiştir.
Konuşmayı metne dönüştürme
Konuşmayı metne dönüştürerek gerçek zamanlı veya toplu transkripsiyonla zaman uyumsuz olarak ses dökümünü alın.
İpucu
Speech Studio'da herhangi bir koda kaydolmadan veya yazmadan gerçek zamanlı konuşmayı metne dönüştürmeyi deneyebilirsiniz.
Mikrofonlar, ses dosyaları ve blob depolama alanı gibi çok çeşitli kaynaklardan gelen sesleri metne dönüştürün. Kimin ne zaman ve ne zaman söylediğini belirlemek için konuşmacı dilarizasyonu kullanın. Otomatik biçimlendirme ve noktalandırma sayesinde okunabilir konuşma metinleri elde edin.
Ses ortam gürültüsü içeriyorsa veya sektöre ve etki alanına özgü çok sayıda jargon içeriyorsa temel model yeterli olmayabilir. Bu gibi durumlarda akustik, dil ve söyleniş verileriyle özel konuşma modelleri oluşturabilir ve eğitebilirsiniz. Özel konuşma modelleri özeldir ve rekabet avantajı sunabilir.
Gerçek zamanlı konuşmayı metne dönüştürme
Gerçek zamanlı konuşmayı metne dönüştürme ile, konuşma bir mikrofondan veya dosyadan tanındıkça ses dökümünü alır. Ses dökümünü gerçek zamanlı olarak yazması gereken uygulamalar için metinde gerçek zamanlı konuşma kullanın, örneğin:
- Canlı toplantılar için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar
- Gündağılama
- Söyleniş değerlendirmesi
- İletişim merkezi aracıları yardımı
- Dikte
- Ses aracıları
Hızlı transkripsiyon API'si
Hızlı transkripsiyon API'si, sonuç döndüren ses dosyalarının zaman uyumlu ve gerçek zamanlı sesten çok daha hızlı dökümünü almak için kullanılır. Aşağıdakiler gibi öngörülebilir gecikme süresiyle ses kaydının transkriptine ihtiyacınız olan senaryolarda hızlı transkripsiyonu kullanın:
- Hızlı ses veya video transkripsiyonu, alt yazılar ve düzenleme.
- Video çevirisi
Hızlı transkripsiyonu kullanmaya başlamak için bkz . Hızlı transkripsiyon API'sini kullanma.
Toplu transkripsiyon
Toplu transkripsiyon , depolamadaki büyük miktarda ses dökümünü almak için kullanılır. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Ses dökümünü toplu olarak yazması gereken uygulamalar için toplu transkripsiyonu kullanın, örneğin:
- Önceden kaydedilmiş ses için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar
- Kişi merkezi arama sonrası analiz
- Gündağılama
Metin okuma
Metin okuma ile giriş metnini sentezlenmiş konuşma gibi insana dönüştürebilirsiniz. Derin sinir ağları tarafından desteklenen insan sesi gibi sinir seslerini kullanın. Konuşma Sentezi İşaretlemeyi Dili'ni (SSML) kullanarak konuşma, söyleniş, konuşma hızı, ses düzeyi ve daha fazlasını ince ayarlayın.
- Önceden oluşturulmuş sinir sesi: Çok doğal, kullanıma hazır sesler. Ses Galerisi'nin önceden oluşturulmuş sinir sesi örneklerini kontrol edin ve iş gereksinimleriniz için doğru sesi belirleyin.
- Özel sinir sesi: Kutudan çıkan önceden oluşturulmuş nöral seslerin yanı sıra, markanıza veya ürününüz için tanınabilir ve benzersiz özel bir sinir sesi de oluşturabilirsiniz. Özel sinir sesleri özeldir ve rekabet avantajı sunabilir. Özel sinir sesi örneklerini buradan kontrol edin.
Konuşma çevirisi
Konuşma çevirisi uygulamalarınıza, araçlarınıza ve cihazlarınıza gerçek zamanlı, çok dilli konuşma çevirisi sağlar. Konuşmayı konuşmaya ve konuşmayı metin çevirisine dönüştürme için bu özelliği kullanın.
Dil belirleme
Dil belirleme , desteklenen diller listesiyle karşılaştırıldığında seste konuşulan dilleri tanımlamak için kullanılır. Dil tanımlamayı kendi başına, konuşmayı metin tanımayla veya konuşma çevirisiyle kullanın.
Konuşmacı tanıma
Konuşmacı tanıma , konuşmacıları benzersiz ses özelliklerine göre doğrulayan ve tanımlayan algoritmalar sağlar. Konuşmacı tanıma, "Kim konuşuyor?" sorusunu yanıtlamak için kullanılır.
Söyleniş değerlendirmesi
Söyleniş değerlendirmesi , konuşma söylenişini değerlendirir ve konuşmacılara konuşulan sesin doğruluğu ve akıcılığı hakkında geri bildirim sağlar. Söyleniş değerlendirmesi sayesinde dil öğrenenler alıştırma yapabilir, anında geri bildirim alabilir ve güvenle konuşmak ve sunum yapmak için söylenişlerini geliştirebilir.
Amaç tanıma
Amaç tanıma: Dökümü alınmış konuşmadan kullanıcı amaçlarını türetmek ve sesli komutlar üzerinde işlem yapmak için konuşma dilini anlayarak konuşmayı metne dönüştürmeyi kullanın.
Teslim ve iletişim durumu
Azure AI Konuşma özelliklerini bulutta veya şirket içinde dağıtabilirsiniz.
Kapsayıcılarla uyumluluk, güvenlik veya diğer operasyonel nedenlerle hizmeti verilerinize yaklaştırabilirsiniz.
Bağımsız bulutlarda konuşma hizmeti dağıtımı, bazı kamu kuruluşları ve iş ortakları tarafından kullanılabilir. Örneğin, Azure Kamu bulutu ABD kamu kuruluşları ve iş ortakları tarafından kullanılabilir. 21Vianet bulutu tarafından sağlanan Microsoft Azure, Çin'de iş varlığı olan kuruluşlar tarafından kullanılabilir. Daha fazla bilgi için bkz . bağımsız bulutlar.
Uygulamanızda Konuşma kullanma
Speech Studio, Azure AI Konuşma Tanıma hizmetinden özellikleri uygulamalarınızda derlemeye ve tümleştirmeye yönelik bir dizi kullanıcı arabirimi tabanlı araçtır. Speech Studio'da kod içermeyen bir yaklaşım kullanarak projeler oluşturur ve ardından Konuşma SDK'sı, Konuşma CLI'sı veya REST API'lerini kullanarak uygulamalarınızdaki bu varlıklara başvurabilirsiniz.
Konuşma CLI'sı, herhangi bir kod yazmak zorunda kalmadan Konuşma hizmetini kullanmaya yönelik bir komut satırı aracıdır. Konuşma SDK'sındaki özelliklerin çoğu Konuşma CLI'sinde kullanılabilir; ayrıca bazı gelişmiş özellikler ve özelleştirmeler Konuşma CLI'sinde basitleştirilmiştir.
Konuşma SDK'sı, konuşma özellikli uygulamalar geliştirmek için kullanabileceğiniz konuşma hizmeti özelliklerinin çoğunu kullanıma sunar. Konuşma SDK'sı birçok programlama dilinde ve tüm platformlarda kullanılabilir.
Bazı durumlarda Konuşma SDK'sını kullanamaz veya kullanmamalısınız. Böyle durumlarda, Konuşma tanıma hizmetine erişmek için REST API'lerini kullanabilirsiniz. Örneğin, toplu transkripsiyon ve konuşmacı tanıma REST API'leri için REST API'lerini kullanın.
Kullanmaya başlayın
Birçok popüler programlama dilinde hızlı başlangıçlar sunuyoruz. Her hızlı başlangıç, size temel tasarım desenlerini öğretecek ve 10 dakikadan kısa bir sürede kod çalıştırmanızı sağlamak için tasarlanmıştır. Her özellik için hızlı başlangıç için aşağıdaki listeye bakın:
- Konuşmayı metne dönüştürme hızlı başlangıcı
- Metin okuma hızlı başlangıcı
- Konuşma çevirisi hızlı başlangıcı
Kod örnekleri
Konuşma hizmeti için örnek kod GitHub'da kullanılabilir. Bu örnekler dosya veya akıştan ses okuma, sürekli ve tek seferlik tanıma ve özel modellerle çalışma gibi yaygın senaryoları kapsar. SDK ve REST örneklerini görüntülemek için şu bağlantıları kullanın:
- Konuşmayı metne dönüştürme, metin okuma ve konuşma çevirisi örnekleri (SDK)
- Toplu transkripsiyon örnekleri (REST)
- Metin okuma örnekleri (REST)
- Sesli yardımcı örnekleri (SDK)
Sorumlu AI
Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.
Konuşmayı metne dönüştürme
- Saydamlık notu ve kullanım örnekleri
- Özellikler ve sınırlamalar
- Tümleştirme ve sorumlu kullanım
- Veri, gizlilik ve güvenlik
Söyleniş Değerlendirmesi
Özel sinir sesi
- Saydamlık notu ve kullanım örnekleri
- Özellikler ve sınırlamalar
- Sınırlı erişim
- Yapay konuşmanın sorumlu dağıtımı
- Ses yeteneğinin açığa çıkması
- Tasarım yönergelerinin açıklanması
- Tasarım desenlerinin açıklanması
- Kullanım kuralları
- Veri, gizlilik ve güvenlik
Konuşmacı Tanıma
- Saydamlık notu ve kullanım örnekleri
- Özellikler ve sınırlamalar
- Sınırlı erişim
- Genel yönergeler
- Veri, gizlilik ve güvenlik