Azure HDInsight etkinliği çalıştırarak verileri dönüştürme
Microsoft Fabric için Data Factory'deki Azure HDInsight etkinliği, aşağıdaki Azure HDInsight iş türlerini düzenlemenizi sağlar:
- Hive sorguları yürütme
- MapReduce programını çağırma
- Pig sorgularını yürütme
- Spark programı yürütme
- Hadoop Stream programı yürütme
Bu makalede, Data Factory arabirimini kullanarak Azure HDInsight etkinliği oluşturmayı açıklayan adım adım bir kılavuz sağlanır.
Önkoşullar
Başlamak için aşağıdaki önkoşulları tamamlamanız gerekir:
- Etkin aboneliği olan bir kiracı hesabı. Ücretsiz hesap oluşturun.
- Bir çalışma alanı oluşturulur.
Kullanıcı arabirimiyle işlem hattına Azure HDInsight (HDI) etkinliği ekleme
Çalışma alanınızda yeni bir veri işlem hattı oluşturun.
Giriş ekranı kartından Azure HDInsight'ı arayın ve seçin veya etkinlikler çubuğundan etkinliği seçerek işlem hattı tuvaline ekleyin.
Henüz seçili değilse işlem hattı düzenleyicisi tuvalinde yeni Azure HDInsight etkinliğini seçin.
Genel ayarlar sekmesinde bulunan seçenekleri yapılandırmak için Genel ayarlar kılavuzuna bakın.
HDI kümesini yapılandırma
HDI Kümesi sekmesini seçin. Ardından mevcut bir HDInsight bağlantısı seçebilir veya yeni bir HDInsight bağlantısı oluşturabilirsiniz.
Kaynak bağlantısı için Azure HDInsight kümenize başvuran Azure Blob Depolama seçin. Mevcut blob depolarından birini seçebilir veya yeni bir depo oluşturabilirsiniz.
Ayarları yapılandırma
Etkinliğin gelişmiş ayarlarını görmek için Ayarlar sekmesini seçin.
Azure Data Factory ve Synapse Analytics HDInsight bağlı hizmetinde desteklenen tüm gelişmiş küme özellikleri ve dinamik ifadeler artık kullanıcı arabirimindeki Gelişmiş bölümünün altında Microsoft Fabric'teki Data Factory için Azure HDInsight etkinliğinde de desteklenmektedir. Bu özelliklerin tümü, dinamik içeriğe sahip kullanımı kolay özel parametreli ifadeleri destekler.
Küme türü
HDInsight kümenizin ayarlarını yapılandırmak için önce Hive, Harita Azaltma, Pig, Spark ve Akış gibi kullanılabilir seçenekler arasından Türünü seçin.
Hive
Tür için Hive'ı seçerseniz, etkinlik bir Hive sorgusu yürütür. İsteğe bağlı olarak Hive türünü barındıran bir depolama hesabına başvuran Betik bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak Gelişmiş bölümünde, Hata ayıklama bilgileri, Sorgu zaman aşımı, Bağımsız Değişkenler, Parametreler ve Değişkenler bölümünde daha fazla yapılandırma belirtebilirsiniz.
Harita Azaltma
Tür için Eşleme Azaltma'yı seçerseniz, etkinlik bir Eşleme Azaltma programı çağırır. İsteğe bağlı olarak Jar bağlantısında Harita Azaltma türünü tutan bir depolama hesabına başvuruda bulunabilir. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Sınıf adını ve Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında Jar kitaplıklarını içeri aktarma, hata ayıklama bilgileri, bağımsız değişkenler ve parametreler gibi daha fazla yapılandırma ayrıntısı belirtebilirsiniz.
Pig
Tür için Pig'i seçerseniz etkinlik bir Pig sorgusu çağırır. İsteğe bağlı olarak Pig türünü tutan depolama hesabına başvuran Betik bağlantısı ayarını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında hata ayıklama bilgileri, bağımsız değişkenler, parametreler ve değişkenler gibi daha fazla yapılandırma belirtebilirsiniz.
Spark
Tür için Spark'ı seçerseniz etkinlik bir Spark programı çağırır. Spark türü için Betik veya Jar'ıseçin. İsteğe bağlı olarak Spark türünü barındıran depolama hesabına başvuran İş bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında sınıf adı, ara sunucu kullanıcısı, hata ayıklama bilgileri, bağımsız değişkenler ve spark yapılandırması gibi daha fazla yapılandırma belirtebilirsiniz.
Akışlar
Tür için Akış'ı seçerseniz etkinlik bir Akış programı çağırır. Eşleyici ve Azaltıcı adlarını belirtin ve isteğe bağlı olarak Akış türünü tutan depolama hesabına başvuran Dosya bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Eşleyici için Dosya yolunu ve Azaltıcı için Dosya yolunu belirtmeniz gerekir. WASB yolu için Giriş ve Çıkış seçeneklerini de ekleyin. İsteğe bağlı olarak, Gelişmiş bölümü altında hata ayıklama bilgileri, bağımsız değişkenler ve parametreler gibi daha fazla yapılandırma belirtebilirsiniz.
Özellik başvurusu
Özellik | Açıklama | Gerekli |
---|---|---|
Tür | Hadoop Akış Etkinliği için etkinlik türü HDInsightStreaming'dir | Yes |
Eşleştiricisi | Eşleyici yürütülebilir dosyasının adını belirtir | Yes |
Redüktör | Azaltıcı yürütülebilir dosyasının adını belirtir | Yes |
Birleştir -ici | Birleştirici yürütülebilir dosyasının adını belirtir | Hayır |
dosya bağlantısı | Yürütülecek Eşleyici, Birleştirici ve Azaltıcı programlarını depolamak için kullanılan azure depolama bağlı hizmetine başvuru. | Hayır |
Burada yalnızca Azure Blob Depolama ve ADLS 2. Nesil bağlantıları desteklenir. Bu bağlantıyı belirtmezseniz, HDInsight bağlantısında tanımlanan depolama bağlantısı kullanılır. | ||
filePath | Dosya bağlantısı tarafından başvurulan Azure Depolama'da depolanan Eşleyici, Birleştirici ve Azaltıcı programlarına yönelik bir yol dizisi sağlayın. | Yes |
input | Eşleyici için giriş dosyasının WASB yolunu belirtir. | Yes |
çıkış | Azaltıcı için çıkış dosyasının WASB yolunu belirtir. | Yes |
getDebugInfo | Günlük dosyalarının scriptLinkedService tarafından belirtilen HDInsight kümesi (veya) tarafından kullanılan Azure Depolama'ya ne zaman kopyalandığı belirtir. | Hayır |
İzin verilen değerler: Yok, Her Zaman veya Hata. Varsayılan değer: Hiçbiri. | ||
Bağımsız değişken | Hadoop işi için bir bağımsız değişken dizisi belirtir. Bağımsız değişkenler her göreve komut satırı bağımsız değişkenleri olarak geçirilir. | Hayır |
Tanım -lar | Hive betiği içinde başvurmak için parametreleri anahtar/değer çiftleri olarak belirtin. | Hayır |
İşlem hattını kaydetme ve çalıştırma veya zamanlama
İşlem hattınız için gereken diğer etkinlikleri yapılandırdıktan sonra işlem hattı düzenleyicisinin üst kısmındaki Giriş sekmesine geçin ve işlem hattınızı kaydetmek için kaydet düğmesini seçin. Doğrudan çalıştırmak için Çalıştır'ı veya zamanlamak için Zamanla'yı seçin. Burada çalıştırma geçmişini görüntüleyebilir veya diğer ayarları yapılandırabilirsiniz.