Aracılığıyla paylaş


Azure HDInsight etkinliği çalıştırarak verileri dönüştürme

Microsoft Fabric için Data Factory'deki Azure HDInsight etkinliği, aşağıdaki Azure HDInsight iş türlerini düzenlemenizi sağlar:

  • Hive sorguları yürütme
  • MapReduce programını çağırma
  • Pig sorgularını yürütme
  • Spark programı yürütme
  • Hadoop Stream programı yürütme

Bu makalede, Data Factory arabirimini kullanarak Azure HDInsight etkinliği oluşturmayı açıklayan adım adım bir kılavuz sağlanır.

Önkoşullar

Başlamak için aşağıdaki önkoşulları tamamlamanız gerekir:

Kullanıcı arabirimiyle işlem hattına Azure HDInsight (HDI) etkinliği ekleme

  1. Çalışma alanınızda yeni bir veri işlem hattı oluşturun.

  2. Giriş ekranı kartından Azure HDInsight'ı arayın ve seçin veya etkinlikler çubuğundan etkinliği seçerek işlem hattı tuvaline ekleyin.

    • Giriş ekranı kartından etkinlik oluşturuluyor:

      Yeni bir Azure HDInsight etkinliğinin nerede oluşturulacağını gösteren ekran görüntüsü.

    • Etkinlikler çubuğundan etkinlik oluşturuluyor:

      İşlem hattı düzenleyicisi penceresindeki Etkinlikler çubuğundan yeni bir Azure HDInsight etkinliğinin nerede oluşturulacağını gösteren ekran görüntüsü.

  3. Henüz seçili değilse işlem hattı düzenleyicisi tuvalinde yeni Azure HDInsight etkinliğini seçin.

    İşlem hattı düzenleyicisi tuvalinde Azure HDInsight etkinliğini gösteren ekran görüntüsü.

    Genel ayarlar sekmesinde bulunan seçenekleri yapılandırmak için Genel ayarlar kılavuzuna bakın.

HDI kümesini yapılandırma

  1. HDI Kümesi sekmesini seçin. Ardından mevcut bir HDInsight bağlantısı seçebilir veya yeni bir HDInsight bağlantısı oluşturabilirsiniz.

  2. Kaynak bağlantısı için Azure HDInsight kümenize başvuran Azure Blob Depolama seçin. Mevcut blob depolarından birini seçebilir veya yeni bir depo oluşturabilirsiniz.

    Azure HDInsight etkinliğinin HDI Kümesi özelliklerini gösteren ekran görüntüsü.

Ayarları yapılandırma

Etkinliğin gelişmiş ayarlarını görmek için Ayarlar sekmesini seçin.

İşlem hattı düzenleyicisi penceresinde Azure HDInsight etkinlik özelliklerinin Ayarlar sekmesini gösteren ekran görüntüsü. .

Azure Data Factory ve Synapse Analytics HDInsight bağlı hizmetinde desteklenen tüm gelişmiş küme özellikleri ve dinamik ifadeler artık kullanıcı arabirimindeki Gelişmiş bölümünün altında Microsoft Fabric'teki Data Factory için Azure HDInsight etkinliğinde de desteklenmektedir. Bu özelliklerin tümü, dinamik içeriğe sahip kullanımı kolay özel parametreli ifadeleri destekler.

Küme türü

HDInsight kümenizin ayarlarını yapılandırmak için önce Hive, Harita Azaltma, Pig, Spark ve Akış gibi kullanılabilir seçenekler arasından Türünü seçin.

Hive

Tür için Hive'ı seçerseniz, etkinlik bir Hive sorgusu yürütür. İsteğe bağlı olarak Hive türünü barındıran bir depolama hesabına başvuran Betik bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak Gelişmiş bölümünde, Hata ayıklama bilgileri, Sorgu zaman aşımı, Bağımsız Değişkenler, Parametreler ve Değişkenler bölümünde daha fazla yapılandırma belirtebilirsiniz.

Hive'ın küme türünü gösteren ekran görüntüsü.

Harita Azaltma

Tür için Eşleme Azaltma'yı seçerseniz, etkinlik bir Eşleme Azaltma programı çağırır. İsteğe bağlı olarak Jar bağlantısında Harita Azaltma türünü tutan bir depolama hesabına başvuruda bulunabilir. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Sınıf adını ve Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında Jar kitaplıklarını içeri aktarma, hata ayıklama bilgileri, bağımsız değişkenler ve parametreler gibi daha fazla yapılandırma ayrıntısı belirtebilirsiniz.

HDInsight küme türü için Harita Azaltma seçimini gösteren ekran görüntüsü.

Pig

Tür için Pig'i seçerseniz etkinlik bir Pig sorgusu çağırır. İsteğe bağlı olarak Pig türünü tutan depolama hesabına başvuran Betik bağlantısı ayarını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında hata ayıklama bilgileri, bağımsız değişkenler, parametreler ve değişkenler gibi daha fazla yapılandırma belirtebilirsiniz.

HDInsight kümesi için Pig türü seçimini gösteren ekran görüntüsü.

Spark

Tür için Spark'ı seçerseniz etkinlik bir Spark programı çağırır. Spark türü için Betik veya Jar'ıseçin. İsteğe bağlı olarak Spark türünü barındıran depolama hesabına başvuran İş bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Dosya yolunu belirtmeniz gerekir. İsteğe bağlı olarak, Gelişmiş bölümü altında sınıf adı, ara sunucu kullanıcısı, hata ayıklama bilgileri, bağımsız değişkenler ve spark yapılandırması gibi daha fazla yapılandırma belirtebilirsiniz.

HDInsight kümesi için Spark türü seçimini gösteren ekran görüntüsü.

Akışlar

Tür için Akış'ı seçerseniz etkinlik bir Akış programı çağırır. Eşleyici ve Azaltıcı adlarını belirtin ve isteğe bağlı olarak Akış türünü tutan depolama hesabına başvuran Dosya bağlantısını belirtebilirsiniz. Varsayılan olarak, HDI Kümesi sekmesinde belirttiğiniz depolama bağlantısı kullanılır. Azure HDInsight'ta yürütülecek Eşleyici için Dosya yolunu ve Azaltıcı için Dosya yolunu belirtmeniz gerekir. WASB yolu için Giriş ve Çıkış seçeneklerini de ekleyin. İsteğe bağlı olarak, Gelişmiş bölümü altında hata ayıklama bilgileri, bağımsız değişkenler ve parametreler gibi daha fazla yapılandırma belirtebilirsiniz.

HDInsight kümesi için Akış türü seçimini gösteren ekran görüntüsü.

Özellik başvurusu

Özellik Açıklama Gerekli
Tür Hadoop Akış Etkinliği için etkinlik türü HDInsightStreaming'dir Yes
Eşleştiricisi Eşleyici yürütülebilir dosyasının adını belirtir Yes
Redüktör Azaltıcı yürütülebilir dosyasının adını belirtir Yes
Birleştir -ici Birleştirici yürütülebilir dosyasının adını belirtir Hayır
dosya bağlantısı Yürütülecek Eşleyici, Birleştirici ve Azaltıcı programlarını depolamak için kullanılan azure depolama bağlı hizmetine başvuru. Hayır
Burada yalnızca Azure Blob Depolama ve ADLS 2. Nesil bağlantıları desteklenir. Bu bağlantıyı belirtmezseniz, HDInsight bağlantısında tanımlanan depolama bağlantısı kullanılır.
filePath Dosya bağlantısı tarafından başvurulan Azure Depolama'da depolanan Eşleyici, Birleştirici ve Azaltıcı programlarına yönelik bir yol dizisi sağlayın. Yes
input Eşleyici için giriş dosyasının WASB yolunu belirtir. Yes
çıkış Azaltıcı için çıkış dosyasının WASB yolunu belirtir. Yes
getDebugInfo Günlük dosyalarının scriptLinkedService tarafından belirtilen HDInsight kümesi (veya) tarafından kullanılan Azure Depolama'ya ne zaman kopyalandığı belirtir. Hayır
İzin verilen değerler: Yok, Her Zaman veya Hata. Varsayılan değer: Hiçbiri.
Bağımsız değişken Hadoop işi için bir bağımsız değişken dizisi belirtir. Bağımsız değişkenler her göreve komut satırı bağımsız değişkenleri olarak geçirilir. Hayır
Tanım -lar Hive betiği içinde başvurmak için parametreleri anahtar/değer çiftleri olarak belirtin. Hayır

İşlem hattını kaydetme ve çalıştırma veya zamanlama

İşlem hattınız için gereken diğer etkinlikleri yapılandırdıktan sonra işlem hattı düzenleyicisinin üst kısmındaki Giriş sekmesine geçin ve işlem hattınızı kaydetmek için kaydet düğmesini seçin. Doğrudan çalıştırmak için Çalıştır'ı veya zamanlamak için Zamanla'yı seçin. Burada çalıştırma geçmişini görüntüleyebilir veya diğer ayarları yapılandırabilirsiniz.

İşlem hattı düzenleyicisinin Giriş sekmesini gösteren ve Kaydet, Çalıştır ve Zamanla düğmelerini vurgulayan ekran görüntüsü.

İşlem hattı çalıştırmalarını izleme