Azure Databricks etkinliği çalıştırarak verileri dönüştürme
Microsoft Fabric için Data Factory'deki Azure Databricks etkinliği, aşağıdaki Azure Databricks işlerini düzenlemenizi sağlar:
- Not Defteri
- Kavanoz
- Python
Bu makalede, Data Factory arabirimini kullanarak Azure Databricks etkinliğinin nasıl oluşturulacağını açıklayan adım adım bir izlenecek yol sağlanır.
Önkoşullar
Başlamak için aşağıdaki önkoşulları tamamlamanız gerekir:
- Etkin aboneliği olan bir kiracı hesabı. Ücretsiz hesap oluşturun.
- Bir çalışma alanı oluşturulur.
Azure Databricks etkinliğini yapılandırma
İşlem hattında Azure Databricks etkinliğini kullanmak için aşağıdaki adımları tamamlayın:
Bağlantıyı yapılandırma
Çalışma alanınızda yeni bir işlem hattı oluşturun.
İşlem hattı etkinliği ekle'ye tıklayın ve Azure Databricks'i arayın.
Alternatif olarak, işlem hattı Etkinlikleri bölmesinde Azure Databricks'i arayabilir ve bunu seçerek işlem hattı tuvaline ekleyebilirsiniz.
Henüz seçili değilse tuvaldeki yeni Azure Databricks etkinliğini seçin.
Genel ayarlar sekmesini yapılandırmak için Genel ayarlar kılavuzuna bakın.
Kümeleri yapılandırma
Küme sekmesini seçin. Ardından var olan bir azure databricks bağlantısını seçebilir veya yeni bir azure databricks bağlantısı oluşturabilir ve ardından yeni bir iş kümesi, var olan bir etkileşimli küme veya mevcut bir örnek havuzu seçebilirsiniz.
Küme için ne seçtiğinize bağlı olarak, ilgili alanları gösterildiği gibi doldurun.
- Yeni iş kümesi ve mevcut örnek havuzu altında, çalışan sayısını yapılandırma ve spot örnekleri etkinleştirme olanağına da sahip olursunuz.
Ayrıca, bağlandığınız küme için gerekli olan Küme ilkesi, Spark yapılandırması, Spark ortam değişkenleri ve özel etiketler gibi ek küme ayarlarını belirtebilirsiniz. Databricks init betikleri ve Küme Günlüğü hedef yolu , ek küme ayarları altına da eklenebilir.
Not
Azure Data Factory Azure Databricks bağlı hizmetinde desteklenen tüm gelişmiş küme özellikleri ve dinamik ifadeler artık kullanıcı arabirimindeki 'Ek küme yapılandırması' bölümünde Microsoft Fabric'teki Azure Databricks etkinliğinde de desteklenmektedir. Bu özellikler artık etkinlik kullanıcı arabirimine eklendiğinden; Azure Data Factory Azure Databricks bağlı hizmetinde Gelişmiş JSON belirtimine gerek kalmadan bir ifade (dinamik içerik) ile kolayca kullanılabilir.
Azure Databricks Etkinliği artık Küme İlkesi ve Unity Kataloğu desteğini de destekliyor.
- Gelişmiş ayarlar'ın altında, hangi küme yapılandırmalarına izin verilebileceğini belirtebilmeniz için Küme İlkesi'ni seçme seçeneğiniz vardır.
- Ayrıca gelişmiş ayarlar altında, unity kataloğu erişim modunu ek güvenlik için yapılandırma seçeneğiniz vardır. Kullanılabilir erişim modu türleri şunlardır:
- Tek Kullanıcı Erişim Modu Bu mod, her kümenin tek bir kullanıcı tarafından kullanıldığı senaryolar için tasarlanmıştır. Küme içindeki veri erişiminin yalnızca bu kullanıcıyla kısıtlanmasını sağlar. Bu mod, yalıtım ve tek tek veri işleme gerektiren görevler için kullanışlıdır.
- Paylaşılan Erişim Modu Bu modda, aynı kümeye birden çok kullanıcı erişebilir. Unity Kataloğu'nun veri idaresini eski tablo erişim denetim listeleriyle (ACL) birleştirir. Bu mod, idare ve güvenlik protokollerini korurken işbirliğine dayalı veri erişimine de olanak tanır. Ancak Databricks Runtime ML'yi desteklememe, Spark gönderme işleri ve belirli Spark API'leri ve UDF'leri gibi bazı sınırlamaları vardır.
- Erişim Modu Yok Bu mod Unity Kataloğu ile etkileşimi devre dışı bırakır, yani kümelerin Unity Kataloğu tarafından yönetilen verilere erişimi yoktur. Bu mod, Unity Kataloğu'nun idare özelliklerini gerektirmeyen iş yükleri için kullanışlıdır.
Ayarları yapılandırma
Ayarlar sekmesini seçerek, düzenlemesini istediğiniz Azure Databricks türünde 3 seçenek arasından seçim yapabilirsiniz.
Azure Databricks etkinliğinde Not Defteri türünü düzenleme:
Ayarlar sekmesinin altında Not Defteri radyo düğmesini seçerek Not Defteri'ni çalıştırabilirsiniz. Azure Databricks'te yürütülecek not defteri yolunu, not defterine geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.
Azure Databricks etkinliğinde Jar türünü düzenleme:
Ayarlar sekmesinin altında Jar radyo düğmesini seçerek Jar komutunu çalıştırabilirsiniz. Azure Databricks'te yürütülecek sınıf adını, Jar'a geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.
Azure Databricks etkinliğinde Python türünü düzenleme:
Ayarlar sekmesinin altında Python radyo düğmesini seçerek bir Python dosyası çalıştırabilirsiniz. Azure Databricks'in içindeki yürütülecek Python dosyasının yolunu, geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.
Azure Databricks etkinliği için desteklenen Kitaplıklar
Yukarıdaki Databricks etkinlik tanımında şu kitaplık türlerini belirtebilirsiniz: jar, egg, whl, maven, pypi, cran.
Daha fazla bilgi için kitaplık türleri için Databricks belgelerine bakın.
Azure Databricks etkinliği ile işlem hatları arasında parametre geçirme
Databricks etkinliğindeki baseParameters özelliğini kullanarak not defterlerine parametre geçirebilirsiniz.
Bazı durumlarda, hizmetteki denetim akışı (koşullu denetimler) için kullanılabilen veya aşağı akış etkinlikleri tarafından kullanılabilen (boyut sınırı 2 MB'tır) belirli değerleri not defterinden hizmete geri geçirmeniz gerekebilir.
Örneğin, not defterinizde dbutils.notebook.exit("returnValue") çağrısı yapabilir ve hizmete karşılık gelen "returnValue" döndürülür.
gibi
@{activity('databricks activity name').output.runOutput}
bir ifade kullanarak hizmetteki çıktıyı kullanabilirsiniz.
İşlem hattını kaydetme ve çalıştırma veya zamanlama
İşlem hattınız için gereken diğer etkinlikleri yapılandırdıktan sonra işlem hattı düzenleyicisinin üst kısmındaki Giriş sekmesine geçin ve işlem hattınızı kaydetmek için kaydet düğmesini seçin. Doğrudan çalıştırmak için Çalıştır'ı veya zamanlamak için Zamanla'yı seçin. Burada çalıştırma geçmişini görüntüleyebilir veya diğer ayarları yapılandırabilirsiniz.