Scala geliştiricileri için Azure Databricks
Bu makale, Scala dilini kullanarak Azure Databricks'te not defterleri ve işler geliştirmeye yönelik bir kılavuz sağlar. İlk bölümde, yaygın iş akışları ve görevler için öğreticilere bağlantılar sağlanır. İkinci bölümde API'lere, kitaplıklara ve anahtar araçlarına bağlantılar sağlanır.
Kullanmaya başlamak için temel bir iş akışı:
- Etkileşimli bir Databricks not defteri kullanarak kodu içeri aktarın ve çalıştırın: Dosyalardan veya Git depolarından kendi kodunuzu içeri aktarın veya aşağıda listelenen bir öğreticiyi deneyin.
- Kodunuzu bir kümede çalıştırma: Kendi kümenizi oluşturun veya paylaşılan kümeyi kullanma izinlerinizin olduğundan emin olun. Not defterinizi kümeye ekleyin ve not defterini çalıştırın.
Bunun ötesinde, daha belirli konulara dallayabilirsiniz:
- Apache Spark kullanarak daha büyük veri kümeleriyle çalışma
- Görselleştirme ekleme
- İş yükünüzü iş olarak otomatikleştirme
- IDE'lerde geliştirme
Öğreticiler
Aşağıdaki öğreticiler, yaygın iş akışları hakkında bilgi edinmek için örnek kod ve not defterleri sağlar. Not defteri örneklerini çalışma alanınıza aktarma yönergeleri için bkz. Not defterini içeri aktarma.
- Öğretici: Apache Spark DataFrames kullanarak verileri yükleme ve dönüştürme
- Öğretici: Delta Lake Scala örnekleri sağlar.
- Azure Databricks'te XGBoost'un kullanılması bir Scala örneği sağlar.
Başvuru
Aşağıdaki alt bölümler Scala ile Azure Databricks'te geliştirmeye başlamanıza yardımcı olacak temel özellikleri ve ipuçlarını listelemektedir.
Scala API’si
Bu bağlantılar Apache Spark Scala API'sine giriş ve başvuru sağlar.
- Öğretici: Apache Spark DataFrames kullanarak verileri yükleme ve dönüştürme
- JSON dizelerini sorgulama
- Yapılandırılmış Akışa Giriş
- Apache Spark Core API başvurusu
- Apache Spark ML API başvurusu
Not defterleri ve Databricks Git klasörleriyle kodu yönetme
Databricks not defterleri Scala'ya destek sağlar. Bu not defterleri Jupyter'ınkine benzer işlevler sağlar, ancak büyük veri kullanan yerleşik görselleştirmeler, hata ayıklama ve performans izleme için Apache Spark tümleştirmeleri ve makine öğrenmesi denemelerini izlemeye yönelik MLflow tümleştirmeleri gibi eklemeler sağlar. bir not defterini
İpucu
Not defterinizin durumunu sıfırlamak için çekirdeği yeniden başlatın. Jupyter kullanıcıları için Jupyter'deki "çekirdeği yeniden başlat" seçeneği, Databricks'te bir not defterini ayırmaya ve yeniden eklemeye karşılık gelir. Not defterindeki çekirdeği yeniden başlatmak için, not defteri araç çubuğundaki işlem seçici tıklayın ve yan menüyü görüntülemek için listedeki ekli kümenin veya SQL ambarı'nın üzerine gelin. Ayır'ı seçin ¥iden ekleyin. Bu işlem, not defterini kümenizden ayırır ve işlemi yeniden başlatan yeniden ekler.
Databricks Git klasörleri , kullanıcıların not defterlerini ve diğer dosyaları Git depolarıyla eşitlemesine olanak tanır. Databricks Git klasörleri, kod sürümü oluşturma ve işbirliği konusunda yardımcı olur ve kodun tam deposunu Azure Databricks'e aktarmayı, geçmiş not defteri sürümlerini görüntülemeyi ve IDE geliştirmeyle tümleştirmeyi basitleştirebilir. uzak git deposunu kopyalamaya
Kümeler ve kitaplıklar
Azure Databricks işlem , tek düğüm kümelerinden büyük kümelere kadar her boyuttaki kümeler için işlem yönetimi sağlar. Küme donanımlarını ve kitaplıklarını gereksinimlerinize göre özelleştirebilirsiniz. Veri bilimciler genellikle bir küme oluşturarak veya mevcut paylaşılan kümeyi kullanarak çalışmaya başlar. Bir kümeye erişiminiz olduğunda, kümeye bir not defteri ekleyebilir veya kümede bir iş çalıştırabilirsiniz.
- Yalnızca tek düğüm gerektiren küçük iş yükleri için veri bilimciler maliyet tasarrufu için tek düğüm işlem kullanabilir.
- Ayrıntılı ipuçları için bkz . İşlem yapılandırma önerileri
- Yöneticiler, küme oluşturmayı basitleştirmek ve yönlendirmek için
küme ilkeleri ayarlayabilir.
Azure Databricks kümeleri, Apache Spark, Delta Lake ve daha fazlası dahil olmak üzere kullanıma açık birçok popüler kitaplık sağlayan bir Databricks Runtime kullanır. Ayrıca, not defterleri ve işlerle kullanmak üzere ek üçüncü taraf veya özel kitaplıklar da yükleyebilirsiniz.
- Databricks Runtime sürüm notları sürümleri ve uyumluluğundaki varsayılan kitaplıklarla başlayın. Önceden yüklenmiş kitaplıkların tam listeleri için bkz . Databricks Runtime sürüm notları sürümleri ve uyumluluğu.
- Scala kitaplıklarını bir kümeye de yükleyebilirsiniz.
- Diğer ayrıntılar için bkz . Kitaplıklar.
Görselleştirmeler
Azure Databricks Scala not defterleri birçok görselleştirme türü için yerleşik desteğe sahiptir. Eski görselleştirmeleri de kullanabilirsiniz:
Birlikte çalışabilirlik
Bu bölümde Scala ile SQL arasında birlikte çalışabilirliği destekleyen özellikler açıklanmaktadır.
İşler
Scala iş yüklerini Azure Databricks'te zamanlanmış veya tetiklenen işler olarak otomatikleştirebilirsiniz. İşler not defterlerini ve JAR'leri çalıştırabilir.
- Kullanıcı arabirimi aracılığıyla iş oluşturma hakkında ayrıntılı bilgi için bkz . Databricks İşleri'ni yapılandırma ve düzenleme.
- Databricks SDK'ları işleri program aracılığıyla oluşturmanıza, düzenlemenize ve silmenize olanak tanır.
- Databricks CLI, işleri otomatikleştirmek için kullanışlı bir komut satırı arabirimi sağlar.
IDE'ler, geliştirici araçları ve SDK'lar
Azure Databricks not defterleri içinde Scala kodu geliştirmeye ek olarak, IntelliJ IDEA gibi tümleşik geliştirme ortamlarını (IDE' ler) kullanarak da harici olarak geliştirme yapabilirsiniz. Dış geliştirme ortamları ile Azure Databricks arasındaki çalışmayı eşitlemek için çeşitli seçenekler vardır:
- Kod: Git kullanarak kodu eşitleyebilirsiniz. Bkz . Databricks Git klasörleri için Git tümleştirmesi.
- Kitaplıklar ve işler: Dış kitaplıklar oluşturabilir ve bunları Azure Databricks'e yükleyebilirsiniz. Bu kitaplıklar Azure Databricks not defterleri içinde içeri aktarılabilir veya iş oluşturmak için kullanılabilir. Bkz. Kütüphaneler ve Databricks'te düzenleme genel bakışı.
- Uzaktan makine yürütme: Etkileşimli geliştirme ve test için yerel IDE'nizden kod çalıştırabilirsiniz. IDE, Azure Databricks kümelerinde büyük hesaplamalar yürütmek için Azure Databricks ile iletişim kurabilir. Örneğin, Databricks Connect ile IntelliJ IDEA kullanabilirsiniz.
Databricks, dış araçlarla otomasyon ve tümleştirmeyi destekleyen bir dizi SDK sağlar. Databricks SDK'larını kullanarak kümeler ve kitaplıklar, kod ve diğer çalışma alanı nesneleri, iş yükleri ve işler gibi kaynakları yönetebilirsiniz. Bkz. Databricks SDK'ları.
IDE'ler, geliştirici araçları ve SDK'lar hakkında daha fazla bilgi için bkz. Yerel geliştirme araçları.
Ek kaynaklar
- Databricks Academy birçok konuda kendi hızınızda ilerleyebileceğiniz ve eğitmen liderliğinde kurslar sunmaktadır.