Aracılığıyla paylaş


Azure Databricks'te Apache Spark

Bu makalede Apache Spark'ın Azure Databricks ve Databricks Veri Zekası Platformu ile ilişkisi açıklanmaktadır.

Apache Spark, Azure Databricks platformunun merkezinde yer alır ve işlem kümelerini ve SQL ambarlarını güçlendiren teknolojidir. Azure Databricks, Apache Spark iş yüklerini çalıştırmak için verimli ve basit bir platform sağlayan, Apache Spark için iyileştirilmiş bir platformdur.

Spark dönüşümleri ve eylemleri

Apache Spark'ta tüm işlemler dönüştürmeler veya eylemler olarak tanımlanır.

  • Dönüştürmeler: plana bazı işleme mantığı ekleyin. Verileri okuma, birleştirmeler, toplamalar ve tür ataması örnek olarak verilebilir.
  • Eylemler: bir sonucu değerlendirmek ve çıkarmak için işleme mantığını tetikleme. Yazma işlemleri, sonuçları görüntüleme veya önizleme, el ile önbelleğe alma veya satır sayısını alma örnekleri verilebilir.

Apache Spark gecikmeli bir yürütme modeli kullanır, yani bir işlem koleksiyonu tarafından tanımlanan mantığın hiçbiri bir eylem tetiklenene kadar değerlendirilmez. Mantığın gereksiz yere değerlendirilmesini önlemek için yalnızca eylemleri kullanarak sonuçları hedef tabloya geri kaydedin.

Eylemler mantığı iyileştirmeye yönelik bir işleme performans sorununu temsil ettiğinden, Azure Databricks en iyi mantık yürütmeyi sağlamak için Apache Spark'ta zaten bulunanların üzerine çok sayıda iyileştirme eklemiştir. Bu iyileştirmeler, belirli bir eylem tarafından tetiklenen tüm dönüştürmeleri bir kerede dikkate alır ve verilerin fiziksel düzenine göre en uygun planı bulur. Verileri el ile önbelleğe almak veya üretim işlem hatlarındaki önizleme sonuçlarını döndürmek bu iyileştirmeleri kesintiye uğratabilir ve maliyet ve gecikme süresinde artışa yol açabilir.

Apache Spark'ın Azure Databricks ile ilişkisi nedir?

Databricks şirketi Apache Spark'ın özgün oluşturucuları tarafından kuruldu. açık kaynak bir yazılım projesi olarak Apache Spark, Databricks de dahil olmak üzere birçok üst düzey şirketten taahhütte bulunanlara sahiptir.

Databricks özellikleri geliştirmeye ve Apache Spark'a yayımlamaya devam eder. Databricks Runtime, Apache Spark'ın C++ dilinde yeniden yazılmış ve optimize edilmiş bir sürümü olan Photon dahil olmak üzere, Apache Spark'ı temel alan ve genişleten ek iyileştirmeler ve özel özellikler içerir.

Apache Spark, Azure Databricks'te nasıl çalışır?

Azure Databricks'te bir işlem kümesi veya SQL ambarı dağıttığınızda Apache Spark yapılandırılır ve sanal makinelere dağıtılır. Bunlar Sizin için Azure Databricks tarafından yönetildiğinden spark bağlamı veya Spark oturumu yapılandırmanız veya başlatmanız gerekmez.

Azure Databricks'i Apache Spark kullanmadan kullanabilir miyim?

Azure Databricks çeşitli iş yüklerini destekler ve Databricks Runtime'da açık kaynak kitaplıkları içerir. Databricks SQL, arka planda Apache Spark kullanır, ancak son kullanıcılar veritabanı nesneleri oluşturmak ve sorgulamak için standart SQL söz dizimini kullanır.

Machine Learning için Databricks Runtime ML iş yükleri için iyileştirilmiştir ve birçok veri bilimcisi Azure Databricks üzerinde çalışırken TensorFlow ve SciKit Learn gibi birincil açık kaynak kitaplıklarını kullanır. Azure Databricks tarafından dağıtılan ve yönetilen işlem kaynaklarına göre rastgele iş yükleri zamanlamak için işleri kullanabilirsiniz.

Azure Databricks'te Apache Spark neden kullanılır?

Databricks platformu, işletmenizle ölçeklendirilen kurumsal çözümler geliştirmek ve dağıtmak için güvenli, işbirliğine dayalı bir ortam sağlar. Databricks çalışanları dünyanın en bilgili Apache Spark bakımcıları ve kullanıcılarının birçoğuna dahildir. Şirket, kullanıcıların Apache Spark çalıştırmak için en hızlı ortama erişebilmesini sağlamak için sürekli olarak yeni iyileştirmeler geliştirip yayınlar.

Azure Databricks'te Apache Spark kullanma hakkında nasıl daha fazla bilgi edinebilirim?

Azure Databricks'te Apache Spark'ı kullanmaya başlamak için hemen başlayın! Apache Spark DataFrames öğreticisi Python, R veya Scala'da verileri yükleme ve dönüştürme işleminde yol gösterir. Bkz . Öğretici: Apache Spark DataFrames kullanarak verileri yükleme ve dönüştürme.

Spark'ta Python, R ve Scala dil desteği hakkında ek bilgiler Azure Databricks'teki PySpark, SparkR'ye genel bakış ve Scala geliştiricileri için Azure Databricks bölümlerinde ve Apache Spark API'leri başvurusu bölümünde bulunur.