Azure Databricks'te iyileştirme önerileri
Azure Databricks, büyük ölçekli ETL işlemeden geçici, etkileşimli sorgulara kadar birçok farklı iş yükünü destekleyen birçok iyileştirme sağlar. Bu iyileştirmelerin çoğu otomatik olarak gerçekleşir. Avantajlarını yalnızca Azure Databricks kullanarak elde edersiniz. Ayrıca Databricks Runtime özelliklerinin çoğu, Azure Databricks'te tablo oluşturmak için kullanılan varsayılan biçim olan Delta Lake'i gerektirir.
Azure Databricks, çoğu iş yükünü en iyi duruma getiren varsayılan değerleri yapılandırıyor. Ancak bazı durumlarda yapılandırma ayarlarının değiştirilmesi performansı artırır.
Databricks Runtime performans geliştirmeleri
Not
En yeni performans geliştirmelerinden yararlanmak için en son Databricks Runtime'ı kullanın. Burada belgelenen tüm davranışlar Databricks Runtime 10.4 LTS ve üzerinde varsayılan olarak etkindir.
- Disk önbelleğe alma, işlem kümelerine bağlı disk birimlerine veri yükleyerek Parquet veri dosyalarında yinelenen okumaları hızlandırır.
- Dinamik dosya ayıklama, sorgu önkoşullarıyla eşleşen veri dosyaları içermeyen dizinleri atlayarak sorgu performansını artırır.
-
Karışık birleştirmenin düşük olması, işlemler tarafından
MERGE
yeniden yazılan veri dosyalarının sayısını azaltır ve kümeleri geri kazanmaZORDER
gereksinimini azaltır. - Apache Spark 3.0, birçok işlem için gelişmiş performans sağlayan uyarlamalı sorgu yürütmeyi kullanıma sunar.
Gelişmiş performans için Databricks önerileri
- Kaynak veri kümelerinin derin veya sığ kopyalarını oluşturmak için Azure Databricks'te tabloları
kopyalayabilirsiniz. - maliyet tabanlı iyileştirici tablo istatistiklerinden yararlanarak sorgu performansını hızlandırır.
- Dizeleri ayrıştırmadan JSON dizeleriyle etkileşime geçmek için Spark SQL'i kullanabilirsiniz.
- Daha yüksek sıralı işlevler , yaygın Spark işleçleri olmayan birçok işlem için yerleşik, iyileştirilmiş performans sağlar. Daha yüksek sıralı işlevler, kullanıcı tanımlı işlevlere göre performans avantajı sağlar.
- Azure Databricks diziler, yapılar ve JSON dizeleri dahil olmak üzere karmaşık veri türleriyle çalışmaya yönelik bir dizi yerleşik işleç ve özel söz dizimi sağlar.
- Aralık birleşimleri için ayarları el ile ayarlayabilirsiniz. Bkz. Aralığı katılma optimizasyonu.
Kabul etme davranışları
- Azure Databricks varsayılan olarak bir yazma serileştirilebilir yalıtım garantisi sağlar; Yalıtım düzeyini serileştirilebilir olarak değiştirmek eşzamanlı işlemler için aktarım hızını azaltabilir, ancak okuma seri hale getirilebilirlik gerektiğinde gerekli olabilir.
- Belirli bir koşulla eşleşen kayıtlar içermeyen veri dosyalarını tarama olasılığını azaltmak için bloom filtre dizinlerini kullanabilirsiniz.