Doku Çalışma Zamanı 1.2 (GA)
Microsoft Fabric Runtime, veri mühendisliği ve veri bilimi deneyimlerinin yürütülmesini ve yönetilmesini sağlayan Apache Spark tabanlı Azure ile tümleşik bir platformdur. Bu belge Çalışma Zamanı 1.2 bileşenlerini ve sürümlerini kapsar.
Runtime 1.2'nin başlıca bileşenleri şunlardır:
- Apache Spark 3.4.1
- İşletim Sistemi: Mariner 2.0
- Java: 11
- Scala: 2.12.17
- Python: 3.10
- Delta Gölü: 2.4.0
- R: 4.2.2
İpucu
Şu anda Çalışma Zamanı 1.3 olan üretim iş yükünüz için her zaman en son GA çalışma zamanı sürümünü kullanın.
Microsoft Fabric Runtime 1.2, tam Anaconda yüklemesi ve Java/Scala, Python ve R için yaygın olarak kullanılan kitaplıklar da dahil olmak üzere varsayılan düzey paketlerden oluşan bir koleksiyonla birlikte gelir. Bu kitaplıklar, Microsoft Fabric platformunda not defterleri veya işler kullanılırken otomatik olarak eklenir. Kitaplıkların tam listesi için belgelere bakın. Microsoft Fabric, hata düzeltmeleri, performans iyileştirmeleri ve güvenlik yamaları sağlayarak Çalışma Zamanı 1.2 için düzenli aralıklarla bakım güncelleştirmeleri sunar. Güncel kalmak, veri işleme görevleriniz için en iyi performansı ve güvenilirliği sağlar.
Spark Sürüm 3.4.1'in yeni özellikleri ve iyileştirmeleri
Apache Spark 3.4.0, 3.x satırındaki beşinci sürümdür. Açık kaynak topluluğu tarafından desteklenen bu sürümde 2.600'den fazla Jira bileti çözüldü. Spark Connect için bir Python istemcisi tanıtır, zaman uyumsuz ilerleme izleme ve Python durum bilgisi işleme ile Yapılandırılmış Akış'ı geliştirir. NumPy giriş desteğiyle Pandas API kapsamını genişletir, ANSI uyumluluğu ve yeni yerleşik işlevler aracılığıyla geleneksel veri ambarlarından geçişi basitleştirir. Ayrıca bellek profili oluşturma ile geliştirme üretkenliğini ve hata ayıklanabilirliğini artırır. Ayrıca Çalışma Zamanı 1.2, kararlılık düzeltmelerine odaklanan bir bakım sürümü olan Apache Spark 3.4.1'i temel alır.
Önemli noktalar
Hem Spark 3.4.0 hem de Spark 3.4.1'i ziyaret ederek belirli bir Apache Spark sürümü için sürüm notlarının tam sürümünü okuyun.
Yeni özel sorgu iyileştirmeleri
Spark'ta Eşzamanlı Yazma Desteği
'İşlem başarısız oldu: Belirtilen yol yok' iletisiyle 404 hatasıyla karşılaşmak, SQL INSERT INTO sorgusu kullanarak aynı tabloya paralel veri ekleme işlemleri yaparken sık karşılaşılan bir sorundur. Bu hata veri kaybına neden olabilir. Yeni özelliğimiz olan Dosya Çıktısı İşleme Algoritması bu sorunu çözerek müşterilerin paralel veri ekleme işlemini sorunsuz bir şekilde gerçekleştirmesini sağlar.
Bu özelliğe erişmek için Çalışma Zamanı 1.2'den (Spark 3.4) başlayarak varsayılan olarak etkinleştirilen özellik bayrağını etkinleştirin spark.sql.enable.concurrentWrites
. Bu özellik diğer Spark 3 sürümlerinde de kullanılabilir olsa da, varsayılan olarak etkinleştirilmez. Bu özellik, her eşzamanlı işin aynı tablonun farklı bölümlerine dinamik olarak verilerin üzerine yazıldığı INSERT OVERWRITE sorgularının paralel yürütülmesini desteklemez. Bu amaçla Spark, ayarı spark.sql.sources.partitionOverwriteMode
olarak yapılandırarak etkinleştirilebilen alternatif bir özellik sunar.
Başarısız işlerden dosyaları atlayan akıllı okumalar
Geçerli Spark işleme sisteminde, bir tablo işine ekleme başarısız olduğunda ancak bazı görevler başarılı olduğunda, başarılı görevler tarafından oluşturulan dosyalar başarısız işteki dosyalarla birlikte bulunur. Bu birlikte yaşama, başarılı ve başarısız işlere ait dosyaları ayırt etmek zorlaştığı için kullanıcıların kafa karışıklığına neden olabilir. Ayrıca, bir iş aynı tabloya eşzamanlı olarak veri eklerken bir iş tablodan okursa, okuma işi kaydedilmemiş verilere erişebilir. Yazma işi başarısız olursa, okuma işi yanlış verileri işleyebilecek.
Bayrağı spark.sql.auto.cleanup.enabled
, bu sorunu ele alan yeni özelliğimizi denetler. Etkinleştirildiğinde Spark, tablodaki sorguları gerçekleştirirken spark.read
veya seçtiğinde kaydedilmemiş okuma dosyalarını otomatik olarak atlar. Bu özellik etkinleştirilmeden önce yazılan dosyalar her zamanki gibi okunmaya devam ediyor.
Görünür değişiklikler şunlardır:
- Tüm dosyalar artık dosya adlarına bir
tid-{jobID}
tanımlayıcı ekler. -
_success
Başarılı bir iş tamamlandığında genellikle çıkış konumunda oluşturulan işaretçi yerine yeni_committed_{jobID}
bir işaretçi oluşturulur. Bu işaretleyici, başarılı İş Kimliklerini belirli dosya adlarıyla ilişkilendirir. - Kullanıcıların depolamayı yönetmek ve kaydedilmemiş dosyaları temizlemek için düzenli aralıklarla çalıştırabilecekleri yeni bir SQL komutu kullanıma sunulmuştur. Bu komutun söz dizimi aşağıdaki gibidir:
- Belirli bir dizini temizlemek için:
CLEANUP ('/path/to/dir') [RETAIN number HOURS];
- Belirli bir tabloyu temizlemek için:
CLEANUP [db_name.]table_name [RETAIN number HOURS];
Bu söz diziminde,path/to/dir
temizlemenin gerekli olduğu konum URI'sini temsil eder venumber
bekletme süresini temsil eden çift tür bir değerdir. Varsayılan saklama süresi yedi gün olarak ayarlanır.
- Belirli bir dizini temizlemek için:
- varsayılan olarak olarak ayarlanan
spark.sql.deleteUncommittedFilesWhileListing
adlıfalse
yeni bir yapılandırma seçeneği kullanıma sunulmuştur. Bu seçeneğin etkinleştirilmesi, okunma sırasında kaydedilmemiş dosyaların otomatik olarak silinmesine neden olur, ancak bu senaryo okuma işlemlerini yavaşlatabilir. Bu bayrağı etkinleştirmek yerine küme boşta olduğunda temizleme komutunu el ile çalıştırmanız önerilir.
Çalışma Zamanı 1.1'den Çalışma Zamanı 1.2'ye geçiş kılavuzu
Apache Spark 3.3 tarafından desteklenen Çalışma Zamanı 1.1'den Apache Spark 3.4 tarafından desteklenen Çalışma Zamanı 1.2'ye geçiş yaparken resmi geçiş kılavuzunu gözden geçirin.
Delta Lake 2.4'ün yeni özellikleri ve iyileştirmeleri
Delta Lake, veri göllerinin üzerine bir göl evi mimarisi oluşturmayı sağlayan açık kaynak bir projedir. Delta Lake ACID işlemleri, ölçeklenebilir meta veri işlemesi sağlar ve mevcut veri göllerinin üzerinde akış ve toplu veri işlemeyi bir hale getirme.
Delta Lake özellikle şunları sunar:
- Spark'taki ACID işlemleri : Seri hale getirilebilir yalıtım düzeyleri, okuyucuların tutarsız verileri asla görmemesini sağlar.
- Ölçeklenebilir meta veri işleme: Milyarlarca dosyayı kolayca içeren petabayt ölçeğindeki tabloların tüm meta verilerini işlemek için Spark dağıtılmış işleme gücünü kullanır.
- Akış ve toplu birleştirme : Delta Lake'teki tablo bir toplu iş tablosu, akış kaynağı ve havuzdur. Akış verileri alma, toplu geçmişe dönük doldurma, etkileşimli sorguların hepsi kutudan çıkar.
- Şema zorlama: Alma sırasında hatalı kayıtların eklenmesini önlemek için şema çeşitlemelerini otomatik olarak işler.
- Zaman yolculuğu: Veri sürümü oluşturma, geri alma işlemleri, tam geçmiş denetim kayıtları ve yeniden üretilebilir makine öğrenmesi denemeleri sağlar.
- Upserts ve deletes: Değişiklik-veri yakalama, yavaş değişen boyut (SCD) işlemleri, akış upsert'leri gibi karmaşık kullanım örneklerini etkinleştirmek için birleştirme, güncelleştirme ve silme işlemlerini destekler.
Delta Lake 2.4 sürüm notlarının tam sürümünü okuyun.
Java, Scala, Python kitaplıkları için varsayılan düzey paketler
Java, Scala, Python ve ilgili sürümleri için tüm varsayılan düzey paketlerin listesi için sürüm notlarına bakın.
İlgili içerik
- Dokuda Apache Spark Çalışma Zamanları hakkında bilgi edinin - Genel Bakış, Sürüm Oluşturma, Birden Çok Çalışma Zamanı Desteği ve Delta Lake Protokolü Yükseltme