Aracılığıyla paylaş


Doku Çalışma Zamanı 1.2 (GA)

Microsoft Fabric Runtime, veri mühendisliği ve veri bilimi deneyimlerinin yürütülmesini ve yönetilmesini sağlayan Apache Spark tabanlı Azure ile tümleşik bir platformdur. Bu belge Çalışma Zamanı 1.2 bileşenlerini ve sürümlerini kapsar.

Runtime 1.2'nin başlıca bileşenleri şunlardır:

  • Apache Spark 3.4.1
  • İşletim Sistemi: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Python: 3.10
  • Delta Gölü: 2.4.0
  • R: 4.2.2

İpucu

Şu anda Çalışma Zamanı 1.3 olan üretim iş yükünüz için her zaman en son GA çalışma zamanı sürümünü kullanın.

Çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

Microsoft Fabric Runtime 1.2, tam Anaconda yüklemesi ve Java/Scala, Python ve R için yaygın olarak kullanılan kitaplıklar da dahil olmak üzere varsayılan düzey paketlerden oluşan bir koleksiyonla birlikte gelir. Bu kitaplıklar, Microsoft Fabric platformunda not defterleri veya işler kullanılırken otomatik olarak eklenir. Kitaplıkların tam listesi için belgelere bakın. Microsoft Fabric, hata düzeltmeleri, performans iyileştirmeleri ve güvenlik yamaları sağlayarak Çalışma Zamanı 1.2 için düzenli aralıklarla bakım güncelleştirmeleri sunar. Güncel kalmak, veri işleme görevleriniz için en iyi performansı ve güvenilirliği sağlar.

Spark Sürüm 3.4.1'in yeni özellikleri ve iyileştirmeleri

Apache Spark 3.4.0, 3.x satırındaki beşinci sürümdür. Açık kaynak topluluğu tarafından desteklenen bu sürümde 2.600'den fazla Jira bileti çözüldü. Spark Connect için bir Python istemcisi tanıtır, zaman uyumsuz ilerleme izleme ve Python durum bilgisi işleme ile Yapılandırılmış Akış'ı geliştirir. NumPy giriş desteğiyle Pandas API kapsamını genişletir, ANSI uyumluluğu ve yeni yerleşik işlevler aracılığıyla geleneksel veri ambarlarından geçişi basitleştirir. Ayrıca bellek profili oluşturma ile geliştirme üretkenliğini ve hata ayıklanabilirliğini artırır. Ayrıca Çalışma Zamanı 1.2, kararlılık düzeltmelerine odaklanan bir bakım sürümü olan Apache Spark 3.4.1'i temel alır.

Önemli noktalar

Hem Spark 3.4.0 hem de Spark 3.4.1'i ziyaret ederek belirli bir Apache Spark sürümü için sürüm notlarının tam sürümünü okuyun.

Yeni özel sorgu iyileştirmeleri

Spark'ta Eşzamanlı Yazma Desteği

'İşlem başarısız oldu: Belirtilen yol yok' iletisiyle 404 hatasıyla karşılaşmak, SQL INSERT INTO sorgusu kullanarak aynı tabloya paralel veri ekleme işlemleri yaparken sık karşılaşılan bir sorundur. Bu hata veri kaybına neden olabilir. Yeni özelliğimiz olan Dosya Çıktısı İşleme Algoritması bu sorunu çözerek müşterilerin paralel veri ekleme işlemini sorunsuz bir şekilde gerçekleştirmesini sağlar.

Bu özelliğe erişmek için Çalışma Zamanı 1.2'den (Spark 3.4) başlayarak varsayılan olarak etkinleştirilen özellik bayrağını etkinleştirin spark.sql.enable.concurrentWrites . Bu özellik diğer Spark 3 sürümlerinde de kullanılabilir olsa da, varsayılan olarak etkinleştirilmez. Bu özellik, her eşzamanlı işin aynı tablonun farklı bölümlerine dinamik olarak verilerin üzerine yazıldığı INSERT OVERWRITE sorgularının paralel yürütülmesini desteklemez. Bu amaçla Spark, ayarı spark.sql.sources.partitionOverwriteMode olarak yapılandırarak etkinleştirilebilen alternatif bir özellik sunar.

Başarısız işlerden dosyaları atlayan akıllı okumalar

Geçerli Spark işleme sisteminde, bir tablo işine ekleme başarısız olduğunda ancak bazı görevler başarılı olduğunda, başarılı görevler tarafından oluşturulan dosyalar başarısız işteki dosyalarla birlikte bulunur. Bu birlikte yaşama, başarılı ve başarısız işlere ait dosyaları ayırt etmek zorlaştığı için kullanıcıların kafa karışıklığına neden olabilir. Ayrıca, bir iş aynı tabloya eşzamanlı olarak veri eklerken bir iş tablodan okursa, okuma işi kaydedilmemiş verilere erişebilir. Yazma işi başarısız olursa, okuma işi yanlış verileri işleyebilecek.

Bayrağı spark.sql.auto.cleanup.enabled , bu sorunu ele alan yeni özelliğimizi denetler. Etkinleştirildiğinde Spark, tablodaki sorguları gerçekleştirirken spark.read veya seçtiğinde kaydedilmemiş okuma dosyalarını otomatik olarak atlar. Bu özellik etkinleştirilmeden önce yazılan dosyalar her zamanki gibi okunmaya devam ediyor.

Görünür değişiklikler şunlardır:

  • Tüm dosyalar artık dosya adlarına bir tid-{jobID} tanımlayıcı ekler.
  • _success Başarılı bir iş tamamlandığında genellikle çıkış konumunda oluşturulan işaretçi yerine yeni _committed_{jobID} bir işaretçi oluşturulur. Bu işaretleyici, başarılı İş Kimliklerini belirli dosya adlarıyla ilişkilendirir.
  • Kullanıcıların depolamayı yönetmek ve kaydedilmemiş dosyaları temizlemek için düzenli aralıklarla çalıştırabilecekleri yeni bir SQL komutu kullanıma sunulmuştur. Bu komutun söz dizimi aşağıdaki gibidir:
    • Belirli bir dizini temizlemek için: CLEANUP ('/path/to/dir') [RETAIN number HOURS];
    • Belirli bir tabloyu temizlemek için: CLEANUP [db_name.]table_name [RETAIN number HOURS]; Bu söz diziminde, path/to/dir temizlemenin gerekli olduğu konum URI'sini temsil eder ve number bekletme süresini temsil eden çift tür bir değerdir. Varsayılan saklama süresi yedi gün olarak ayarlanır.
  • varsayılan olarak olarak ayarlanan spark.sql.deleteUncommittedFilesWhileListing adlı falseyeni bir yapılandırma seçeneği kullanıma sunulmuştur. Bu seçeneğin etkinleştirilmesi, okunma sırasında kaydedilmemiş dosyaların otomatik olarak silinmesine neden olur, ancak bu senaryo okuma işlemlerini yavaşlatabilir. Bu bayrağı etkinleştirmek yerine küme boşta olduğunda temizleme komutunu el ile çalıştırmanız önerilir.

Çalışma Zamanı 1.1'den Çalışma Zamanı 1.2'ye geçiş kılavuzu

Apache Spark 3.3 tarafından desteklenen Çalışma Zamanı 1.1'den Apache Spark 3.4 tarafından desteklenen Çalışma Zamanı 1.2'ye geçiş yaparken resmi geçiş kılavuzunu gözden geçirin.

Delta Lake 2.4'ün yeni özellikleri ve iyileştirmeleri

Delta Lake, veri göllerinin üzerine bir göl evi mimarisi oluşturmayı sağlayan açık kaynak bir projedir. Delta Lake ACID işlemleri, ölçeklenebilir meta veri işlemesi sağlar ve mevcut veri göllerinin üzerinde akış ve toplu veri işlemeyi bir hale getirme.

Delta Lake özellikle şunları sunar:

  • Spark'taki ACID işlemleri : Seri hale getirilebilir yalıtım düzeyleri, okuyucuların tutarsız verileri asla görmemesini sağlar.
  • Ölçeklenebilir meta veri işleme: Milyarlarca dosyayı kolayca içeren petabayt ölçeğindeki tabloların tüm meta verilerini işlemek için Spark dağıtılmış işleme gücünü kullanır.
  • Akış ve toplu birleştirme : Delta Lake'teki tablo bir toplu iş tablosu, akış kaynağı ve havuzdur. Akış verileri alma, toplu geçmişe dönük doldurma, etkileşimli sorguların hepsi kutudan çıkar.
  • Şema zorlama: Alma sırasında hatalı kayıtların eklenmesini önlemek için şema çeşitlemelerini otomatik olarak işler.
  • Zaman yolculuğu: Veri sürümü oluşturma, geri alma işlemleri, tam geçmiş denetim kayıtları ve yeniden üretilebilir makine öğrenmesi denemeleri sağlar.
  • Upserts ve deletes: Değişiklik-veri yakalama, yavaş değişen boyut (SCD) işlemleri, akış upsert'leri gibi karmaşık kullanım örneklerini etkinleştirmek için birleştirme, güncelleştirme ve silme işlemlerini destekler.

Delta Lake 2.4 sürüm notlarının tam sürümünü okuyun.

Java, Scala, Python kitaplıkları için varsayılan düzey paketler

Java, Scala, Python ve ilgili sürümleri için tüm varsayılan düzey paketlerin listesi için sürüm notlarına bakın.