Aracılığıyla paylaş


DLT nitelikleri referansı

Bu makale, Azure Databricks'teki DLT JSON ayarı belirtimi ve tablo özellikleri için bir başvuru sağlar. Bu çeşitli özellikleri ve yapılandırmaları kullanma hakkında daha fazla ayrıntı için aşağıdaki makalelere bakın:

DLT işlem hattı yapılandırmaları

Alanları
id
Tür: string
Bu boru hattı için küresel olarak benzersiz bir tanımlayıcı. Tanımlayıcı sistem tarafından atanır ve değiştirilemez.
name
Tür: string
Bu işlem hattı için kullanıcı dostu bir ad. Ad, kullanıcı arabirimindeki işlem hattı işlerini tanımlamak için kullanılabilir.
configuration
Tür: object
İşlem hattını çalıştıracak kümenin Spark yapılandırmasına eklenecek isteğe bağlı ayarlar listesi. Bu ayarlar DLT çalışma zamanı tarafından okunur ve Spark yapılandırması üzerinden boru hattı sorgularına sunulur.
Öğeler key:value çiftleri olarak biçimlendirilmelidir.
libraries
Tür: array of objects
İşlem hattı kodunu ve gerekli nesneleri içeren birden fazla not defteri dizisi.
clusters
Tür: array of objects
Kümelerin işlem hattını çalıştırması için bir özellikler dizisi.
Bu belirtilmezse, işlem hatları işlem hattı için otomatik olarak bir varsayılan küme yapılandırması seçer.
development
Tür: boolean
İşlem hattının içinde çalıştırılıp çalıştırılmayacağını gösteren bayrak
development veya production modu.
Varsayılan değer true
notifications
Tür: array of objects
Bir işlem hattı güncellemesi tamamlandığında, yeniden denenebilir bir hatayla başarısız olduğunda, yeniden denenemeyen bir hatayla başarısız olduğunda veya bir akış başarısız olduğunda gönderilecek e-posta bildirimleri için isteğe bağlı bir özellikler dizisi.
continuous
Tür: boolean
İşlem hattının sürekli çalıştırılıp çalıştırılmayacağını gösteren bir bayrak.
Varsayılan değer false.
catalog
Tür: string
İşlem hattı için tüm veri kümelerinin ve meta verilerin yayımlandığı işlem hattı için varsayılan kataloğun adı. Bu değerin ayarlanması işlem hattı için Unity Kataloğu'nu etkinleştirir.
Ayarlanmamışsa, işlem hattı storage'da belirtilen konumu kullanarak eski Hive meta veri deposuna yayımlar.
Eski yayımlama modunda, geçerli işlem hattındaki tüm veri kümelerinin yayımlandığı hedef şemayı içeren kataloğu belirtir. Bkz. LIVE şeması (eski).
schema
Tür: string
İşlem hattı için tüm veri kümelerinin ve meta verilerin varsayılan olarak yayımlandığı işlem hattı için varsayılan şemanın adı. Bkz. Hedef kataloğu ve şemayı ayarla.
target (eski)
Tür: string
Geçerli işlem hattında tanımlanan tüm veri kümelerinin yayımlandığı hedef şemanın adı.
target yerine schema ayarlandığında işlem hattı eski yayımlama modunu kullanacak şekilde yapılandırılır. Bkz. LIVE şeması (eski).
storage (eski)
Tür: string
DBFS veya bulut depolamada işlem hattı yürütmesi için gereken çıktı verilerinin ve meta verilerin depolandığı bir konum. Tablolar ve meta veriler bu konumun alt dizinlerinde depolanır.
storage ayarı belirtilmediğinde, sistem varsayılan olarak dbfs:/pipelines/konumunda bir konuma ayarlanır.
Bir işlem hattı oluşturulduktan sonra storage ayarı değiştirilemez.
channel
Tür: string
Kullanılacak DLT çalışma zamanının sürümü. Desteklenen değerler şunlardır:
  • çalışma zamanı sürümünde yapılacak değişikliklerle işlem hattınızı test etmek için preview.
  • current, geçerli çalışma zamanı sürümünü kullanmak için.

channel alanı isteğe bağlıdır. Varsayılan değer şudur:
current. Databricks, üretim iş yükleri için geçerli çalışma zamanı sürümünün kullanılmasını önerir.
edition
Yaz string
İşlem hattını çalıştırmak için DLT ürün sürümü. Bu ayar, işlem hattınızın gereksinimlerine göre en iyi ürün sürümünü seçmenize olanak tanır:
  • CORE akış alma iş yüklerini çalıştırmak için.
  • PRO, akış veri alımı ve değişiklik veri yakalama (CDC) iş yüklerini çalıştırmak için kullanılır.
  • ADVANCED akış verisi alma iş yüklerini, CDC iş yüklerini ve veri kalitesi kısıtlamalarını uygulamak için DLT beklentileri gerektiren iş yüklerini çalıştırmak üzere.

edition alanı isteğe bağlıdır. Varsayılan değer şudur:
ADVANCED.
photon
Tür: boolean
Kullanılıp kullanılmayacağını gösteren bayrak Photon nedir? İşlem hattını çalıştırmak için. Photon, Azure Databricks yüksek performanslı Spark altyapısıdır. Foton özellikli işlem hatları, Photon olmayan işlem hatlarından farklı bir ücretle faturalandırılır.
photon alanı isteğe bağlıdır. Varsayılan değer false.
pipelines.maxFlowRetryAttempts
Tür: int
İşlem hattı güncelleştirmesi sırasında yeniden denenebilir bir hata oluşursa, işlem hattı güncelleştirmesi başarısız olmadan önce bir akışı yeniden denemenin en fazla sayısıdır
Varsayılan: İki yeniden deneme denemesi. Yeniden denenebilir bir hata oluştuğunda, DLT çalışma zamanı sistemi, ilk deneme dahil olmak üzere işlemi üç kez çalıştırmayı dener.
pipelines.numUpdateRetryAttempts
Tür: int
Güncelleştirme sırasında yeniden denenebilir bir hata oluşursa, bu, güncelleştirmeyi kalıcı olarak başarısız olmadan önce yeniden deneme sayısı üst sınırıdır. Yeniden deneme tam güncelleştirme olarak çalıştırılır.
Bu parametre yalnızca üretim modunda çalışan işlem hatları için geçerlidir. İşlem hattınız geliştirme modunda çalışırken veya bir Validate güncelleştirmesi çalıştırdığınızda yeniden deneme yapılmaz.
Varsayılan:
  • Tetiklenen işlem hatları için beş tanesi.
  • Sürekli boru hatları için sınırsız.

DLT tablo özellikleri

Delta Laketarafından desteklenen tablo özelliklerine ek olarak, aşağıdaki tablo özelliklerini ayarlayabilirsiniz.

Tablo özellikleri
pipelines.autoOptimize.managed
Varsayılan: true
Bu tablonun otomatik olarak zamanlanmış iyileştirmesini etkinleştirir veya devre dışı bırakır.
pipelines.autoOptimize.zOrderCols
Varsayılan: Yok
Bu tabloyu sıralamak için virgülle ayrılmış sütun adlarının listesini içeren isteğe bağlı bir dize. Örneğin, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed
Varsayılan: true
Bu tablo için tam yenilemeye izin verilip verilmeyeceğini denetler.

Boru hatlarını tetikleme aralığı

DLT işlem hattının tamamı için veya bir veri kümesi bildiriminin parçası olarak işlem hattı tetikleyici aralığı belirtebilirsiniz. bkz. Sürekli işlem hatları için tetikleyici aralığını ayarlama.

pipelines.trigger.interval
Varsayılan değer akış türünü temel alır:
  • Akış sorguları için beş saniye.
  • Tüm giriş verileri Delta kaynaklarından geldiğinde tam sorgular için bir dakika.
  • Delta olmayan bazı veri kaynaklarıyla ilgili sorguların tamamlanması on dakika sürebilir.

Değer, bir sayı ve zaman birimidir. Geçerli zaman birimleri şunlardır:
  • second, seconds
  • minute, minutes
  • hour, hours
  • day, days

Değeri tanımlarken tekil veya çoğul birimi kullanabilirsiniz, örneğin:
  • {"pipelines.trigger.interval" : "1 hour"}
  • {"pipelines.trigger.interval" : "10 seconds"}
  • {"pipelines.trigger.interval" : "30 second"}
  • {"pipelines.trigger.interval" : "1 minute"}
  • {"pipelines.trigger.interval" : "10 minutes"}
  • {"pipelines.trigger.interval" : "10 minute"}

Kullanıcı ayarlanamaz Küme öznitelikleri

DLT, küme yaşam döngülerini yönettiği için, birçok küme ayarı DLT tarafından ayarlanır ve kullanıcılar tarafından işlem hattı yapılandırmasında veya işlem hattı tarafından kullanılan bir küme ilkesinde el ile yapılandırılamaz. Aşağıdaki tabloda bu ayarlar ve bunların neden el ile ayarlanamadığı listelenir.

Alanları
cluster_name
DLT, işlem hattı güncelleştirmelerini çalıştırmak için kullanılan kümelerin adlarını ayarlar. Bu adlar geçersiz kılınamaz.
data_security_mode
access_mode
Bu değerler sistem tarafından otomatik olarak ayarlanır.
spark_version
DLT kümeleri, Databricks Runtime'ın en son özellikleri içerecek şekilde sürekli güncelleştirilen özel bir sürümünde çalışır. Spark sürümü Databricks Runtime sürümüyle birlikte gelir ve geçersiz kılınamaz.
autotermination_minutes
DLT küme otomatik sonlandırma ve yeniden kullanım mantığını yönettiğinden, küme otomatik sonlandırma süresi geçersiz kılınamaz.
runtime_engine
İşlem hattınız için Photon'ı etkinleştirerek bu alanı denetleyebilirsiniz ancak bu değeri doğrudan ayarlayamazsınız.
effective_spark_version
Bu değer sistem tarafından otomatik olarak ayarlanır.
cluster_source
Bu alan sistem tarafından ayarlanır ve salt okunurdur.
docker_image
DLT küme yaşam döngüsünü yönettiğinden, işlem hattı kümeleriyle özel bir kapsayıcı kullanamazsınız.
workload_type
Bu değer sistem tarafından ayarlanır ve geçersiz kılınamaz.