Referencja właściwości DLT

Artykuł
03/12/2025

Ten artykuł zawiera informacje dotyczące specyfikacji ustawień JSON biblioteki DLT i właściwości tabeli w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:

Konfiguracja potoku DLT
API REST potoków

konfiguracje potoku DLT

Pola
`id` Typ: `string` Unikatowy identyfikator globalny dla tego pipeline'u. Identyfikator jest przypisywany przez system i nie można go zmienić.
`name` Typ: `string` Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika.
`configuration` Typ: `object` Opcjonalna lista ustawień do dodania do konfiguracji Spark klastra, który będzie uruchamiał potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe DLT i dostępne dla zapytań potoku za pośrednictwem konfiguracji platformy Spark. Elementy muszą być sformatowane jako pary `key:value`.
`libraries` Typ: `array of objects` Tablica notesów zawierająca kod potoku i wymagane artefakty.
`clusters` Typ: `array of objects` Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku.
`development` Typ: `boolean` Flaga wskazująca, czy należy uruchomić potok `development` lub tryb `production`. Wartość domyślna to `true`
`notifications` Typ: `array of objects` Opcjonalny zbiór specyfikacji powiadomień e-mailowych, wysyłanych po zakończeniu aktualizacji potoku, gdy kończy się ona niepowodzeniem z możliwym do ponowienia błędem, niepowodzeniem z błędem, którego nie można ponowić, lub niepowodzeniem procesu.
`continuous` Typ: `boolean` Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Wartość domyślna to `false`.
`catalog` Typ: `string` Nazwa domyślnego katalogu dla pipeline'u, w którym publikowane są wszystkie zestawy danych i metadane związane z pipeline'em. Ustawienie tej wartości umożliwia katalog Unity dla potoku. Jeśli potok pozostanie bez ustawienia, zostanie opublikowany w starszym magazynie metadanych Hive przy użyciu lokalizacji określonej w `storage`. W starszym trybie publikowania określa katalog zawierający schemat docelowy, w którym publikowane są wszystkie zestawy danych pochodzące z bieżącego potoku. Zobacz live schema (starsza wersja).
`schema` Typ: `string` Nazwa domyślnego schematu potoku, w którym wszystkie zestawy danych i metadane potoku są domyślnie publikowane. Zobacz Ustaw katalog docelowy i schemat.
`target` (starsza wersja) Typ: `string` Nazwa schematu docelowego, w którym publikowane są wszystkie zestawy danych zdefiniowane w bieżącym potoku. Ustawienie `target` zamiast `schema` ustawia potok na używanie starszego trybu publikowania. Zobacz live schema (starsza wersja).
`storage` (starsza wersja) Typ: `string` Lokalizacja w systemie DBFS lub w magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. Jeśli ustawienie `storage` nie zostanie określone, system będzie domyślnie ustawiać lokalizację w `dbfs:/pipelines/`. Nie można zmienić ustawienia `storage` po utworzeniu potoku.
`channel` Typ: `string` Wersja środowiska uruchomieniowego DLT do użycia. Obsługiwane wartości to: `preview`, aby przetestować pipeline z nadchodzącymi zmianami w wersji środowiska uruchomieniowego. `current` do korzystania z bieżącej wersji środowiska uruchomieniowego. Pole `channel` jest opcjonalne. Wartość domyślna to `current`. Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych.
`edition` Wpisz `string` Edycja produktu DLT do uruchomienia rurociągu. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku: `CORE` do uruchamiania obciążeń związanych z przesyłaniem strumieniowym. `PRO`, aby uruchamiać pozyskiwanie strumieniowe i zmienianie obciążeń przechwytywania danych (CDC). `ADVANCED` do uruchamiania obciążeń związanych z przesyłaniem danych strumieniowych, obciążeń związanych z CDC i obciążeń wymagających założeń DLT w celu stosowania ograniczeń jakości danych. Pole `edition` jest opcjonalne. Wartość domyślna to `ADVANCED`.
`photon` Typ: `boolean` Flaga wskazująca, czy używać Co to jest Photon?, aby uruchomić potok. Photon to wysokowydajny silnik Spark w usłudze Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole `photon` jest opcjonalne. Wartość domyślna to `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Jeśli podczas aktualizacji potoku wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób przepływu przed niepowodzeniem aktualizacji potoku Ustawienie domyślne: dwie próby ponawiania prób. W przypadku wystąpienia niepowodzenia z możliwością ponawiania próby środowisko uruchomieniowe DLT próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę.
`pipelines.numUpdateRetryAttempts` Typ: `int` Jeśli podczas aktualizacji wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób aktualizacji przed trwałym niepowodzeniem aktualizacji. Ponawianie jest uruchamiane jako pełna aktualizacja. Ten parametr dotyczy tylko potoków działających w trybie produkcyjnym. Ponowne próby nie są podejmowane, jeśli potok działa w trybie programowania lub po uruchomieniu aktualizacji `Validate`. Domyślny: Pięć z uruchomionych potoków. Nieograniczone dla potoków ciągłych.

właściwości tabeli DLT

Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lakemożna ustawić następujące właściwości tabeli.

Właściwości tabeli
`pipelines.autoOptimize.managed` Ustawienie domyślne: `true` Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli.
`pipelines.autoOptimize.zOrderCols` Ustawienie domyślne: Brak Opcjonalny ciąg znaków zawierający listę nazw kolumn rozdzielanych przecinkami, według których należy uporządkować tę tabelę. Na przykład `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Ustawienie domyślne: `true` Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli.

interwał wyzwalania potoków

Można określić interwał wyzwalacza potoku dla całego potoku DLT lub w ramach deklaracji zestawu danych. Zobacz Ustawianie interwału wyzwalacza dla potoków ciągłych.

`pipelines.trigger.interval`
Wartość domyślna jest oparta na typie przepływu: Pięć sekund dla zapytań przesyłanych strumieniowo. Jedna minuta na pełne zapytania, gdy wszystkie dane wejściowe pochodzą ze źródeł Delta. Dziesięć minut na wykonanie pełnych zapytań, gdy niektóre źródła danych mogą nie być typu Delta. Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Wartość domyślna jest oparta na typie przepływu:

Pięć sekund dla zapytań przesyłanych strumieniowo.
Jedna minuta na pełne zapytania, gdy wszystkie dane wejściowe pochodzą ze źródeł Delta.
Dziesięć minut na wykonanie pełnych zapytań, gdy niektóre źródła danych mogą nie być typu Delta.

Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:

second, seconds
minute, minutes
hour, hours
day, days

Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

atrybuty klastra, które nie są konfigurowalne przez użytkownika

Ponieważ DLT zarządza cyklem życia klastra, wiele ustawień klastra jest ustalane przez DLT i nie można ich ręcznie skonfigurować ani w konfiguracji potoku, ani w zasadach klastra zastosowanych przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.

Pola
`cluster_name` DLT ustawia nazwy klastrów używanych do uruchamiania aktualizacji pipeline'u. Tych nazw nie można zastąpić.
`data_security_mode` `access_mode` Te wartości są automatycznie ustawiane przez system.
`spark_version` Klastry DLT działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić.
`autotermination_minutes` Ponieważ DLT zarządza logiką automatycznego zakończenia i ponownego użycia klastra, czas automatycznego zakończenia klastra nie może być nadpisany.
`runtime_engine` Chociaż można kontrolować to pole, włączając usługę Photon w swoim potoku, nie można ustawić tej wartości bezpośrednio.
`effective_spark_version` Ta wartość jest automatycznie ustawiana przez system.
`cluster_source` To pole jest ustawiane przez system i jest tylko do odczytu.
`docker_image` Ponieważ biblioteka DLT zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków.
`workload_type` Ta wartość jest ustawiana przez system i nie można jej zastąpić.

Udostępnij za pośrednictwem

Referencja właściwości DLT

konfiguracje potoku DLT

właściwości tabeli DLT

interwał wyzwalania potoków

atrybuty klastra, które nie są konfigurowalne przez użytkownika

Opinia

Dodatkowe zasoby