Referencja właściwości DLT
Ten artykuł zawiera informacje dotyczące specyfikacji ustawień JSON biblioteki DLT i właściwości tabeli w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:
- Konfiguracja potoku DLT
- API REST potoków
konfiguracje potoku DLT
Pola |
---|
id Typ: string Unikatowy identyfikator globalny dla tego pipeline'u. Identyfikator jest przypisywany przez system i nie można go zmienić. |
name Typ: string Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika. |
configuration Typ: object Opcjonalna lista ustawień do dodania do konfiguracji Spark klastra, który będzie uruchamiał potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe DLT i dostępne dla zapytań potoku za pośrednictwem konfiguracji platformy Spark. Elementy muszą być sformatowane jako pary key:value . |
libraries Typ: array of objects Tablica notesów zawierająca kod potoku i wymagane artefakty. |
clusters Typ: array of objects Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku. |
development Typ: boolean Flaga wskazująca, czy należy uruchomić potok development lub tryb production .Wartość domyślna to true |
notifications Typ: array of objects Opcjonalny zbiór specyfikacji powiadomień e-mailowych, wysyłanych po zakończeniu aktualizacji potoku, gdy kończy się ona niepowodzeniem z możliwym do ponowienia błędem, niepowodzeniem z błędem, którego nie można ponowić, lub niepowodzeniem procesu. |
continuous Typ: boolean Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Wartość domyślna to false . |
catalog Typ: string Nazwa domyślnego katalogu dla pipeline'u, w którym publikowane są wszystkie zestawy danych i metadane związane z pipeline'em. Ustawienie tej wartości umożliwia katalog Unity dla potoku. Jeśli potok pozostanie bez ustawienia, zostanie opublikowany w starszym magazynie metadanych Hive przy użyciu lokalizacji określonej w storage .W starszym trybie publikowania określa katalog zawierający schemat docelowy, w którym publikowane są wszystkie zestawy danych pochodzące z bieżącego potoku. Zobacz live schema (starsza wersja). |
schema Typ: string Nazwa domyślnego schematu potoku, w którym wszystkie zestawy danych i metadane potoku są domyślnie publikowane. Zobacz Ustaw katalog docelowy i schemat. |
target (starsza wersja)Typ: string Nazwa schematu docelowego, w którym publikowane są wszystkie zestawy danych zdefiniowane w bieżącym potoku. Ustawienie target zamiast schema ustawia potok na używanie starszego trybu publikowania. Zobacz live schema (starsza wersja). |
storage (starsza wersja)Typ: string Lokalizacja w systemie DBFS lub w magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. Jeśli ustawienie storage nie zostanie określone, system będzie domyślnie ustawiać lokalizację w dbfs:/pipelines/ .Nie można zmienić ustawienia storage po utworzeniu potoku. |
channel Typ: string Wersja środowiska uruchomieniowego DLT do użycia. Obsługiwane wartości to:
Pole channel jest opcjonalne. Wartość domyślna tocurrent . Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych. |
edition Wpisz string Edycja produktu DLT do uruchomienia rurociągu. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku:
Pole edition jest opcjonalne. Wartość domyślna toADVANCED . |
photon Typ: boolean Flaga wskazująca, czy używać Co to jest Photon?, aby uruchomić potok. Photon to wysokowydajny silnik Spark w usłudze Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole photon jest opcjonalne. Wartość domyślna to false . |
pipelines.maxFlowRetryAttempts Typ: int Jeśli podczas aktualizacji potoku wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób przepływu przed niepowodzeniem aktualizacji potoku Ustawienie domyślne: dwie próby ponawiania prób. W przypadku wystąpienia niepowodzenia z możliwością ponawiania próby środowisko uruchomieniowe DLT próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę. |
pipelines.numUpdateRetryAttempts Typ: int Jeśli podczas aktualizacji wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób aktualizacji przed trwałym niepowodzeniem aktualizacji. Ponawianie jest uruchamiane jako pełna aktualizacja. Ten parametr dotyczy tylko potoków działających w trybie produkcyjnym. Ponowne próby nie są podejmowane, jeśli potok działa w trybie programowania lub po uruchomieniu aktualizacji Validate .Domyślny:
|
właściwości tabeli DLT
Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lakemożna ustawić następujące właściwości tabeli.
Właściwości tabeli |
---|
pipelines.autoOptimize.managed Ustawienie domyślne: true Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli. |
pipelines.autoOptimize.zOrderCols Ustawienie domyślne: Brak Opcjonalny ciąg znaków zawierający listę nazw kolumn rozdzielanych przecinkami, według których należy uporządkować tę tabelę. Na przykład pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Ustawienie domyślne: true Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli. |
interwał wyzwalania potoków
Można określić interwał wyzwalacza potoku dla całego potoku DLT lub w ramach deklaracji zestawu danych. Zobacz Ustawianie interwału wyzwalacza dla potoków ciągłych.
pipelines.trigger.interval |
---|
Wartość domyślna jest oparta na typie przepływu:
Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:
Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:
|
atrybuty klastra, które nie są konfigurowalne przez użytkownika
Ponieważ DLT zarządza cyklem życia klastra, wiele ustawień klastra jest ustalane przez DLT i nie można ich ręcznie skonfigurować ani w konfiguracji potoku, ani w zasadach klastra zastosowanych przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.
Pola |
---|
cluster_name DLT ustawia nazwy klastrów używanych do uruchamiania aktualizacji pipeline'u. Tych nazw nie można zastąpić. |
data_security_mode access_mode Te wartości są automatycznie ustawiane przez system. |
spark_version Klastry DLT działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić. |
autotermination_minutes Ponieważ DLT zarządza logiką automatycznego zakończenia i ponownego użycia klastra, czas automatycznego zakończenia klastra nie może być nadpisany. |
runtime_engine Chociaż można kontrolować to pole, włączając usługę Photon w swoim potoku, nie można ustawić tej wartości bezpośrednio. |
effective_spark_version Ta wartość jest automatycznie ustawiana przez system. |
cluster_source To pole jest ustawiane przez system i jest tylko do odczytu. |
docker_image Ponieważ biblioteka DLT zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków. |
workload_type Ta wartość jest ustawiana przez system i nie można jej zastąpić. |