設定 DLT 管線
本文說明使用工作區 UI 之 DLT 管線的基本設定。
Databricks 建議使用無伺服器開發新的管線。 如需無伺服器管線的設定指示,請參閱 設定無伺服器 DLT 管線。
本文中的組態指示使用 Unity 目錄。 若需有關使用舊版 Hive 中繼存放區來設定管線的詳細指示,請參閱 使用 DLT 管線配合舊版 Hive 中繼存放區。
本文討論管線目前預設發佈模式的功能。 在 2025 年 2 月 5 日之前建立的管線可能會使用舊版發布模式和 LIVE
虛擬架構。 請參閱 LIVE 架構 (舊版)。
注意
UI 有選項可在 JSON 中顯示和編輯設定。 您可以使用UI或 JSON 規格來設定大部分的設定。 某些進階選項只能使用 JSON 組態。
將管線部署到新環境或使用 CLI 或 REST API時,JSON 組態檔也很有用。
如需 DLT JSON 組態設定的完整參考,請參閱 DLT 管線組態。
設定新的 DLT 管線
若要設定新的 DLT 管線,請執行下列動作:
- 點擊側邊欄中的 DLT。
- 點選 「建立管線」。
- 提供唯一的 管線名稱。
- (選擇性)使用
檔案選擇器,將筆記本和工作區檔案設定為 原始程式碼。
- 如果您未新增任何程式源碼,則會為工作流程建立新的筆記本。 筆記本會在使用者目錄中的新目錄中建立,而且在您建立管線之後,[管線詳細數據] 窗格中的 [原始程式碼] 欄位中會顯示存取此筆記本的連結。
- 當您建立管線後,可以使用顯示在 管線詳細資料 面板中 [原始程式碼] 欄位下的 URL 來存取這個筆記本。
- 使用 新增原始程式碼 按鈕來添加其他原始程式碼資產。
- 如果您未新增任何程式源碼,則會為工作流程建立新的筆記本。 筆記本會在使用者目錄中的新目錄中建立,而且在您建立管線之後,[管線詳細數據] 窗格中的 [原始程式碼] 欄位中會顯示存取此筆記本的連結。
- 選擇 [Unity 目錄] 下的 [記憶體選項]。
- 選擇 目錄。 此設定會控制管線元數據的預設目錄和儲存位置。
- 在目錄中選取 架構。 根據預設,串流數據表和管線中定義的具體化檢視會在此架構中建立。
- 在 [計算] 區段中,勾選 使用 Photon Acceleration旁的方塊。 如需其他計算組態考慮,請參閱 計算組態選項。
- 按兩下 [建立 ]。
這些建議的組態會建立新的管線,以 觸發 模式執行,並使用 目前 通道道。 此組態建議用於許多使用案例,包括開發和測試,而且非常適合應該依排程執行的生產工作負載。 如需排程管線的詳細資訊,請參閱 DLT 管線工作中的作業。
計算組態選項
Databricks 建議一律使用 增強式自動調整。 其他計算組態的預設值適用於許多管線。
無伺服器管線會移除計算組態選項。 如需無伺服器管線的設定指示,請參閱 設定無伺服器 DLT 管線。
使用下列設定來客製化計算配置:
- 工作區管理員可以設定 叢集原則。 計算原則可讓系統管理員控制使用者可用的計算選項。 請參閱 ,選取叢集原則。
- 您可以選擇性地設定 叢集模式,以配合 固定大小 或 舊版自動調整規模來運行。 請參閱 通過增強型自動調整功能優化 DLT 管線的叢集使用率。
- 針對已啟用自動調整的工作負載,請設定 最小工作者 和 最大工作者,以限制調整行為。 請參閱 配置 DLT 流水線的計算設定。
- 您可以選擇性地關閉 Photon 加速。 請參閱 什麼是 Photon?。
- 使用 叢集卷標 來協助監視與 DLT 管線相關聯的成本。 請參閱 設定叢集標籤。
- 設定 實例類型,以指定用來執行管線的虛擬機類型。 請參閱 選取實例類型以執行管線。
- 選取 Worker 類型, 針對在您的管線中配置的工作負載進行最佳化。
- 您可以選擇不同於您的工作人員類型的 驅動程式類型。 這在降低具有大型工作類型且驅動計算使用率低的管線成本方面很有幫助,或選擇較大的驅動類型以避免在許多小型工作類型的工作負載中遇到記憶體不足問題時很有用。
其他設定考慮
下列組態選項也適用於管線:
- 進階 產品版本可讓您存取所有 DLT 功能。 您可以選擇使用 Pro 或 Core 產品版本來執行管線。 請參閱 選擇產品版本。
- 在生產環境中執行管線時,您可以選擇使用 連續 管線模式。 請參閱 觸發與連續管線模式。
- 如果您的工作區未針對 Unity Catalog 設定,或您的工作負載需要使用舊版 Hive 中繼存放區,請參閱 搭配舊版 Hive 中繼存放區使用 DLT 管線。
- 根據成功或失敗狀況新增電子郵件更新 通知。 請參閱 新增管線事件的電子郵件通知。
- 使用 [組態] 字段來設定管線的索引鍵/值組。 這些組態有兩個用途:
- 設定您可以在原始碼中參考的任意參數。 請參閱 搭配 DLT 管線使用參數。
- 設定管線設定和Spark組態。 請參閱 DLT 屬性參考。
- 使用 Preview 通道,以測試即將到來的 DLT 運行時變更和嘗試新功能。
選擇產品版本
選取具有管線需求最佳功能的 DLT 產品版本。 下列產品版本可供使用:
-
Core
執行串流內嵌工作負載。 如果您的管線不需要變更數據擷取 (CDC) 或 DLT 預期等進階功能,請選取Core
版本。 -
Pro
執行串流擷取和 CDC 工作負載。Pro
產品版本支援所有Core
功能,還有支援需要根據來源數據變化而更新資料表的工作負載。 -
Advanced
執行串流擷取工作負載、CDC 工作負載,以及需要預期之工作負載。Advanced
產品版本支援Core
和Pro
版本的功能,並包含符合 DLT 預期的數據品質限制。
您可以在建立或編輯管線時選取產品版本。 您可以為每個管線選擇不同的版本。 請參閱 DLT 產品頁面。
注意:如果您的管線包含所選產品版本不支援的功能,例如預期,您會收到錯誤訊息,說明錯誤的原因。 然後,您可以編輯管線以選取適當的版本。
設定原始程式碼
您可以使用 DLT UI 中的檔案選取器來設定定義管線的原始碼。 管線原始碼定義於 Databricks 筆記本或儲存在工作區檔案中的 SQL 或 Python 腳本中。 當您建立或編輯管線時,您可以新增一或多個筆記本或工作區檔案,或筆記本和工作區檔案的組合。
由於 DLT 會自動分析資料集相依性來建構管線的處理圖形,因此您可以依任何順序新增原始程式碼資產。
您可以修改 JSON 檔案,以包含 SQL 中定義的 DLT 原始程式碼,以及儲存在工作區檔案中的 Python 腳本。 下列範例包含筆記本和工作區檔案:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
管理使用 Python 之流程的外部依賴
DLT 支援在管線中使用外部相依性,例如 Python 套件和連結庫。 若要瞭解使用相依性的選項和建議,請參閱 管理 DLT 管線的 Python 相依性。
使用儲存在 Azure Databricks 工作區中的 Python 模組
除了在 Databricks 筆記本中實作 Python 程式代碼之外,您還可以使用 Databricks Git 資料夾或工作區檔案,將您的程式代碼儲存為 Python 模組。 當您在相同管線的多個管線或筆記本中使用通用功能時,將程式代碼儲存為 Python 模組特別有用。 若要瞭解如何搭配管線使用 Python 模組,請參閱 從 Git 資料夾或工作區檔案匯入 Python 模組。