DLT 파이프라인 구성
이 문서에서는 작업 영역 UI를 사용하는 DLT 파이프라인에 대한 기본 구성을 설명합니다.
Databricks는 서버리스를 사용하여 새 파이프라인을 개발하는 것이 좋습니다. 서버리스 파이프라인에 대한 구성 지침은 서버리스 DLT 파이프라인구성을 참조하세요.
이 문서의 구성 지침에서는 Unity 카탈로그를 사용합니다. 레거시 Hive 메타스토어로 파이프라인을 구성하는 방법에 대한 지침은 레거시 Hive 메타스토어에서 DLT 파이프라인 사용을 참조하세요.
이 문서에서는 파이프라인의 현재 기본 게시 모드에 대한 기능을 설명합니다. 2025년 2월 5일 이전에 만든 파이프라인은 레거시 게시 모드 및 LIVE
가상 스키마를 사용할 수 있습니다.
LIVE 스키마(레거시)을 참조하세요.
메모
UI에는 JSON에서 설정을 표시하고 편집하는 옵션이 있습니다. 대부분의 설정은 UI 또는 JSON 사양으로 구성할 수 있습니다. 일부 고급 옵션은 JSON 구성을 통해서만 사용할 수 있습니다.
JSON 구성 파일은 새 환경에 파이프라인을 배포하거나 CLI 또는 REST API사용할 때도 유용합니다.
새 DLT 파이프라인 구성
새 DLT 파이프라인을 구성하려면 다음을 수행합니다.
- 사이드바에서 DLT 클릭합니다.
- 파이프라인 만들기을 클릭합니다.
- 고유한 파이프라인 이름을 지정하세요.
- (선택 사항)
파일 선택기를 사용하여 전자 필기장 및 작업 영역 파일을 소스 코드구성합니다.
- 소스 코드를 추가하지 않으면 파이프라인용 새 노트북이 만들어집니다. Notebook은 사용자 디렉터리의 새 디렉터리에 만들어지고 이 Notebook에 액세스하기 위한 링크는 파이프라인을 만든 후 파이프라인 세부 정보 창의 소스 코드 필드에 표시됩니다.
- 파이프라인을 만든 후에는 파이프라인 세부 정보 패널의 소스 코드 필드에 표시된 URL을 사용하여 이 Notebook에 액세스할 수 있습니다.
- 소스 코드 추가 단추를 사용하여 소스 코드 자산을 추가합니다.
- 소스 코드를 추가하지 않으면 파이프라인용 새 노트북이 만들어집니다. Notebook은 사용자 디렉터리의 새 디렉터리에 만들어지고 이 Notebook에 액세스하기 위한 링크는 파이프라인을 만든 후 파이프라인 세부 정보 창의 소스 코드 필드에 표시됩니다.
- 저장 옵션아래에서 Unity 카탈로그을 선택합니다.
- 카탈로그을 선택하십시오. 이 설정은 파이프라인 메타데이터의 기본 카탈로그 및 스토리지 위치를 제어합니다.
- 카탈로그에서 스키마 선택합니다. 기본적으로 파이프라인에 정의된 스트리밍 테이블 및 구체화된 뷰는 이 스키마에서 만들어집니다.
- Compute 섹션에서 Photon Acceleration사용 옵션 옆의 확인란을 선택하세요. 추가 컴퓨팅 구성 고려 사항은 컴퓨팅 구성 옵션참조하세요.
- 만들기클릭합니다.
이러한 권장 구성은 트리거된 모드로 실행되도록 설정된 새로운 파이프라인을 만들고, 현재 채널을 사용합니다. 이 구성은 개발 및 테스트를 비롯한 많은 사용 사례에 권장되며 일정에 따라 실행되어야 하는 프로덕션 워크로드에 적합합니다. 파이프라인 예약에 대한 자세한 내용은 작업에 대한DLT 파이프라인 작업을 참조하세요.
컴퓨팅 구성 옵션
Databricks는 항상 고급 자동 크기 조정사용하는 것이 좋습니다. 다른 컴퓨팅 구성의 기본값은 많은 파이프라인에서 잘 작동합니다.
서버리스 파이프라인은 컴퓨팅 구성 옵션을 제거합니다. 서버리스 파이프라인에 대한 구성 지침은 서버리스 DLT 파이프라인구성을 참조하세요.
다음 설정을 사용하여 컴퓨팅 구성을 사용자 지정합니다.
- 작업 영역 관리자는 클러스터 정책구성할 수 있습니다. 컴퓨팅 정책을 사용하면 관리자가 사용자가 사용할 수 있는 컴퓨팅 옵션을 제어할 수 있습니다. 클러스터 정책을/를 선택하십시오.
- 필요에 따라 클러스터 모드를 고정 크기로 실행하거나 레거시 자동 크기 조정으로 구성할 수 있습니다. 향상된 자동 크기 조정 사용하여 DLT 파이프라인의 클러스터 사용률 최적화참조하세요.
- 자동 크기 조정이 설정된 워크로드의 경우, 크기 조정 동작에 대한 제한을 설정하기 위해 최소 작업자는 으로, 최대 작업자는 으로 설정하십시오. DLT 파이프라인 대한 컴퓨팅 구성참조하세요.
- 필요에 따라 Photon 가속을 끌 수 있습니다. Photon이란?.
- 클러스터 태그 사용하여 DLT 파이프라인과 관련된 비용을 모니터링할 수 있습니다. 클러스터 태그 구성을 참조하세요.
-
인스턴스 유형 구성하여 파이프라인을 실행하는 데 사용되는 가상 머신의 유형을 지정합니다. 파이프라인 을 실행하려면 인스턴스 유형을 선택,을 참조하세요.
- 파이프라인에 구성된 워크로드에 최적화된 작업자 유형 선택합니다.
- 선택적으로 작업자 유형과 다른 드라이버 유형 선택할 수 있습니다. 이는 대규모 작업자 유형 및 낮은 드라이버 컴퓨팅 사용률이 있는 파이프라인의 비용을 줄이거나 많은 소규모 작업자가 있는 워크로드에서 메모리 부족 문제를 방지하기 위해 더 큰 드라이버 유형을 선택하는 데 유용할 수 있습니다.
기타 구성 고려 사항
파이프라인에도 다음 구성 옵션을 사용할 수 있습니다.
- Advanced 제품 버전을 사용하면 모든 DLT 기능에 액세스할 수 있습니다. 필요에 따라 Pro 또는 Core 제품 버전을 사용하여 파이프라인을 실행할 수 있습니다. 참조하세요 제품 버전선택.
- 프로덕션 환경에서 파이프라인을 실행할 때 연속 파이프라인 모드를 사용하도록 선택할 수 있습니다. 트리거된 및 연속 파이프라인 모드참조하세요.
- 작업 영역이 Unity 카탈로그에 대해 구성되지 않았거나 워크로드가 레거시 Hive 메타스토어를 사용해야 하는 경우, 레거시 Hive 메타스토어에서 DLT 파이프라인 사용을 참조하세요.
- 성공 또는 실패 조건에 따라 전자 메일 업데이트에 대한 알림 추가합니다. 파이프라인 이벤트전자 메일 알림 추가를 참조하세요.
-
구성 필드를 사용하여 파이프라인의 키-값 쌍을 설정합니다. 이러한 구성은 다음 두 가지 용도로 사용됩니다.
- 소스 코드에서 참조할 수 있는 임의의 매개 변수를 설정합니다. DLT 파이프라인에 매개 변수를 사용하는 방법을 참조하세요.
- 파이프라인 설정 및 Spark 구성을 구성합니다. DLT 속성 참조을 참고하세요.
- 프리뷰 채널을 사용하여 보류 중인 DLT 런타임 변경 사항에 대해 파이프라인을 테스트하고, 새로운 기능을 시험해 보세요.
제품 버전 선택
파이프라인 요구 사항에 가장 적합한 기능을 갖춘 DLT 제품 버전을 선택합니다. 다음 제품 버전을 사용할 수 있습니다.
-
Core
가 스트리밍 수집 워크로드를 실행합니다. 파이프라인에 CDC(변경 데이터 캡처) 또는 DLT 예상과 같은 고급 기능이 필요하지 않은 경우Core
버전을 선택합니다. -
Pro
에서 스트리밍 수집 및 CDC 워크로드를 실행합니다.Pro
제품 버전은 모든Core
기능과 원본 데이터의 변경 내용에 따라 테이블을 업데이트해야 하는 워크로드를 지원합니다. -
Advanced
에서 스트리밍 수집 워크로드, CDC 워크로드 및 성능 기준이 요구되는 워크로드를 실행합니다.Advanced
제품 버전은Core
및Pro
버전의 기능을 지원하며 DLT 기대에 부합하는 데이터 품질 제약 조건을 포함합니다.
파이프라인을 만들거나 편집할 때 제품 버전을 선택할 수 있습니다. 각 파이프라인에 대해 다른 버전을 선택할 수 있습니다. DLT 제품 페이지참조하세요.
참고: 파이프라인에 선택한 제품 버전에서 지원되지 않는 기능(예: 예상)이 포함된 경우 오류 이유를 설명하는 오류 메시지가 표시됩니다. 그런 다음 파이프라인을 편집하여 적절한 버전을 선택할 수 있습니다.
소스 코드 구성
DLT UI의 파일 선택기를 사용하여 파이프라인을 정의하는 소스 코드를 구성할 수 있습니다. 파이프라인 소스 코드는 작업 영역 파일에 저장된 Databricks Notebook 또는 SQL 또는 Python 스크립트에 정의됩니다. 파이프라인을 만들거나 편집할 때 하나 이상의 Notebook 또는 작업 영역 파일 또는 Notebook 및 작업 영역 파일의 조합을 추가할 수 있습니다.
DLT는 데이터 세트 종속성을 자동으로 분석하여 파이프라인에 대한 처리 그래프를 생성하므로 소스 코드 자산을 순서대로 추가할 수 있습니다.
작업 영역 파일에 저장된 SQL 및 Python 스크립트에 정의된 DLT 소스 코드를 포함하도록 JSON 파일을 수정할 수 있습니다. 다음 예제에는 Notebook 및 작업 영역 파일이 포함됩니다.
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Python을 사용하는 파이프라인에 대한 외부 종속성 관리
DLT는 Python 패키지 및 라이브러리와 같은 파이프라인에서 외부 종속성 사용을 지원합니다. 종속성 사용에 대한 옵션 및 권장 사항에 대해 알아보려면 DLT 파이프라인에 대한 Python 종속성 관리를 참조하세요.
Azure Databricks 작업 영역에 저장된 Python 모듈 사용
Databricks Notebook에서 Python 코드를 구현하는 것 외에도 Databricks Git 폴더 또는 작업 영역 파일을 사용하여 코드를 Python 모듈로 저장할 수 있습니다. 코드를 Python 모듈로 저장하는 것은 동일한 파이프라인의 여러 파이프라인 또는 Notebook에서 사용하려는 일반적인 기능이 있는 경우에 특히 유용합니다. 파이프라인에서 Python 모듈을 사용하는 방법을 알아보려면 Git 폴더 또는 작업 영역 파일에서 Python 모듈 가져오기참조하세요.