Een DLT-pijplijn configureren
In dit artikel wordt de basisconfiguratie voor DLT-pijplijnen beschreven met behulp van de gebruikersinterface van de werkruimte.
Databricks raadt aan om nieuwe pijplijnen serverloos te ontwikkelen. Zie Een serverloze DLT-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.
In de configuratie-instructies in dit artikel wordt Unity Catalog gebruikt. Voor instructies voor het configureren van pijplijnen met verouderde Hive-metastore, zie DLT-pijplijnen gebruiken met verouderde Hive-metastore.
In dit artikel wordt de functionaliteit voor de huidige standaardpublicatiemodus voor pijplijnen besproken. Pijplijnen die vóór 5 februari 2025 zijn gemaakt, kunnen gebruikmaken van de verouderde publicatiemodus en LIVE
virtueel schema. Zie LIVE-schema (verouderd).
Notitie
De gebruikersinterface heeft een optie om instellingen in JSON weer te geven en te bewerken. U kunt de meeste instellingen configureren met de gebruikersinterface of een JSON-specificatie. Sommige geavanceerde opties zijn alleen beschikbaar met behulp van de JSON-configuratie.
JSON-configuratiebestanden zijn ook handig bij het implementeren van pijplijnen in nieuwe omgevingen of het gebruik van de CLI of REST API-.
Zie DLT-pijplijnconfiguratiesvoor een volledig overzicht van de DLT JSON-configuratie-instellingen.
Een nieuwe DLT-pijplijn configureren
Ga als volgt te werk om een nieuwe DLT-pijplijn te configureren:
- Klik op DLT- in de zijbalk.
- Klik op Pijplijn maken.
- Geef een unieke naam voor de -pijplijn op.
- Optioneel) Gebruik het
bestandskiezer om notitieblokken en werkruimtebestanden te configureren als Broncode.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notitieblok wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld broncode in het deelvenster Pijplijndetails deelvenster nadat u de pijplijn hebt gemaakt.
- U hebt toegang tot dit notitieblok met de URL die wordt weergegeven in het veld broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notitieblok wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld broncode in het deelvenster Pijplijndetails deelvenster nadat u de pijplijn hebt gemaakt.
- Selecteer Unity Catalog onder Storage-opties.
- Selecteer een Catalogus. Deze instelling bepaalt de standaardcatalogus en de opslaglocatie voor metagegevens van pijplijnen.
- Selecteer een Schema in de catalogus. Streamingtabellen en gematerialiseerde weergaven die in de pijplijn zijn gedefinieerd, worden in dit schema standaard gemaakt.
- Schakel in de sectie Compute het selectievakje in naast Gebruik Photon Acceleration. Zie Opties voor compute-configuratievoor aanvullende overwegingen bij de berekeningsconfiguratie.
- Klik op maken.
Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in geactiveerde modus en gebruikt u het Current-kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Zie DLT-pijplijntaak voor takenvoor meer informatie over het plannen van pijplijnen.
configuratieopties voor Compute
Databricks raadt aan altijd Verbeterde automatische schaalaanpassing te gebruiken. Standaardwaarden voor andere rekenconfiguraties werken goed voor veel pijplijnen.
Serverloze pijplijnen verwijderen rekenconfiguratieopties. Zie Een serverloze DLT-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.
Gebruik de volgende instellingen om rekenconfiguraties aan te passen:
- Werkruimtebeheerders kunnen een Clusterbeleid configureren. Met rekenbeleid kunnen beheerders bepalen welke rekenopties beschikbaar zijn voor gebruikers. Zie Een clusterbeleid selecteren.
- U kunt desgewenst de clustermodus configureren om te werken met een vaste grootte of legacy autoschaalaanpassing. Zie Het clustergebruik van DLT-pijplijnen optimaliseren met verbeterde automatische schaalaanpassing.
- Voor werkbelastingen waarvoor autoscaling is ingeschakeld, stelt u Min werknemers en Max werknemers in om limieten in te stellen voor schaalgedrag. Zie Compute configureren voor een DLT-pijplijn.
- U kunt optioneel Photon-versnelling uitschakelen. Zie Wat is Photon?.
- Gebruik clustertags om de kosten te bewaken die zijn gekoppeld aan DLT-pijplijnen. Zie Tags van cluster configureren.
- Configureer instantietypen om het type virtuele machines op te geven dat wordt gebruikt om uw pijplijn uit te voeren. Zie Exemplaartypen selecteren om een pijplijn uit te voeren.
- Selecteer een werkertype dat is geoptimaliseerd voor de werkbelastingen in uw pijplijn.
- U kunt desgewenst een drivertype selecteren dat anders is dan uw werkroltype. Dit kan handig zijn voor het verlagen van de kosten in pijplijnen met grote werkrollen en een laag rekengebruik van stuurprogramma's of voor het kiezen van een groter stuurprogrammatype om problemen met onvoldoende geheugen in workloads met veel kleine werkrollen te voorkomen.
Andere configuratieoverwegingen
De volgende configuratieopties zijn ook beschikbaar voor pijplijnen:
- De Advanced producteditie geeft u toegang tot alle DLT-functies. U kunt eventueel pijplijnen uitvoeren met behulp van de Pro- of Core productversies. Zie Een producteditie kiezen.
- U kunt ervoor kiezen om de continue pijplijnmodus te gebruiken bij het uitvoeren van pijplijnen in productie. Zie Geactiveerde versus continue modus van de pijpleiding.
- Als uw werkruimte niet is geconfigureerd voor Unity Catalog of als uw workload verouderde Hive-metastore moet gebruiken, raadpleegt u DLT-pijplijnen gebruiken met verouderde Hive-metastore.
- Voeg Meldingen toe voor e-mailupdates op basis van succes- of faalcondities. Zie E-mailmeldingen toevoegen voor pijplijn gebeurtenissen.
- Gebruik het veld Configuration om sleutel-waardeparen in te stellen voor de pijplijn. Deze configuraties dienen twee doeleinden:
- Stel willekeurige parameters in waarnaar u in uw broncode kunt verwijzen. Zie Gebruik parameters met DLT-pijplijnen.
- Configureer pijplijninstellingen en Spark-configuraties. Zie de eigenschappen van DLT bij.
- Gebruik het Preview--kanaal om uw pijplijn te testen op wachtende DLT-runtimewijzigingen en nieuwe functies te testen.
Een productversie kiezen
Selecteer de DLT-producteditie met de beste functies voor uw pijplijnvereisten. De volgende productedities zijn beschikbaar:
-
Core
om streaming opnametaken uit te voeren. Selecteer deCore
-editie als uw pijplijn geen geavanceerde functies zoals wijzigingsgegevensvastlegging (CDC) of DLT-verwachtingen vereist. -
Pro
voor het uitvoeren van streaming-gegevensinvoer- en CDC-workloads. DePro
producteditie ondersteunt alleCore
functies, plus ondersteuning voor workloads waarvoor tabellen moeten worden bijgewerkt op basis van wijzigingen in brongegevens. -
Advanced
voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor verwachtingen zijn vereist. DeAdvanced
producteditie ondersteunt de functies van deCore
- enPro
-edities en bevat beperkingen voor gegevenskwaliteit met DLT-verwachtingen.
U kunt de producteditie selecteren wanneer u een pijplijn maakt of bewerkt. U kunt voor elke pijplijn een andere editie kiezen. Zie de DLT-productpagina.
Opmerking: Als uw pijplijn functies bevat die niet worden ondersteund door de geselecteerde producteditie, zoals verwachtingen, krijgt u een foutbericht waarin de reden voor de fout wordt uitgelegd. Vervolgens kunt u de pijplijn bewerken om de juiste editie te selecteren.
broncode configureren
U kunt de bestandskiezer in de DLT-gebruikersinterface gebruiken om de broncode te configureren die uw pijplijn definieert. De broncode van de pijplijn wordt gedefinieerd in Databricks-notebooks of SQL- of Python-scripts die zijn opgeslagen in werkruimtebestanden. Wanneer u uw pijplijn maakt of bewerkt, kunt u een of meer notitieblokken of werkruimtebestanden of een combinatie van notitieblokken en werkruimtebestanden toevoegen.
Omdat DLT automatisch gegevenssetafhankelijkheden analyseert om de verwerkingsgrafiek voor uw pijplijn te maken, kunt u broncodeassets in elke volgorde toevoegen.
U kunt het JSON-bestand wijzigen om DLT-broncode op te nemen die is gedefinieerd in SQL- en Python-scripts die zijn opgeslagen in werkruimtebestanden. Het volgende voorbeeld bevat notebooks en werkruimtebestanden:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Externe afhankelijkheden beheren voor pijplijnen die gebruikmaken van Python
DLT ondersteunt het gebruik van externe afhankelijkheden in uw pijplijnen, zoals Python-pakketten en -bibliotheken. Zie Python-afhankelijkheden beheren voor DLT-pijplijnenvoor meer informatie over opties en aanbevelingen voor het gebruik van afhankelijkheden.
Python-modules gebruiken die zijn opgeslagen in uw Azure Databricks-werkruimte
Naast het implementeren van uw Python-code in Databricks-notebooks, kunt u Databricks Git-mappen of werkruimtebestanden gebruiken om uw code op te slaan als Python-modules. Het opslaan van uw code als Python-modules is vooral handig wanneer u algemene functionaliteit hebt die u wilt gebruiken in meerdere pijplijnen of notebooks in dezelfde pijplijn. Zie Python-modules importeren uit Git-mappen of werkruimtebestandenvoor meer informatie over het gebruik van Python-modules met uw pijplijnen.