Delen via


Een DLT-pijplijn configureren

In dit artikel wordt de basisconfiguratie voor DLT-pijplijnen beschreven met behulp van de gebruikersinterface van de werkruimte.

Databricks raadt aan om nieuwe pijplijnen serverloos te ontwikkelen. Zie Een serverloze DLT-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.

In de configuratie-instructies in dit artikel wordt Unity Catalog gebruikt. Voor instructies voor het configureren van pijplijnen met verouderde Hive-metastore, zie DLT-pijplijnen gebruiken met verouderde Hive-metastore.

In dit artikel wordt de functionaliteit voor de huidige standaardpublicatiemodus voor pijplijnen besproken. Pijplijnen die vóór 5 februari 2025 zijn gemaakt, kunnen gebruikmaken van de verouderde publicatiemodus en LIVE virtueel schema. Zie LIVE-schema (verouderd).

Notitie

De gebruikersinterface heeft een optie om instellingen in JSON weer te geven en te bewerken. U kunt de meeste instellingen configureren met de gebruikersinterface of een JSON-specificatie. Sommige geavanceerde opties zijn alleen beschikbaar met behulp van de JSON-configuratie.

JSON-configuratiebestanden zijn ook handig bij het implementeren van pijplijnen in nieuwe omgevingen of het gebruik van de CLI of REST API-.

Zie DLT-pijplijnconfiguratiesvoor een volledig overzicht van de DLT JSON-configuratie-instellingen.

Een nieuwe DLT-pijplijn configureren

Ga als volgt te werk om een nieuwe DLT-pijplijn te configureren:

  1. Klik op DLT- in de zijbalk.
  2. Klik op Pijplijn maken.
  3. Geef een unieke naam voor de -pijplijn op.
  4. Optioneel) Gebruik het icoon voor de bestandskiezer bestandskiezer om notitieblokken en werkruimtebestanden te configureren als Broncode.
    • Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notitieblok wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld broncode in het deelvenster Pijplijndetails deelvenster nadat u de pijplijn hebt gemaakt.
      • U hebt toegang tot dit notitieblok met de URL die wordt weergegeven in het veld broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
    • Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
  5. Selecteer Unity Catalog onder Storage-opties.
  6. Selecteer een Catalogus. Deze instelling bepaalt de standaardcatalogus en de opslaglocatie voor metagegevens van pijplijnen.
  7. Selecteer een Schema in de catalogus. Streamingtabellen en gematerialiseerde weergaven die in de pijplijn zijn gedefinieerd, worden in dit schema standaard gemaakt.
  8. Schakel in de sectie Compute het selectievakje in naast Gebruik Photon Acceleration. Zie Opties voor compute-configuratievoor aanvullende overwegingen bij de berekeningsconfiguratie.
  9. Klik op maken.

Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in geactiveerde modus en gebruikt u het Current-kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Zie DLT-pijplijntaak voor takenvoor meer informatie over het plannen van pijplijnen.

configuratieopties voor Compute

Databricks raadt aan altijd Verbeterde automatische schaalaanpassing te gebruiken. Standaardwaarden voor andere rekenconfiguraties werken goed voor veel pijplijnen.

Serverloze pijplijnen verwijderen rekenconfiguratieopties. Zie Een serverloze DLT-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.

Gebruik de volgende instellingen om rekenconfiguraties aan te passen:

  • Gebruik clustertags om de kosten te bewaken die zijn gekoppeld aan DLT-pijplijnen. Zie Tags van cluster configureren.
  • Configureer instantietypen om het type virtuele machines op te geven dat wordt gebruikt om uw pijplijn uit te voeren. Zie Exemplaartypen selecteren om een pijplijn uit te voeren.
    • Selecteer een werkertype dat is geoptimaliseerd voor de werkbelastingen in uw pijplijn.
    • U kunt desgewenst een drivertype selecteren dat anders is dan uw werkroltype. Dit kan handig zijn voor het verlagen van de kosten in pijplijnen met grote werkrollen en een laag rekengebruik van stuurprogramma's of voor het kiezen van een groter stuurprogrammatype om problemen met onvoldoende geheugen in workloads met veel kleine werkrollen te voorkomen.

Andere configuratieoverwegingen

De volgende configuratieopties zijn ook beschikbaar voor pijplijnen:

Een productversie kiezen

Selecteer de DLT-producteditie met de beste functies voor uw pijplijnvereisten. De volgende productedities zijn beschikbaar:

  • Core om streaming opnametaken uit te voeren. Selecteer de Core-editie als uw pijplijn geen geavanceerde functies zoals wijzigingsgegevensvastlegging (CDC) of DLT-verwachtingen vereist.
  • Pro voor het uitvoeren van streaming-gegevensinvoer- en CDC-workloads. De Pro producteditie ondersteunt alle Core functies, plus ondersteuning voor workloads waarvoor tabellen moeten worden bijgewerkt op basis van wijzigingen in brongegevens.
  • Advanced voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor verwachtingen zijn vereist. De Advanced producteditie ondersteunt de functies van de Core- en Pro-edities en bevat beperkingen voor gegevenskwaliteit met DLT-verwachtingen.

U kunt de producteditie selecteren wanneer u een pijplijn maakt of bewerkt. U kunt voor elke pijplijn een andere editie kiezen. Zie de DLT-productpagina.

Opmerking: Als uw pijplijn functies bevat die niet worden ondersteund door de geselecteerde producteditie, zoals verwachtingen, krijgt u een foutbericht waarin de reden voor de fout wordt uitgelegd. Vervolgens kunt u de pijplijn bewerken om de juiste editie te selecteren.

broncode configureren

U kunt de bestandskiezer in de DLT-gebruikersinterface gebruiken om de broncode te configureren die uw pijplijn definieert. De broncode van de pijplijn wordt gedefinieerd in Databricks-notebooks of SQL- of Python-scripts die zijn opgeslagen in werkruimtebestanden. Wanneer u uw pijplijn maakt of bewerkt, kunt u een of meer notitieblokken of werkruimtebestanden of een combinatie van notitieblokken en werkruimtebestanden toevoegen.

Omdat DLT automatisch gegevenssetafhankelijkheden analyseert om de verwerkingsgrafiek voor uw pijplijn te maken, kunt u broncodeassets in elke volgorde toevoegen.

U kunt het JSON-bestand wijzigen om DLT-broncode op te nemen die is gedefinieerd in SQL- en Python-scripts die zijn opgeslagen in werkruimtebestanden. Het volgende voorbeeld bevat notebooks en werkruimtebestanden:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Externe afhankelijkheden beheren voor pijplijnen die gebruikmaken van Python

DLT ondersteunt het gebruik van externe afhankelijkheden in uw pijplijnen, zoals Python-pakketten en -bibliotheken. Zie Python-afhankelijkheden beheren voor DLT-pijplijnenvoor meer informatie over opties en aanbevelingen voor het gebruik van afhankelijkheden.

Python-modules gebruiken die zijn opgeslagen in uw Azure Databricks-werkruimte

Naast het implementeren van uw Python-code in Databricks-notebooks, kunt u Databricks Git-mappen of werkruimtebestanden gebruiken om uw code op te slaan als Python-modules. Het opslaan van uw code als Python-modules is vooral handig wanneer u algemene functionaliteit hebt die u wilt gebruiken in meerdere pijplijnen of notebooks in dezelfde pijplijn. Zie Python-modules importeren uit Git-mappen of werkruimtebestandenvoor meer informatie over het gebruik van Python-modules met uw pijplijnen.