Wat is gegevenstransformatie in Azure Databricks?

Artikel
03/06/2025

Gegevenstransformatie is het proces van het converteren, opschonen en structureren van gegevens in een bruikbare indeling. Gegevenstransformatie volgt doorgaans de Databricks-medaillonarchitectuur van het stapsgewijs verfijnen van ruwe gegevens naar een formaat dat door het bedrijf kan worden gebruikt.

Het volgende diagram toont een gegevenspijplijn met een reeks gegevenstransformaties die in dit voorbeeld de raw_customers gegevensset omzetten in de clean_customers gegevensset door klantgegevens zonder klantnaam te verwijderen. De raw_transactions gegevens worden omgezet in clean_transactions door transacties met een nul-dollarwaarde te verwijderen. Een resulterende gegevensset met de naam sales_report is het samenvoegen van de clean_customers en clean_transactions. Analisten kunnen sales_report gebruiken voor analyse en business intelligence.

voorbeeld van gegevenstransformatie

Typen gegevenstransformaties

Databricks beschouwt twee typen gegevenstransformaties: declaratieve en procedurele. De gegevenspijplijn in het voorgaande voorbeeld kan worden uitgedrukt met behulp van een van beide paradigma's.

Declaratieve transformaties richten zich op het gewenste resultaat in plaats van hoe u dit kunt bereiken. U geeft de logica van de transformatie op met abstracties op een hoger niveau en DLT bepaalt de meest efficiënte manier om deze uit te voeren.

Procedurele gegevenstransformaties richten zich op het uitvoeren van berekeningen via expliciete instructies. Deze berekeningen definiëren de exacte reeks bewerkingen om de gegevens te bewerken. De procedurele aanpak biedt meer controle over de uitvoering, maar ten koste van een grotere complexiteit en een hoger onderhoud.

Kiezen tussen declaratieve en procedurele gegevenstransformatie

Declaratieve gegevenstransformatie met DLT is het beste wanneer:

U hebt snelle ontwikkeling en implementatie nodig.
Uw gegevenspijplijnen hebben standaardpatronen waarvoor geen controle op laag niveau nodig is over de uitvoering.
U hebt ingebouwde controles voor gegevenskwaliteit nodig.
Onderhoud en leesbaarheid zijn de belangrijkste prioriteiten.

Procedurele gegevenstransformatie met behulp van Apache Spark-code is het beste wanneer:

U migreert een bestaande Apache Spark-codebasis naar Databricks.
U hebt gedetailleerde controle over de uitvoering nodig.
U hebt toegang nodig tot API's op laag niveau, zoals MERGE of foreachBatch.
U moet gegevens schrijven naar Kafka- of externe Delta-tabellen.

Delen via

Wat is gegevenstransformatie in Azure Databricks?

Typen gegevenstransformaties

Kiezen tussen declaratieve en procedurele gegevenstransformatie

Feedback

Aanvullende resources