Wat is gegevenstransformatie in Azure Databricks?
Gegevenstransformatie is het proces van het converteren, opschonen en structureren van gegevens in een bruikbare indeling. Gegevenstransformatie volgt doorgaans de Databricks-medaillonarchitectuur van het stapsgewijs verfijnen van ruwe gegevens naar een formaat dat door het bedrijf kan worden gebruikt.
Het volgende diagram toont een gegevenspijplijn met een reeks gegevenstransformaties die in dit voorbeeld de raw_customers
gegevensset omzetten in de clean_customers
gegevensset door klantgegevens zonder klantnaam te verwijderen. De raw_transactions
gegevens worden omgezet in clean_transactions
door transacties met een nul-dollarwaarde te verwijderen. Een resulterende gegevensset met de naam sales_report
is het samenvoegen van de clean_customers
en clean_transactions
. Analisten kunnen sales_report
gebruiken voor analyse en business intelligence.
voorbeeld van
Typen gegevenstransformaties
Databricks beschouwt twee typen gegevenstransformaties: declaratieve en procedurele. De gegevenspijplijn in het voorgaande voorbeeld kan worden uitgedrukt met behulp van een van beide paradigma's.
Declaratieve transformaties richten zich op het gewenste resultaat in plaats van hoe u dit kunt bereiken. U geeft de logica van de transformatie op met abstracties op een hoger niveau en DLT bepaalt de meest efficiƫnte manier om deze uit te voeren.
Procedurele gegevenstransformaties richten zich op het uitvoeren van berekeningen via expliciete instructies. Deze berekeningen definiƫren de exacte reeks bewerkingen om de gegevens te bewerken. De procedurele aanpak biedt meer controle over de uitvoering, maar ten koste van een grotere complexiteit en een hoger onderhoud.
Kiezen tussen declaratieve en procedurele gegevenstransformatie
Declaratieve gegevenstransformatie met DLT is het beste wanneer:
- U hebt snelle ontwikkeling en implementatie nodig.
- Uw gegevenspijplijnen hebben standaardpatronen waarvoor geen controle op laag niveau nodig is over de uitvoering.
- U hebt ingebouwde controles voor gegevenskwaliteit nodig.
- Onderhoud en leesbaarheid zijn de belangrijkste prioriteiten.
Procedurele gegevenstransformatie met behulp van Apache Spark-code is het beste wanneer:
- U migreert een bestaande Apache Spark-codebasis naar Databricks.
- U hebt gedetailleerde controle over de uitvoering nodig.
- U hebt toegang nodig tot API's op laag niveau, zoals
MERGE
offoreachBatch
. - U moet gegevens schrijven naar Kafka- of externe Delta-tabellen.