Μετασχηματισμός δεδομένων με την εκτέλεση μιας δραστηριότητας Azure Databricks
Η δραστηριότητα Azure Databricks στο Data Factory για το Microsoft Fabric σάς επιτρέπει να οργανώσετε τις ακόλουθες εργασίες του Azure Databricks:
- Σημειωματάριο
- Γυάλα
- Python
Αυτό το άρθρο παρέχει μια αναλυτική παρουσίαση βήμα προς βήμα που περιγράφει τον τρόπο δημιουργίας μιας δραστηριότητας Azure Databricks χρησιμοποιώντας τη διασύνδεση Data Factory.
Προαπαιτούμενα στοιχεία
Για να ξεκινήσετε, πρέπει να συμπληρώσετε τις ακόλουθες προϋποθέσεις:
- Ένας λογαριασμός μισθωτή με ενεργή συνδρομή. Δημιουργήστε έναν λογαριασμό δωρεάν.
- Δημιουργείται ένας χώρος εργασίας.
Ρύθμιση παραμέτρων μιας δραστηριότητας Azure Databricks
Για να χρησιμοποιήσετε μια δραστηριότητα Azure Databricks σε μια διοχέτευση, ολοκληρώστε τα ακόλουθα βήματα:
Ρύθμιση παραμέτρων σύνδεσης
Δημιουργήστε μια νέα διοχέτευση στον χώρο εργασίας σας.
Κάντε κλικ στην προσθήκη μιας δραστηριότητας διοχέτευσης και αναζητήστε το Azure Databricks.
Εναλλακτικά, μπορείτε να κάνετε αναζήτηση για Azure Databricks στο τμήμα παραθύρου Δραστηριότητες διοχέτευσης και να το επιλέξετε για να το προσθέσετε στον καμβά διοχέτευσης.
Επιλέξτε τη νέα δραστηριότητα Azure Databricks στον καμβά εάν δεν είναι ήδη επιλεγμένη.
Ανατρέξτε στην καθοδήγηση Γενικές ρυθμίσεις για να ρυθμίσετε τις παραμέτρους της καρτέλας Γενικές ρυθμίσεις.
Ρύθμιση παραμέτρων συμπλεγμάτων
Επιλέξτε την καρτέλα Σύμπλεγμα. Στη συνέχεια, μπορείτε να επιλέξετε μια υπάρχουσα ή να δημιουργήσετε μια νέα σύνδεση Azure Databricks και, στη συνέχεια, να επιλέξετε ένα νέο σύμπλεγμα εργασιών, ένα υπάρχον αλληλεπιδραστικό σύμπλεγμα ή ένα υπάρχον σύμπλεγμα παρουσιών.
Ανάλογα με το τι επιλέγετε για το σύμπλεγμα, συμπληρώστε τα αντίστοιχα πεδία όπως παρουσιάζονται.
- Κάτω από το νέο σύμπλεγμα θέσεων εργασίας και την υπάρχουσα ομάδα παρουσιών, έχετε επίσης τη δυνατότητα να ρυθμίσετε τον αριθμό των εργαζομένων και να ενεργοποιήσετε παρουσίες σημείων.
Μπορείτε επίσης να καθορίσετε πρόσθετες ρυθμίσεις συμπλέγματος, όπως πολιτική συμπλέγματος, ρύθμιση παραμέτρων Spark, μεταβλητές περιβάλλοντος Spark και προσαρμοσμένες ετικέτες, όπως απαιτείται για το σύμπλεγμα στο οποίο συνδέεστε. Οι δέσμες ενεργειών Init databricks και η διαδρομή προορισμού αρχείων καταγραφής συμπλέγματος μπορούν επίσης να προστεθούν κάτω από τις πρόσθετες ρυθμίσεις συμπλέγματος.
Σημείωμα
Όλες οι σύνθετες ιδιότητες συμπλέγματος και οι δυναμικές παραστάσεις που υποστηρίζονται στη συνδεδεμένη υπηρεσία Azure Databricks του Azure Databricks υποστηρίζονται πλέον στη δραστηριότητα Azure Databricks στο Microsoft Fabric στην ενότητα "Πρόσθετες ρυθμίσεις παραμέτρων συμπλέγματος" στο περιβάλλον εργασίας χρήστη. Καθώς αυτές οι ιδιότητες περιλαμβάνονται πλέον στο περιβάλλον εργασίας χρήστη δραστηριότητας, Μπορούν να χρησιμοποιηθούν εύκολα με μια παράσταση (δυναμικό περιεχόμενο) χωρίς την ανάγκη για την προδιαγραφή JSON για προχωρημένους στη συνδεδεμένη υπηρεσία Azure Data Factory Azure Databricks.
Η δραστηριότητα Azure Databricks υποστηρίζει πλέον υποστήριξη για την πολιτική συμπλέγματος και τον κατάλογο Unity.
- Στην περιοχή Ρυθμίσεις για προχωρημένους, έχετε τη δυνατότητα να επιλέξετε την Πολιτική συμπλέγματος, ώστε να μπορείτε να καθορίσετε ποιες ρυθμίσεις παραμέτρων συμπλέγματος επιτρέπονται.
- Επίσης, στην περιοχή Ρυθμίσεις για προχωρημένους, έχετε την επιλογή να ρυθμίσετε τις παραμέτρους της λειτουργίας πρόσβασης στο Unity Catalog για πρόσθετη ασφάλεια. Οι διαθέσιμοι τύποι λειτουργίας πρόσβασης είναι:
- Λειτουργία πρόσβασης ενός χρήστη Αυτή η λειτουργία έχει σχεδιαστεί για σενάρια όπου κάθε σύμπλεγμα χρησιμοποιείται από έναν μόνο χρήστη. Εξασφαλίζει ότι η πρόσβαση στα δεδομένα εντός του συμπλέγματος περιορίζεται μόνο σε αυτόν το χρήστη. Αυτή η λειτουργία είναι χρήσιμη για εργασίες που απαιτούν απομόνωση και μεμονωμένο χειρισμό δεδομένων.
- Λειτουργία κοινόχρηστης πρόσβασης Σε αυτήν τη λειτουργία, πολλοί χρήστες μπορούν να έχουν πρόσβαση στο ίδιο σύμπλεγμα. Συνδυάζει τη διαχείριση δεδομένων του Unity Catalog με τις λίστες ελέγχου πρόσβασης πίνακα παλαιού τύπου (ACL). Αυτός ο τρόπος λειτουργίας επιτρέπει την πρόσβαση σε συνεργατικά δεδομένα, διατηρώντας παράλληλα τα πρωτόκολλα διαχείρισης και ασφάλειας. Ωστόσο, έχει ορισμένους περιορισμούς, όπως η μη υποστήριξη της εκμάθησης μηχανής χρόνου εκτέλεσης Databricks, η εργασία υποβολής Spark και συγκεκριμένα API Spark και UDF.
- Καμία λειτουργία πρόσβασης Αυτή η λειτουργία απενεργοποιεί την αλληλεπίδραση με τον κατάλογο Unity, πράγμα που σημαίνει ότι τα συμπλέγματα δεν έχουν πρόσβαση σε δεδομένα με διαχείριση από το Unity Catalog. Αυτή η λειτουργία είναι χρήσιμη για φόρτους εργασίας που δεν απαιτούν δυνατότητες διαχείρισης του Unity Catalog.
Ρύθμιση παραμέτρων
Επιλέγοντας την καρτέλα Ρυθμίσεις, μπορείτε να επιλέξετε μεταξύ 3 επιλογών που πληκτρολογείτε Azure Databricks που θα θέλατε να ενορχηστρώσετε.
Ενορχήστρωση του τύπου Σημειωματάριου στη δραστηριότητα Azure Databricks:
Στην καρτέλα Ρυθμίσεις, μπορείτε να επιλέξετε το κουμπί επιλογής Σημειωματάριο για να εκτελέσετε ένα Σημειωματάριο. Θα πρέπει να καθορίσετε τη διαδρομή σημειωματάριου που θα εκτελεστεί στο Azure Databricks, προαιρετικές παραμέτρους βάσης που θα διαβιβαστούν στο σημειωματάριο και τυχόν πρόσθετες βιβλιοθήκες που θα εγκατασταθούν στο σύμπλεγμα για την εκτέλεση της εργασίας.
Ενορχήστρωση του τύπου jar στη δραστηριότητα Azure Databricks:
Στην καρτέλα Ρυθμίσεις, μπορείτε να επιλέξετε το κουμπί επιλογής Jar για να εκτελέσετε ένα βάζο. Θα πρέπει να καθορίσετε το όνομα κλάσης που θα εκτελεστεί στο Azure Databricks, προαιρετικές παραμέτρους βάσης που θα διαβιβαστούν στο jar και τυχόν πρόσθετες βιβλιοθήκες που θα εγκατασταθούν στο σύμπλεγμα για την εκτέλεση της εργασίας.
Ενορχήστρωση του τύπου Python στη δραστηριότητα Azure Databricks:
Στην καρτέλα Ρυθμίσεις, μπορείτε να επιλέξετε το κουμπί επιλογής Python για να εκτελέσετε ένα αρχείο Python. Θα πρέπει να καθορίσετε τη διαδρομή εντός του Azure Databricks σε ένα αρχείο Python που θα εκτελεστεί, προαιρετικές βασικές παράμετροι που θα διαβιβαστούν και τυχόν πρόσθετες βιβλιοθήκες που θα εγκατασταθούν στο σύμπλεγμα για την εκτέλεση της εργασίας.
Υποστηριζόμενες βιβλιοθήκες για τη δραστηριότητα Azure Databricks
Στον παραπάνω ορισμό δραστηριότητας Databricks, μπορείτε να καθορίσετε αυτούς τους τύπους βιβλιοθήκης: βάζο, αυγό, whl, maven, pypi, cran.
Για περισσότερες πληροφορίες, ανατρέξτε στην τεκμηρίωση Databricks για τύπους βιβλιοθήκης.
Διαβίβαση παραμέτρων μεταξύ δραστηριότητας και διοχετεύσεων Azure Databricks
Μπορείτε να μεταβιβάσετε παραμέτρους σε σημειωματάρια χρησιμοποιώντας την ιδιότητα baseParameters στη δραστηριότητα databricks.
Σε ορισμένες περιπτώσεις, ενδέχεται να χρειαστεί να μεταβιβάσετε ορισμένες τιμές από το σημειωματάριο στην υπηρεσία, οι οποίες μπορούν να χρησιμοποιηθούν για τη ροή ελέγχου (έλεγχοι υπό όρους) στην υπηρεσία ή να καταναλωθούν από δραστηριότητες κατάντη (το όριο μεγέθους είναι 2 MB).
Στο σημειωματάριό σας, για παράδειγμα, μπορείτε να καλέσετε το dbutils.notebook.exit("returnValue") και το αντίστοιχο "returnValue" θα επιστραφεί στην υπηρεσία.
Μπορείτε να καταναλώσετε την έξοδο στην υπηρεσία χρησιμοποιώντας μια παράσταση όπως
@{activity('databricks activity name').output.runOutput}
.
Αποθήκευση και εκτέλεση ή προγραμματισμός της διοχέτευσης
Αφού ρυθμίσετε οποιεσδήποτε άλλες δραστηριότητες απαιτούνται για τη διοχέτευση, μεταβείτε στην Καρτέλα Αρχική στο επάνω μέρος του προγράμματος επεξεργασίας διοχέτευσης και επιλέξτε το κουμπί αποθήκευσης για να αποθηκεύσετε τη διοχέτευση. Επιλέξτε Εκτέλεση για να την εκτελέσετε απευθείας ή Χρονοδιάγραμμα για να την προγραμματίσετε. Μπορείτε, επίσης, να δείτε το ιστορικό εκτέλεσης εδώ ή να ρυθμίσετε άλλες ρυθμίσεις.