DLT-folyamatok használata régi Hive-metaadattárral
Ez a cikk az adatok régi Hive-metaadattárban való közzétételére konfigurált DLT-folyamatokra vonatkozó konfigurációkat és kikötéseket ismerteti. A Databricks a Unity Catalog használatát javasolja az összes új folyamathoz. Lásd A Unity-katalógus használata DLT-folyamatokkal.
Jegyzet
Ez a cikk a pipeline-ek jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott csővezetések a hagyományos közzétételi módot és a LIVE
virtuális sémát használhatják. Lásd: LIVE séma (örökölt).
Streamelési táblák és materializált nézetek lekérdezése az örökölt Hive-metaadattárban
A frissítés befejezése után megtekintheti a sémát és a táblákat, lekérdezheti az adatokat, vagy használhatja az adatokat az alárendelt alkalmazásokban.
A közzététel után a DLT-táblák lekérdezhetők bármely olyan környezetből, amely hozzáféréssel rendelkezik a célsémához. Ez magában foglalja a Databricks SQL-t, a jegyzetfüzeteket és más DLT-folyamatokat.
Fontos
target
konfiguráció létrehozásakor a rendszer csak táblákat és a hozzájuk tartozó metaadatokat teszi közzé. A nézetek nem jelennek meg a metaadattárban.
Folyamat konfigurálása a Hive metaadattárban való közzétételhez
Új folyamat létrehozásakor megadhatja Hive-metaadattár a Tárolási beállítások az örökölt Hive metaadattárban való közzétételhez. A Hive metaadattárban való közzétételkor meg kell adnia egy alapértelmezett célsémát. Lásd DLT-folyamat konfigurálása.
Tárolási hely megadása
Megadhatja a tárolási helyet egy olyan adatfolyam számára, amely a Hive metaadattárba publikál. A hely meghatározásának elsődleges célja a folyamat által írt adatok objektumtárolási helyének szabályozása. A Databricks azt javasolja, hogy mindig adjon meg egy tárolóhelyet, hogy ne írjon a DBFS-gyökérre.
Mivel a DLT-folyamatok összes tábláját, adatát, ellenőrzőpontját és metaadatait teljes mértékben a DLT felügyeli, a DLT-adatkészletekkel való legtöbb interakció a Hive metaadattárban vagy a Unity-katalógusban regisztrált táblákon keresztül történik.
felhőalapú tároló konfigurációja
Az Azure Storageeléréséhez konfigurálnia kell a szükséges paramétereket, beleértve a hozzáférési tokeneket is, a fürtkonfigurációk spark.conf
-es beállításaival. Az Azure Data Lake Storage Gen2 (ADLS Gen2) tárfiókhoz való hozzáférés konfigurálásának példáját lásd a Tárolói hitelesítő adatok biztonságos elérése titkokkal egy pipeline-banrészben.
Hive metaadattár-folyamatok eseménynaplójának futtatása
Ha a folyamat táblákat tesz közzé a Hive metaadattárban, az eseménynaplót a rendszer /system/events
tárolja a storage
helyen. Ha például a pipeline storage
beállítását /Users/username/data
konfigurálta, az eseménynapló a DBFS /Users/username/data/system/events
elérési útján lesz tárolva.
Ha nem konfigurálta a storage
beállítást, az alapértelmezett eseménynapló helye /pipelines/<pipeline-id>/system/events
a DBFS-ben. Ha például a folyamat azonosítója 91de5e48-35ed-11ec-8d3d-0242ac130003
, a tárolási hely /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events
.
Létrehozhat egy nézetet, amely leegyszerűsíti az eseménynapló lekérdezését. Az alábbi példa egy event_log_raw
nevű ideiglenes nézetet hoz létre. Ezt a nézetet az ebben a cikkben szereplő példaeseménynapló-lekérdezések használják:
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;
Cserélje le <event-log-path>
az eseménynapló helyére.
A minden folyamatfuttatás példányát frissítés-nek nevezik. A legutóbbi frissítéshez gyakran szeretne adatokat kinyerni. Futtassa a következő lekérdezést a legutóbbi frissítés azonosítójának megkereséséhez, és mentse azt latest_update_id
ideiglenes nézetben. Ezt a nézetet az ebben a cikkben szereplő példaeseménynapló-lekérdezések használják:
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;
Az eseménynaplót lekérdezheti egy Azure Databricks-jegyzetfüzetben vagy a SQL-szerkesztőben. A példaeseménynapló-lekérdezések futtatásához használjon jegyzetfüzetet vagy SQL-szerkesztőt.
Példa folyamatforráskód-jegyzetfüzetekre unity catalog nélküli munkaterületekhez
A következő jegyzetfüzeteket importálhatja egy Azure Databricks-munkaterületre a Unity Catalog engedélyezése nélkül, és használhatja őket egy DLT-folyamat üzembe helyezéséhez. Importálja a választott nyelv jegyzetfüzetét, és adja meg az elérési utat Forráskód mezőben, amikor konfigurál egy folyamatot a Hive metaadattár tárolási lehetőséggel. Lásd: a DLT-folyamat konfigurálása.