DLT-folyamatok használata régi Hive-metaadattárral

Cikk
03/05/2025

Ez a cikk az adatok régi Hive-metaadattárban való közzétételére konfigurált DLT-folyamatokra vonatkozó konfigurációkat és kikötéseket ismerteti. A Databricks a Unity Catalog használatát javasolja az összes új folyamathoz. Lásd A Unity-katalógus használata DLT-folyamatokkal.

Jegyzet

Ez a cikk a pipeline-ek jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott csővezetések a hagyományos közzétételi módot és a LIVE virtuális sémát használhatják. Lásd: LIVE séma (örökölt).

Streamelési táblák és materializált nézetek lekérdezése az örökölt Hive-metaadattárban

A frissítés befejezése után megtekintheti a sémát és a táblákat, lekérdezheti az adatokat, vagy használhatja az adatokat az alárendelt alkalmazásokban.

A közzététel után a DLT-táblák lekérdezhetők bármely olyan környezetből, amely hozzáféréssel rendelkezik a célsémához. Ez magában foglalja a Databricks SQL-t, a jegyzetfüzeteket és más DLT-folyamatokat.

Fontos

target konfiguráció létrehozásakor a rendszer csak táblákat és a hozzájuk tartozó metaadatokat teszi közzé. A nézetek nem jelennek meg a metaadattárban.

Folyamat konfigurálása a Hive metaadattárban való közzétételhez

Új folyamat létrehozásakor megadhatja Hive-metaadattár a Tárolási beállítások az örökölt Hive metaadattárban való közzétételhez. A Hive metaadattárban való közzétételkor meg kell adnia egy alapértelmezett célsémát. Lásd DLT-folyamat konfigurálása.

Tárolási hely megadása

Megadhatja a tárolási helyet egy olyan adatfolyam számára, amely a Hive metaadattárba publikál. A hely meghatározásának elsődleges célja a folyamat által írt adatok objektumtárolási helyének szabályozása. A Databricks azt javasolja, hogy mindig adjon meg egy tárolóhelyet, hogy ne írjon a DBFS-gyökérre.

Mivel a DLT-folyamatok összes tábláját, adatát, ellenőrzőpontját és metaadatait teljes mértékben a DLT felügyeli, a DLT-adatkészletekkel való legtöbb interakció a Hive metaadattárban vagy a Unity-katalógusban regisztrált táblákon keresztül történik.

felhőalapú tároló konfigurációja

Az Azure Storageeléréséhez konfigurálnia kell a szükséges paramétereket, beleértve a hozzáférési tokeneket is, a fürtkonfigurációk spark.conf-es beállításaival. Az Azure Data Lake Storage Gen2 (ADLS Gen2) tárfiókhoz való hozzáférés konfigurálásának példáját lásd a Tárolói hitelesítő adatok biztonságos elérése titkokkal egy pipeline-banrészben.

Hive metaadattár-folyamatok eseménynaplójának futtatása

Ha a folyamat táblákat tesz közzé a Hive metaadattárban, az eseménynaplót a rendszer /system/events tárolja a storage helyen. Ha például a pipeline storage beállítását /Users/username/datakonfigurálta, az eseménynapló a DBFS /Users/username/data/system/events elérési útján lesz tárolva.

Ha nem konfigurálta a storage beállítást, az alapértelmezett eseménynapló helye /pipelines/<pipeline-id>/system/events a DBFS-ben. Ha például a folyamat azonosítója 91de5e48-35ed-11ec-8d3d-0242ac130003, a tárolási hely /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Létrehozhat egy nézetet, amely leegyszerűsíti az eseménynapló lekérdezését. Az alábbi példa egy event_log_rawnevű ideiglenes nézetet hoz létre. Ezt a nézetet az ebben a cikkben szereplő példaeseménynapló-lekérdezések használják:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Cserélje le <event-log-path> az eseménynapló helyére.

A minden folyamatfuttatás példányát frissítés-nek nevezik. A legutóbbi frissítéshez gyakran szeretne adatokat kinyerni. Futtassa a következő lekérdezést a legutóbbi frissítés azonosítójának megkereséséhez, és mentse azt latest_update_id ideiglenes nézetben. Ezt a nézetet az ebben a cikkben szereplő példaeseménynapló-lekérdezések használják:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Az eseménynaplót lekérdezheti egy Azure Databricks-jegyzetfüzetben vagy a SQL-szerkesztőben. A példaeseménynapló-lekérdezések futtatásához használjon jegyzetfüzetet vagy SQL-szerkesztőt.

Példa folyamatforráskód-jegyzetfüzetekre unity catalog nélküli munkaterületekhez

A következő jegyzetfüzeteket importálhatja egy Azure Databricks-munkaterületre a Unity Catalog engedélyezése nélkül, és használhatja őket egy DLT-folyamat üzembe helyezéséhez. Importálja a választott nyelv jegyzetfüzetét, és adja meg az elérési utat Forráskód mezőben, amikor konfigurál egy folyamatot a Hive metaadattár tárolási lehetőséggel. Lásd: a DLT-folyamat konfigurálása.

A DLT Python-jegyzetfüzet használatának első lépései

Jegyzetfüzet lekérése

A DLT SQL-jegyzetfüzet használatának első lépései