Megosztás a következőn keresztül:


Helyi fájlok szinkronizálása távoli munkaterületekkel a dbx használatával valós időben

Fontos

Ez a dokumentáció ki lett állítva, és lehet, hogy nem frissül.

A Databricks azt javasolja, hogy dbx synchelyett a Databricks CLI 0.205-ös vagy újabb verzióját használja, amely a dbx sync paranccsal databricks sync hasonló funkciókat tartalmaz.

A Visual Studio Code Databricks bővítménye a Visual Studio Code IDE-be integrált funkciókhoz hasonló funkciókat is tartalmaz. Vegye figyelembe, hogy dbx sync szinkronizálhatja a fájlmódosításokat egy helyi fejlesztőgépről DBFS-, munkaterületi helyekre és Databricks Git-mappákra az Azure Databricks-munkaterületeken. A Visual Studio Code Databricks-bővítménye csak a munkaterület felhasználói (/Users) fájljaira és a Databricks Git-mappákra (/Repos) támogatja a fájlmódosítások szinkronizálását.

Jegyzet

Ez a cikk a Databricks Labs dbx ismerteti, amely as-is érhető el, és a Databricks nem támogatja az ügyfélszolgálati támogatási csatornákon keresztül. A kérdéseket és a funkciókéréseket a GitHubon található databrickslabs/dbx adattár Problémák lapján keresztül közölheti.

Databricks Labs által kifejlesztett dbx használatával valós idejű szinkronizálást végezhet a helyi fejlesztőgépen lévő fájlok módosításai és az azoknak megfelelő Azure Databricks munkaterületeken található fájlok között. Ezek a munkaterületfájlok lehetnek a DBFS--ban vagy a Databricks Git-mappákban.

A dbx (más néven dbx sync) valós idejű fájlszinkronizálás gyors kódfejlesztési forgatókönyvekben hasznos. Használhat például egy helyi integrált fejlesztési környezetet (IDE) a hatékonyságnövelő funkciókhoz, például a szintaxis kiemeléséhez, az intelligens kódkiegészítéshez, a kódbőzítéshez, valamint a teszteléshez és a hibakereséshez. Ezután azonnal a munkaterületre léphet, és futtathatja a frissített kódot.

Használhatja a dbx sync-t önmagában, a -et automatikus feladatokkal, vagy a -at egy IDE-vel.

dbx sync fejlesztési munkafolyamatok

A dbx syncesetében két fejlesztési munkafolyamat létezik: az egyik a DBFS-sel, a másik a Databricks Git-mappákkal.

A dbx sync és a DBFS jellemző fejlesztési munkafolyamata a következő:

  1. Azonosítsa a DBFS-sel szinkronizálni kívánt fájlokat tartalmazó helyi könyvtárat.
  2. Azonosítsa azt az elérési utat a DBFS-ben, amellyel szinkronizálni szeretné a helyi könyvtárat (vagy hagyja, hogy dbx sync hozzon létre egy alapértelmezett DBFS-elérési utat).
  3. Futtassa le a dbx sync dbfs-t a helyi könyvtár szinkronizálásához a DBFS elérési útjára. dbx sync elkezdi figyelni a helyi könyvtárat a fájlmódosítások miatt.
  4. Szükség szerint módosítsa a helyi könyvtár fájljait. dbx sync valós időben alkalmazza ezeket a módosításokat a DBFS-elérési út megfelelő fájljaira.

A dbx sync és a Databricks Git-mappák jellemző fejlesztési munkafolyamata a következő:

  1. Hozzon létre egy adattárat egy Git-szolgáltatóval,, amelyet a Databricks Git-mappák támogatnak, ha még nincs elérhető tárháza.
  2. Klónozza az adattárat az Azure Databricks-munkaterületre.
  3. Klónozza az adattárat a helyi fejlesztőgépre.
  4. Futtassa a dbx sync repo a helyi klónozott adattár és a munkaterület klónozott adattára társításához. dbx sync elkezdi figyelni a helyi könyvtárat a fájlmódosítások miatt.
  5. Szükség szerint módosítsa a helyi klónozott adattár fájljait. dbx sync valós időben alkalmazza ezeket a módosításokat a Databricks Git-mappák megfelelő fájljaira.
  6. Rendszeresen küldje le a frissített fájlokat a munkaterület klónozott adattárából a Git-szolgáltatónak, hogy az adattár naprakész maradjon a Git-szolgáltatónál.

Fontos

dbx sync csak egyirányú, valós idejű szinkronizálást végez a fájlmódosításokról a helyi fejlesztőgépről a távoli munkaterületre. A Databricks ezért nem javasolja, hogy az Azure Databricks-munkaterületen olyan fájlokat módosítson, amelyeket dbx syncfigyel. Ha ilyen munkaterület által kezdeményezett fájlmódosításokat kell végrehajtania, akkor a következőket is el kell végeznie:

  • A DBFS fájlmódosításaihoz végezze el manuálisan a helyi fájlok megfelelő módosításait.
  • A Databricks Git-mappák fájlmódosításai esetén küldje el a fájlmódosításokat a munkaterületről a Git-szolgáltatónak. Ezután a helyi fejlesztőgépen kérje le ezeket a fájlmódosításokat a Git-szolgáltatótól.

Követelmények

Ha a dbx sync Databricks Git-mappákkal szeretné használni, az Azure Databricks-munkaterületnek a következő követelményeknek kell megfelelnie:

  • Javasolt egy klón létrehozása az adattáradból a Git-szolgáltató segítségével, de nem kötelező.

A helyi fejlesztőgépen a következőket kell telepítenie:

  • Python 3.8-es vagy újabb verziója. A Python telepítésének ellenőrzéséhez és a telepített Python-verzió ellenőrzéséhez futtassa a python --version a terminálban vagy a PowerShellben.

    python --version
    

    Jegyzet

    Előfordulhat, hogy a python egyes telepítéseihez python3helyett python kell használnia. Ha igen, helyettesítse a python-t python3-re a cikk egészében.

  • pip. Annak ellenőrzésére, hogy a pip telepítve van-e, és hogy megnézze a telepített pip verziót, futtassa a pip --version vagy a python -m pip --versionparancsot.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Jegyzet

    Előfordulhat, hogy a pip egyes telepítéseihez pip3helyett pip kell használnia. Ha igen, helyettesítse a pip-t pip3-re a cikk egészében.

  • dbx 0.8.0 vagy annál magasabb verzió. A dbx telepítésének ellenőrzéséhez és a telepített dbx verzió ellenőrzéséhez futtassa a dbx --version. A Python-csomagindexből (PyPI) származó dbx telepítéséhez futtassa pip install dbx vagy python -m pip install dbx. (dbx tartalmazza dbx szinkront.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Jegyzet

    További információért a(z) -ról, lásd a Databricks Labs dbx-et és a(z) dbx dokumentáció-t.

  • A Databricks CLI 0.18-es vagy alacsonyabb verziója, hitelesítéssel van beállítva. Az örökölt Databricks CLI (Databricks CLI 0.17-es verziója) automatikusan telepítve lesz dbxtelepítésekor. Ezt a hitelesítést a helyi fejlesztőgépen az alábbi helyek egyikén vagy mindkettőben állíthatja be:

    • A DATABRICKS_HOST és DATABRICKS_TOKEN környezeti változókon belül (az örökölt Databricks CLI 0.8.0-s verziójától kezdve).
    • Azure Databricks konfigurációs profilban a .databrickscfg fájlodban.

    dbx az alábbi két helyen keresi a hitelesítési adatokat, sorrendben. dbx csak az első egyező hitelesítő adatokat használja.

    Jegyzet

    Ha .databrickscfg fájlt használ, dbx sync alapértelmezés szerint egy DEFAULT nevű konfigurációs profilt keres ebben a fájlban. Másik profil megadásához használja a --profile lehetőséget a dbx sync parancs futtatásakor, a jelen cikk későbbi részében.

    dbx nem támogatja a .netrc fájl hitelesítésre való használatát.

  • Ha a dbx sync-t a Databricks Git-mappákkal szeretné használni, javasolt a saját adattárának helyi klónját létrehozni a Git-szolgáltatójával, még ha nem is kötelező. Helyi klón végrehajtásához tekintse meg a Git-szolgáltató dokumentációját.

DBFS használata dbx sync

  1. A helyi fejlesztőgép termináljáról vagy PowerShell-ről váltson arra a könyvtárra, amely az Azure Databricks-munkaterületen lévő DBFS-sel szinkronizálni kívánt fájlokat tartalmazza.

  2. Futtassa a dbx sync parancsot, hogy a helyi könyvtárat szinkronizálja a munkaterület DBFS-ével az alábbiak szerint. (Ne felejtse el a pont (.) a végén, amely az aktuális könyvtárat jelöli.)

    dbx sync dbfs --source .
    

    Borravaló

    Másik forráskönyvtár megadásához cserélje le a pontot (.) másik elérési útra.

    Jegyzet

    Ha a hiba Error: No such command 'sync' jelenik meg, a dbx telepítése valószínűleg elavult. A probléma megoldásához futtassa pip install --upgrade dbx==<version> vagy python -m pip install --upgrade dbx==version, ahol <version> a dbxlegújabb verziója. Ez a verziószám a dbxPyPI weblapján található.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync megkezdi az aktuális helyi könyvtár fájljainak szinkronizálását a munkaterület alábbi DBFS-elérési útján található fájlokkal. dbx sync ezt a Target base path nyomtatásával, majd a DBFS-elérési úttal erősíti meg, például:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Borravaló

    Másik felhasználónév vagy DBFS-elérési út megadásához adja meg a --user és --dest beállításokat a dbx syncfuttatásakor.

  4. Szükség szerint módosítsa a helyi fájlokat.

    Fontos

    A dbx sync szinkronizálás folytatásához nyitva kell tartania a terminált vagy a PowerShellt. Ha bezárja a terminált vagy a PowerShellt, dbx sync leállítja a fájlmódosítások figyelését, és leáll a szinkronizálás. A fájlmódosítás szinkronizálásának folytatásához ismételje meg ezt az eljárást az elejétől kezdve.

  5. Szükség esetén ellenőrizze a fájlmódosításokat a munkaterületén lévő DBFS alábbi útvonalán.

A Databricks Git-mappák használata dbx sync

  1. A helyi fejlesztőgépe terminálján vagy a PowerShell használatával lépjen abba a gyökérkönyvtárba, amely az adattár klónját tartalmazza a Git-szolgáltatónál.

  2. Az Azure Databricks-munkaterületen azonosítsa annak a Databricks Git-mappának a nevét, amelyhez szinkronizálni szeretné a helyi klónozott adattárat. A munkaterület oldalsávján a Git mappákra kattintva megtalálhatja ezt a repo nevet.

  3. A helyi fejlesztőgépen futtassa a dbx sync parancsot a helyi klónozott adattár szinkronizálásához a munkaterület Databricks Git-mappáihoz az alábbiak szerint, és cserélje le a <your-repo-name> a Databricks Git-mappákban lévő adattár nevére. (Ne felejtse el a pont (.) a végén, amely az aktuális könyvtárat jelöli.)

    dbx sync repo -d <your-repo-name> --source .
    

    Borravaló

    Másik forráskönyvtár megadásához cserélje le a pontot (.) másik elérési útra.

    Jegyzet

    Ha a hiba Error: No such command 'sync' jelenik meg, a dbx telepítése valószínűleg elavult. A probléma megoldásához futtassa pip install --upgrade dbx==<version> vagy python -m pip install --upgrade dbx==version, ahol <version> a dbxlegújabb verziója. Ez a verziószám a dbxPyPI weblapján található.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync megkezdi a helyi klónozott adattár fájljainak szinkronizálását a munkaterület Databricks Git-mappáiban lévő fájlokkal. dbx sync ezt úgy erősíti meg, hogy kinyomtatja Target base path-t, amelyet a Databricks Git-mappák elérési útja követ, például:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Borravaló

    Ha másik felhasználónevet vagy adattárnevet szeretne megadni, adja meg a --user és --dest-repo beállításokat a dbx syncfuttatásakor.

  5. Szükség szerint módosítsa a helyi fájlokat.

    Fontos

    A dbx sync szinkronizálás folytatásához nyitva kell tartania a terminált vagy a PowerShellt. Ha bezárja a terminált vagy a PowerShellt, dbx sync leállítja a fájlmódosítások figyelését, és leáll a szinkronizálás. A fájlmódosítás szinkronizálásának folytatásához ismételje meg ezt az eljárást az elejétől kezdve.

  6. Szükség szerint ellenőrizze a fájlmódosításokat a munkaterület Databricks Git-mappáiban.

További erőforrások