Helyi fájlok szinkronizálása távoli munkaterületekkel a dbx használatával valós időben
Fontos
Ez a dokumentáció ki lett állítva, és lehet, hogy nem frissül.
A Databricks azt javasolja, hogy dbx sync
helyett a Databricks CLI 0.205-ös vagy újabb verzióját használja, amely a dbx sync
paranccsal databricks sync
hasonló funkciókat tartalmaz.
A Visual Studio Code dbx sync
szinkronizálhatja a fájlmódosításokat egy helyi fejlesztőgépről DBFS-, munkaterületi helyekre és Databricks Git-mappákra az Azure Databricks-munkaterületeken. A Visual Studio Code Databricks-bővítménye csak a munkaterület felhasználói (/Users
) fájljaira és a Databricks Git-mappákra (/Repos
) támogatja a fájlmódosítások szinkronizálását.
Jegyzet
Ez a cikk a Databricks Labs dbx
ismerteti, amely as-is érhető el, és a Databricks nem támogatja az ügyfélszolgálati támogatási csatornákon keresztül. A kérdéseket és a funkciókéréseket a GitHubon található databrickslabs/dbx adattár Problémák lapján keresztül közölheti.
Databricks Labs által kifejlesztett dbx használatával valós idejű szinkronizálást végezhet a helyi fejlesztőgépen lévő fájlok módosításai és az azoknak megfelelő Azure Databricks munkaterületeken található fájlok között. Ezek a munkaterületfájlok lehetnek a DBFS--ban vagy a Databricks Git-mappákban.
A dbx
(más néven dbx sync
) valós idejű fájlszinkronizálás gyors kódfejlesztési forgatókönyvekben hasznos. Használhat például egy helyi integrált fejlesztési környezetet (IDE) a hatékonyságnövelő funkciókhoz, például a szintaxis kiemeléséhez, az intelligens kódkiegészítéshez, a kódbőzítéshez, valamint a teszteléshez és a hibakereséshez. Ezután azonnal a munkaterületre léphet, és futtathatja a frissített kódot.
Használhatja a dbx sync
-t önmagában, a -et automatikus feladatokkal, vagy a -at egy IDE-vel.
dbx sync
fejlesztési munkafolyamatok
A dbx sync
esetében két fejlesztési munkafolyamat létezik: az egyik a DBFS-sel, a másik a Databricks Git-mappákkal.
A dbx sync
és a DBFS jellemző fejlesztési munkafolyamata a következő:
- Azonosítsa a DBFS-sel szinkronizálni kívánt fájlokat tartalmazó helyi könyvtárat.
- Azonosítsa azt az elérési utat a DBFS-ben, amellyel szinkronizálni szeretné a helyi könyvtárat (vagy hagyja, hogy
dbx sync
hozzon létre egy alapértelmezett DBFS-elérési utat). - Futtassa le a
dbx sync dbfs
-t a helyi könyvtár szinkronizálásához a DBFS elérési útjára.dbx sync
elkezdi figyelni a helyi könyvtárat a fájlmódosítások miatt. - Szükség szerint módosítsa a helyi könyvtár fájljait.
dbx sync
valós időben alkalmazza ezeket a módosításokat a DBFS-elérési út megfelelő fájljaira.
A dbx sync
és a Databricks Git-mappák jellemző fejlesztési munkafolyamata a következő:
- Hozzon létre egy adattárat egy Git-szolgáltatóval,, amelyet a Databricks Git-mappák támogatnak, ha még nincs elérhető tárháza.
- Klónozza az adattárat az Azure Databricks-munkaterületre.
- Klónozza az adattárat a helyi fejlesztőgépre.
- Futtassa a
dbx sync repo
a helyi klónozott adattár és a munkaterület klónozott adattára társításához.dbx sync
elkezdi figyelni a helyi könyvtárat a fájlmódosítások miatt. - Szükség szerint módosítsa a helyi klónozott adattár fájljait.
dbx sync
valós időben alkalmazza ezeket a módosításokat a Databricks Git-mappák megfelelő fájljaira. - Rendszeresen küldje le a frissített fájlokat a munkaterület klónozott adattárából a Git-szolgáltatónak, hogy az adattár naprakész maradjon a Git-szolgáltatónál.
Fontos
dbx sync
csak egyirányú, valós idejű szinkronizálást végez a fájlmódosításokról a helyi fejlesztőgépről a távoli munkaterületre. A Databricks ezért nem javasolja, hogy az Azure Databricks-munkaterületen olyan fájlokat módosítson, amelyeket dbx sync
figyel. Ha ilyen munkaterület által kezdeményezett fájlmódosításokat kell végrehajtania, akkor a következőket is el kell végeznie:
- A DBFS fájlmódosításaihoz végezze el manuálisan a helyi fájlok megfelelő módosításait.
- A Databricks Git-mappák fájlmódosításai esetén küldje el a fájlmódosításokat a munkaterületről a Git-szolgáltatónak. Ezután a helyi fejlesztőgépen kérje le ezeket a fájlmódosításokat a Git-szolgáltatótól.
Követelmények
Ha a dbx sync
Databricks Git-mappákkal szeretné használni, az Azure Databricks-munkaterületnek a következő követelményeknek kell megfelelnie:
A helyi fejlesztőgépen a következőket kell telepítenie:
Python 3.8-es vagy újabb verziója. A Python telepítésének ellenőrzéséhez és a telepített Python-verzió ellenőrzéséhez futtassa a
python --version
a terminálban vagy a PowerShellben.python --version
Jegyzet
Előfordulhat, hogy a
python
egyes telepítéseihezpython3
helyettpython
kell használnia. Ha igen, helyettesítse apython
-tpython3
-re a cikk egészében.pip. Annak ellenőrzésére, hogy a
pip
telepítve van-e, és hogy megnézze a telepítettpip
verziót, futtassa apip --version
vagy apython -m pip --version
parancsot.pip --version # Or... python -m pip --version
Jegyzet
Előfordulhat, hogy a
pip
egyes telepítéseihezpip3
helyettpip
kell használnia. Ha igen, helyettesítse apip
-tpip3
-re a cikk egészében.dbx 0.8.0 vagy annál magasabb verzió. A
dbx
telepítésének ellenőrzéséhez és a telepítettdbx
verzió ellenőrzéséhez futtassa adbx --version
. A Python-csomagindexből (PyPI) származódbx
telepítéséhez futtassapip install dbx
vagypython -m pip install dbx
. (dbx
tartalmazza dbx szinkront.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Jegyzet
További információért a(z)
-ról, lásd a Databricks Labs dbx-et és a(z) dbx dokumentáció -t.A Databricks CLI 0.18-es vagy alacsonyabb verziója, hitelesítéssel van beállítva. Az örökölt Databricks CLI (Databricks CLI 0.17-es verziója) automatikusan telepítve lesz
dbx
telepítésekor. Ezt a hitelesítést a helyi fejlesztőgépen az alábbi helyek egyikén vagy mindkettőben állíthatja be:- A
DATABRICKS_HOST
ésDATABRICKS_TOKEN
környezeti változókon belül (az örökölt Databricks CLI 0.8.0-s verziójától kezdve). - Azure Databricks konfigurációs profilban a
.databrickscfg
fájlodban.
dbx
az alábbi két helyen keresi a hitelesítési adatokat, sorrendben.dbx
csak az első egyező hitelesítő adatokat használja.Jegyzet
Ha
.databrickscfg
fájlt használ,dbx sync
alapértelmezés szerint egyDEFAULT
nevű konfigurációs profilt keres ebben a fájlban. Másik profil megadásához használja a--profile
lehetőséget adbx sync
parancs futtatásakor, a jelen cikk későbbi részében.dbx
nem támogatja a .netrc fájl hitelesítésre való használatát.- A
Ha a
dbx sync
-t a Databricks Git-mappákkal szeretné használni, javasolt a saját adattárának helyi klónját létrehozni a Git-szolgáltatójával, még ha nem is kötelező. Helyi klón végrehajtásához tekintse meg a Git-szolgáltató dokumentációját.
DBFS használata dbx sync
A helyi fejlesztőgép termináljáról vagy PowerShell-ről váltson arra a könyvtárra, amely az Azure Databricks-munkaterületen lévő DBFS-sel szinkronizálni kívánt fájlokat tartalmazza.
Futtassa a dbx sync parancsot, hogy a helyi könyvtárat szinkronizálja a munkaterület DBFS-ével az alábbiak szerint. (Ne felejtse el a pont (
.
) a végén, amely az aktuális könyvtárat jelöli.)dbx sync dbfs --source .
Borravaló
Másik forráskönyvtár megadásához cserélje le a pontot (
.
) másik elérési útra.Jegyzet
Ha a hiba
Error: No such command 'sync'
jelenik meg, adbx
telepítése valószínűleg elavult. A probléma megoldásához futtassapip install --upgrade dbx==<version>
vagypython -m pip install --upgrade dbx==version
, ahol<version>
adbx
legújabb verziója. Ez a verziószám a dbxPyPI weblapján található. pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
megkezdi az aktuális helyi könyvtár fájljainak szinkronizálását a munkaterület alábbi DBFS-elérési útján található fájlokkal.dbx sync
ezt aTarget base path
nyomtatásával, majd a DBFS-elérési úttal erősíti meg, például:/tmp/users/<your-Databricks-username>/<local-directory-name>
Borravaló
Másik felhasználónév vagy DBFS-elérési út megadásához adja meg a
--user
és--dest
beállításokat adbx sync
futtatásakor.Szükség szerint módosítsa a helyi fájlokat.
Fontos
A
dbx sync
szinkronizálás folytatásához nyitva kell tartania a terminált vagy a PowerShellt. Ha bezárja a terminált vagy a PowerShellt,dbx sync
leállítja a fájlmódosítások figyelését, és leáll a szinkronizálás. A fájlmódosítás szinkronizálásának folytatásához ismételje meg ezt az eljárást az elejétől kezdve.Szükség esetén ellenőrizze a fájlmódosításokat a munkaterületén lévő DBFS alábbi útvonalán.
A Databricks Git-mappák használata dbx sync
A helyi fejlesztőgépe terminálján vagy a PowerShell használatával lépjen abba a gyökérkönyvtárba, amely az adattár klónját tartalmazza a Git-szolgáltatónál.
Az Azure Databricks-munkaterületen azonosítsa annak a Databricks Git-mappának a nevét, amelyhez szinkronizálni szeretné a helyi klónozott adattárat. A munkaterület oldalsávján a Git mappákra kattintva megtalálhatja ezt a repo nevet.
A helyi fejlesztőgépen futtassa a dbx sync parancsot a helyi klónozott adattár szinkronizálásához a munkaterület Databricks Git-mappáihoz az alábbiak szerint, és cserélje le a
<your-repo-name>
a Databricks Git-mappákban lévő adattár nevére. (Ne felejtse el a pont (.
) a végén, amely az aktuális könyvtárat jelöli.)dbx sync repo -d <your-repo-name> --source .
Borravaló
Másik forráskönyvtár megadásához cserélje le a pontot (
.
) másik elérési útra.Jegyzet
Ha a hiba
Error: No such command 'sync'
jelenik meg, adbx
telepítése valószínűleg elavult. A probléma megoldásához futtassapip install --upgrade dbx==<version>
vagypython -m pip install --upgrade dbx==version
, ahol<version>
adbx
legújabb verziója. Ez a verziószám a dbxPyPI weblapján található. pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
megkezdi a helyi klónozott adattár fájljainak szinkronizálását a munkaterület Databricks Git-mappáiban lévő fájlokkal.dbx sync
ezt úgy erősíti meg, hogy kinyomtatjaTarget base path
-t, amelyet a Databricks Git-mappák elérési útja követ, például:/Repos/<your-Databricks-username>/<your-repo-name>
Borravaló
Ha másik felhasználónevet vagy adattárnevet szeretne megadni, adja meg a
--user
és--dest-repo
beállításokat adbx sync
futtatásakor.Szükség szerint módosítsa a helyi fájlokat.
Fontos
A
dbx sync
szinkronizálás folytatásához nyitva kell tartania a terminált vagy a PowerShellt. Ha bezárja a terminált vagy a PowerShellt,dbx sync
leállítja a fájlmódosítások figyelését, és leáll a szinkronizálás. A fájlmódosítás szinkronizálásának folytatásához ismételje meg ezt az eljárást az elejétől kezdve.Szükség szerint ellenőrizze a fájlmódosításokat a munkaterület Databricks Git-mappáiban.
További erőforrások
- dbx dokumentációja
- dbx-szinkronizálás dokumentációja
- databrickslabs/dbx adattár a GitHubon
- dbx korlátozásai