Użyj dbx do sync plików lokalnych z zdalnymi obszarami roboczymi w czasie rzeczywistym
Ważny
Ta dokumentacja została wycofana i może nie zostać zaktualizowana.
Databricks zaleca, aby zamiast dbx sync
używać CLI Databricks w wersji 0.205 lub nowszej, który zawiera funkcjonalność podobną do dbx sync
za pomocą polecenia databricks sync
.
Rozszerzenie Databricks dla programu Visual Studio Code zawiera również funkcje podobne do dbx sync
zintegrowane ze środowiskiem IDE programu Visual Studio Code. Należy pamiętać, że dbx sync
może synchronizować zmiany plików z lokalnego komputera deweloperskiego do DBFS, lokalizacji obszaru roboczego i folderów Git usługi Databricks w obszarach roboczych usługi Azure Databricks. Rozszerzenie usługi Databricks dla programu Visual Studio Code obsługuje synchronizowanie zmian plików tylko z plikami obszaru roboczego (/Users
) i folderami Git usługi Databricks (/Repos
).
Notatka
W tym artykule opisano dbx
przez usługę Databricks Labs, która jest dostarczana as-is i nie jest obsługiwana przez usługę Databricks za pośrednictwem kanałów pomocy technicznej klienta. Pytania i żądania funkcji można przekazać za pośrednictwem strony Problemy w repozytorium databrickslabs/dbx w witrynie GitHub.
Możesz przeprowadzać synchronizację zmian w czasie rzeczywistym z plików na swoim komputerze lokalnym z odpowiednimi plikami w obszarach roboczych Azure Databricks, używając dbx by Databricks Labs. Te pliki obszaru roboczego mogą znajdować się w DBFS lub folderach git usługi Databricks.
Synchronizacja plików w czasie rzeczywistym z dbx
(znana również jako dbx sync
) jest przydatna w scenariuszach szybkiego tworzenia kodu. Na przykład możesz użyć lokalnego zintegrowanego środowiska projektowego (IDE) do obsługi funkcji zwiększających produktywność, takich jak wyróżnianie składni, inteligentne uzupełnianie kodu, linting kodu oraz testowanie i debugowanie. Następnie możesz natychmiast przejść do obszaru roboczego i uruchomić zaktualizowany kod.
Można użyć dbx sync
samodzielnie, ze zautomatyzowanymi zadaniamilub ze środowiskiem IDE.
dbx sync
przepływy pracy programowania
Istnieją dwa przepływy pracy programowania dla dbx sync
, jeden z systemem plików DBFS i drugi z folderami Git usługi Databricks.
Typowy przepływ pracy programowania z systemami dbx sync
i DBFS to:
- Zidentyfikuj katalog lokalny zawierający pliki, które chcesz zsynchronizować z systemami DBFS.
- Zidentyfikuj ścieżkę w systemie plików DBFS, z którą chcesz zsynchronizować katalog lokalny (lub pozwól
dbx sync
utworzyć domyślną ścieżkę systemu plików DBFS dla Ciebie). - Uruchom
dbx sync dbfs
, aby zsynchronizować katalog lokalny ze ścieżką systemu plików DBFS.dbx sync
rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - W razie potrzeby wprowadź zmiany w plikach w katalogu lokalnym.
dbx sync
stosuje te zmiany do odpowiednich plików w ścieżce systemu plików DBFS w czasie rzeczywistym.
Typowy przepływ pracy deweloperskiej z folderami Git dbx sync
i Databricks to:
- Utwórz repozytorium za pomocą dostawcy Git , które jest obsługiwane przez foldery Git w usłudze Databricks, jeśli nie masz już dostępnego repozytorium.
- Sklonuj repozytorium do obszaru roboczego usługi Azure Databricks.
- Sklonuj repozytorium na lokalną maszynę deweloperów.
- Uruchom
dbx sync repo
, aby skojarzyć sklonowane repozytorium lokalne z sklonowanym repozytorium obszaru roboczego.dbx sync
rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - Wprowadź zmiany w plikach w lokalnym sklonowanym repozytorium zgodnie z potrzebami.
dbx sync
stosuje te zmiany do odpowiednich plików w folderach Git Databricks w czasie rzeczywistym. - Okresowo wypychaj zaktualizowane pliki z sklonowanego repozytorium w obszarze roboczym do dostawcy usługi Git, aby repozytorium było aktualne u dostawcy usługi Git.
Ważny
dbx sync
wykonuje tylko jednokierunkową synchronizację plików w czasie rzeczywistym ze lokalnych maszyn deweloperskich do zdalnego obszaru roboczego. W związku z tym usługa Databricks nie zaleca dokonywania zmian w obszarze roboczym usługi Azure Databricks dla plików monitorowanych przez dbx sync
. Jeśli musisz wprowadzić takie zmiany w pliku inicjowane przez obszar roboczy, należy również wykonać następujące czynności:
- W przypadku zmian plików w systemie plików DBFS wprowadź odpowiednie zmiany w plikach lokalnych ręcznie.
- W przypadku zmian plików w folderach Git w Databricks, prześlij zmiany plików z obszaru roboczego do dostawcy Git. Następnie na lokalnej maszynie deweloperskiej pobierz te zmiany z serwera Git.
Wymagania
Jeśli chcesz używać dbx sync
z folderami Git usługi Databricks, obszar roboczy usługi Azure Databricks musi spełniać następujące wymagania:
- Sugerowane jest klonowanie repozytorium za pomocą dostawcy usługi Git, choć nie jest to wymagane.
Na lokalnej maszynie deweloperskiej musisz mieć zainstalowane następujące komponenty:
Python w wersji 3.8 lub nowszej. Aby sprawdzić, czy język Python jest zainstalowany, i sprawdzić zainstalowaną wersję języka Python, uruchom
python --version
w terminalu lub programie PowerShell.python --version
Notatka
Niektóre instalacje
python
mogą wymagać użyciapython3
zamiastpython
. Jeśli tak, zastąppython
python3
w tym artykule.pip. Aby sprawdzić, czy
pip
jest zainstalowana, i sprawdzić zainstalowaną wersjępip
, uruchompip --version
lubpython -m pip --version
.pip --version # Or... python -m pip --version
Notatka
Niektóre instalacje
pip
mogą wymagać użyciapip3
zamiastpip
. Jeśli tak, zastąppip
pip3
w tym artykule.dbx w wersji 0.8.0 lub nowszej. Aby sprawdzić, czy
dbx
jest zainstalowana, i aby sprawdzić zainstalowaną wersjędbx
, uruchom poleceniedbx --version
. Aby zainstalowaćdbx
z poziomu indeksu pakietów języka Python (PyPI), uruchompip install dbx
lubpython -m pip install dbx
. (dbx
zawiera dbx sync.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Notatka
Aby uzyskać więcej informacji na temat
dbx
, zobacz dbx by Databricks Labs oraz dokumentację dbx.Interfejs wiersza polecenia usługi Databricks w wersji 0.18 lub starszej, set z uwierzytelnianiem . Starszy interfejs wiersza polecenia usługi Databricks (interfejs wiersza polecenia usługi Databricks w wersji 0.17) jest instalowany automatycznie podczas instalowania
dbx
. To uwierzytelnianie można set na lokalnej maszynie deweloperów w jednej lub obu następujących lokalizacjach:- W zmiennych środowiskowych
DATABRICKS_HOST
iDATABRICKS_TOKEN
(począwszy od starszej wersji CLI Databricks w wersji 0.8.0). - W profilu konfiguracji usługi Azure Databricks w pliku
.databrickscfg
.
dbx
szuka uwierzytelniania w dwóch lokalizacjach: credentials.dbx
używa tylko pierwszych set pasujących credentials, które znajdzie.Notatka
Jeśli używasz pliku
.databrickscfg
,dbx sync
domyślnie wyszukuje w tym pliku profil konfiguracji o nazwieDEFAULT
. Aby określić inny profil, użyj opcji--profile
podczas uruchamiania poleceniadbx sync
w dalszej części tego artykułu.nie obsługuje używania pliku .netrc do uwierzytelniania. - W zmiennych środowiskowych
Jeśli chcesz używać
dbx sync
z folderami Git w Databricks, zaleca się lokalne sklonowanie repozytorium u swojego dostawcy Git, choć nie jest to wymagane. Aby wykonać klon lokalny, zapoznaj się z dokumentacją dostawcy usługi Git.
Używanie systemu plików DBFS z dbx sync
Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu zawierającego pliki, które chcesz zsynchronizować z systemem plików DBFS w obszarze roboczym usługi Azure Databricks.
Uruchom polecenie dbx sync, aby zsynchronizować katalog lokalny z systemem plików DBFS w obszarze roboczym w następujący sposób. (Nie zapomnij kropki (
.
) na końcu, która reprezentuje bieżący katalog.dbx sync dbfs --source .
Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.
) inną ścieżką.Notatka
Jeśli pojawi się błąd
Error: No such command 'sync'
, prawdopodobnie instalacjadbx
jest nieaktualna. Aby rozwiązać ten problem, uruchompip install --upgrade dbx==<version>
lubpython -m pip install --upgrade dbx==version
, where<version>
jest najnowszą wersjądbx
. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
rozpoczyna synchronizowanie plików w bieżącym katalogu lokalnym z plikami w następującej ścieżce systemu plików DBFS w obszarze roboczym.dbx sync
potwierdza to, drukujeTarget base path
, a następnie ścieżkę DBFS, na przykład:/tmp/users/<your-Databricks-username>/<local-directory-name>
Napiwek
Aby określić inną nazwę użytkownika lub ścieżkę systemu plików DBFS, określ odpowiednio opcje
--user
i--dest
po uruchomieniudbx sync
.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważny
Aby
dbx sync
kontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx sync
przestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany pliku w poprzedniej ścieżce w systemie plików DBFS w obszarze roboczym.
Używanie folderów Git w Databricks z dbx sync
Z poziomu terminala lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu głównego, który zawiera sklonowane repozytorium od twojego dostawcy Git.
W obszarze roboczym usługi Azure Databricks zidentyfikuj nazwę folderu Usługi Git usługi Databricks, z którym chcesz zsynchronizować lokalne sklonowane repozytorium. Tę nazwę repozytorium można znaleźć, klikając foldery Git na pasku bocznym obszaru roboczego.
Na swojej lokalnej maszynie deweloperskiej uruchom polecenie dbx sync do synchronizowania lokalnego sklonowanego repozytorium z folderami Git usługi Databricks w obszarze roboczym, w następujący sposób: zastąp
<your-repo-name>
nazwą repozytorium w folderach Git usługi Databricks. (Nie zapomnij kropki (.
) na końcu, która reprezentuje bieżący katalog.dbx sync repo -d <your-repo-name> --source .
Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.
) inną ścieżką.Notatka
Jeśli pojawi się błąd
Error: No such command 'sync'
, prawdopodobnie instalacjadbx
jest nieaktualna. Aby rozwiązać ten problem, uruchompip install --upgrade dbx==<version>
lubpython -m pip install --upgrade dbx==version
, where<version>
jest najnowszą wersjądbx
. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
rozpoczyna synchronizowanie plików w lokalnym, sklonowanym repozytorium z plikami w folderach Git w Databricks w Twoim obszarze roboczym.dbx sync
potwierdza to, drukującTarget base path
, a następnie ścieżkę folderów Gita Databricks, na przykład:/Repos/<your-Databricks-username>/<your-repo-name>
Napiwek
Aby określić inną nazwę użytkownika lub nazwę repozytorium, określ odpowiednio opcje
--user
i--dest-repo
po uruchomieniudbx sync
.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważny
Aby
dbx sync
kontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx sync
przestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany plików w folderach Git usługi Databricks w obszarze roboczym.
Dodatkowe zasoby
- dbx dokumentacji
- dokumentacja dbx sync
- repozytorium databrickslabs/dbx na GitHubie
- ograniczenia dbx