Udostępnij za pośrednictwem


Użyj dbx do sync plików lokalnych z zdalnymi obszarami roboczymi w czasie rzeczywistym

Ważny

Ta dokumentacja została wycofana i może nie zostać zaktualizowana.

Databricks zaleca, aby zamiast dbx syncużywać CLI Databricks w wersji 0.205 lub nowszej, który zawiera funkcjonalność podobną do dbx sync za pomocą polecenia databricks sync.

Rozszerzenie Databricks dla programu Visual Studio Code zawiera również funkcje podobne do dbx sync zintegrowane ze środowiskiem IDE programu Visual Studio Code. Należy pamiętać, że dbx sync może synchronizować zmiany plików z lokalnego komputera deweloperskiego do DBFS, lokalizacji obszaru roboczego i folderów Git usługi Databricks w obszarach roboczych usługi Azure Databricks. Rozszerzenie usługi Databricks dla programu Visual Studio Code obsługuje synchronizowanie zmian plików tylko z plikami obszaru roboczego (/Users) i folderami Git usługi Databricks (/Repos).

Notatka

W tym artykule opisano dbx przez usługę Databricks Labs, która jest dostarczana as-is i nie jest obsługiwana przez usługę Databricks za pośrednictwem kanałów pomocy technicznej klienta. Pytania i żądania funkcji można przekazać za pośrednictwem strony Problemy w repozytorium databrickslabs/dbx w witrynie GitHub.

Możesz przeprowadzać synchronizację zmian w czasie rzeczywistym z plików na swoim komputerze lokalnym z odpowiednimi plikami w obszarach roboczych Azure Databricks, używając dbx by Databricks Labs. Te pliki obszaru roboczego mogą znajdować się w DBFS lub folderach git usługi Databricks.

Synchronizacja plików w czasie rzeczywistym z dbx (znana również jako dbx sync) jest przydatna w scenariuszach szybkiego tworzenia kodu. Na przykład możesz użyć lokalnego zintegrowanego środowiska projektowego (IDE) do obsługi funkcji zwiększających produktywność, takich jak wyróżnianie składni, inteligentne uzupełnianie kodu, linting kodu oraz testowanie i debugowanie. Następnie możesz natychmiast przejść do obszaru roboczego i uruchomić zaktualizowany kod.

Można użyć dbx sync samodzielnie, ze zautomatyzowanymi zadaniamilub ze środowiskiem IDE.

dbx sync przepływy pracy programowania

Istnieją dwa przepływy pracy programowania dla dbx sync, jeden z systemem plików DBFS i drugi z folderami Git usługi Databricks.

Typowy przepływ pracy programowania z systemami dbx sync i DBFS to:

  1. Zidentyfikuj katalog lokalny zawierający pliki, które chcesz zsynchronizować z systemami DBFS.
  2. Zidentyfikuj ścieżkę w systemie plików DBFS, z którą chcesz zsynchronizować katalog lokalny (lub pozwól dbx sync utworzyć domyślną ścieżkę systemu plików DBFS dla Ciebie).
  3. Uruchom dbx sync dbfs, aby zsynchronizować katalog lokalny ze ścieżką systemu plików DBFS. dbx sync rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku.
  4. W razie potrzeby wprowadź zmiany w plikach w katalogu lokalnym. dbx sync stosuje te zmiany do odpowiednich plików w ścieżce systemu plików DBFS w czasie rzeczywistym.

Typowy przepływ pracy deweloperskiej z folderami Git dbx sync i Databricks to:

  1. Utwórz repozytorium za pomocą dostawcy Git , które jest obsługiwane przez foldery Git w usłudze Databricks, jeśli nie masz już dostępnego repozytorium.
  2. Sklonuj repozytorium do obszaru roboczego usługi Azure Databricks.
  3. Sklonuj repozytorium na lokalną maszynę deweloperów.
  4. Uruchom dbx sync repo, aby skojarzyć sklonowane repozytorium lokalne z sklonowanym repozytorium obszaru roboczego. dbx sync rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku.
  5. Wprowadź zmiany w plikach w lokalnym sklonowanym repozytorium zgodnie z potrzebami. dbx sync stosuje te zmiany do odpowiednich plików w folderach Git Databricks w czasie rzeczywistym.
  6. Okresowo wypychaj zaktualizowane pliki z sklonowanego repozytorium w obszarze roboczym do dostawcy usługi Git, aby repozytorium było aktualne u dostawcy usługi Git.

Ważny

dbx sync wykonuje tylko jednokierunkową synchronizację plików w czasie rzeczywistym ze lokalnych maszyn deweloperskich do zdalnego obszaru roboczego. W związku z tym usługa Databricks nie zaleca dokonywania zmian w obszarze roboczym usługi Azure Databricks dla plików monitorowanych przez dbx sync. Jeśli musisz wprowadzić takie zmiany w pliku inicjowane przez obszar roboczy, należy również wykonać następujące czynności:

  • W przypadku zmian plików w systemie plików DBFS wprowadź odpowiednie zmiany w plikach lokalnych ręcznie.
  • W przypadku zmian plików w folderach Git w Databricks, prześlij zmiany plików z obszaru roboczego do dostawcy Git. Następnie na lokalnej maszynie deweloperskiej pobierz te zmiany z serwera Git.

Wymagania

Jeśli chcesz używać dbx sync z folderami Git usługi Databricks, obszar roboczy usługi Azure Databricks musi spełniać następujące wymagania:

  • Sugerowane jest klonowanie repozytorium za pomocą dostawcy usługi Git, choć nie jest to wymagane.

Na lokalnej maszynie deweloperskiej musisz mieć zainstalowane następujące komponenty:

  • Python w wersji 3.8 lub nowszej. Aby sprawdzić, czy język Python jest zainstalowany, i sprawdzić zainstalowaną wersję języka Python, uruchom python --version w terminalu lub programie PowerShell.

    python --version
    

    Notatka

    Niektóre instalacje python mogą wymagać użycia python3 zamiast python. Jeśli tak, zastąp pythonpython3 w tym artykule.

  • pip. Aby sprawdzić, czy pip jest zainstalowana, i sprawdzić zainstalowaną wersję pip, uruchom pip --version lub python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Notatka

    Niektóre instalacje pip mogą wymagać użycia pip3 zamiast pip. Jeśli tak, zastąp pippip3 w tym artykule.

  • dbx w wersji 0.8.0 lub nowszej. Aby sprawdzić, czy dbx jest zainstalowana, i aby sprawdzić zainstalowaną wersję dbx, uruchom polecenie dbx --version. Aby zainstalować dbx z poziomu indeksu pakietów języka Python (PyPI), uruchom pip install dbx lub python -m pip install dbx. (dbx zawiera dbx sync.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Notatka

    Aby uzyskać więcej informacji na temat dbx, zobacz dbx by Databricks Labs oraz dokumentację dbx.

  • Interfejs wiersza polecenia usługi Databricks w wersji 0.18 lub starszej, set z uwierzytelnianiem . Starszy interfejs wiersza polecenia usługi Databricks (interfejs wiersza polecenia usługi Databricks w wersji 0.17) jest instalowany automatycznie podczas instalowania dbx. To uwierzytelnianie można set na lokalnej maszynie deweloperów w jednej lub obu następujących lokalizacjach:

    • W zmiennych środowiskowych DATABRICKS_HOST i DATABRICKS_TOKEN (począwszy od starszej wersji CLI Databricks w wersji 0.8.0).
    • W profilu konfiguracji usługi Azure Databricks w pliku .databrickscfg.

    dbx szuka uwierzytelniania w dwóch lokalizacjach: credentials. dbx używa tylko pierwszych set pasujących credentials, które znajdzie.

    Notatka

    Jeśli używasz pliku .databrickscfg, dbx sync domyślnie wyszukuje w tym pliku profil konfiguracji o nazwie DEFAULT. Aby określić inny profil, użyj opcji --profile podczas uruchamiania polecenia dbx sync w dalszej części tego artykułu.

    nie obsługuje używania pliku .netrc do uwierzytelniania.

  • Jeśli chcesz używać dbx sync z folderami Git w Databricks, zaleca się lokalne sklonowanie repozytorium u swojego dostawcy Git, choć nie jest to wymagane. Aby wykonać klon lokalny, zapoznaj się z dokumentacją dostawcy usługi Git.

Używanie systemu plików DBFS z dbx sync

  1. Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu zawierającego pliki, które chcesz zsynchronizować z systemem plików DBFS w obszarze roboczym usługi Azure Databricks.

  2. Uruchom polecenie dbx sync, aby zsynchronizować katalog lokalny z systemem plików DBFS w obszarze roboczym w następujący sposób. (Nie zapomnij kropki (.) na końcu, która reprezentuje bieżący katalog.

    dbx sync dbfs --source .
    

    Napiwek

    Aby określić inny katalog źródłowy, zastąp kropkę (.) inną ścieżką.

    Notatka

    Jeśli pojawi się błąd Error: No such command 'sync', prawdopodobnie instalacja dbx jest nieaktualna. Aby rozwiązać ten problem, uruchom pip install --upgrade dbx==<version> lub python -m pip install --upgrade dbx==version, where<version> jest najnowszą wersją dbx. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync rozpoczyna synchronizowanie plików w bieżącym katalogu lokalnym z plikami w następującej ścieżce systemu plików DBFS w obszarze roboczym. dbx sync potwierdza to, drukuje Target base path, a następnie ścieżkę DBFS, na przykład:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Napiwek

    Aby określić inną nazwę użytkownika lub ścieżkę systemu plików DBFS, określ odpowiednio opcje --user i --dest po uruchomieniu dbx sync.

  4. Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.

    Ważny

    Aby dbx sync kontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell, dbx sync przestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.

  5. W razie potrzeby zweryfikuj zmiany pliku w poprzedniej ścieżce w systemie plików DBFS w obszarze roboczym.

Używanie folderów Git w Databricks z dbx sync

  1. Z poziomu terminala lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu głównego, który zawiera sklonowane repozytorium od twojego dostawcy Git.

  2. W obszarze roboczym usługi Azure Databricks zidentyfikuj nazwę folderu Usługi Git usługi Databricks, z którym chcesz zsynchronizować lokalne sklonowane repozytorium. Tę nazwę repozytorium można znaleźć, klikając foldery Git na pasku bocznym obszaru roboczego.

  3. Na swojej lokalnej maszynie deweloperskiej uruchom polecenie dbx sync do synchronizowania lokalnego sklonowanego repozytorium z folderami Git usługi Databricks w obszarze roboczym, w następujący sposób: zastąp <your-repo-name> nazwą repozytorium w folderach Git usługi Databricks. (Nie zapomnij kropki (.) na końcu, która reprezentuje bieżący katalog.

    dbx sync repo -d <your-repo-name> --source .
    

    Napiwek

    Aby określić inny katalog źródłowy, zastąp kropkę (.) inną ścieżką.

    Notatka

    Jeśli pojawi się błąd Error: No such command 'sync', prawdopodobnie instalacja dbx jest nieaktualna. Aby rozwiązać ten problem, uruchom pip install --upgrade dbx==<version> lub python -m pip install --upgrade dbx==version, where<version> jest najnowszą wersją dbx. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync rozpoczyna synchronizowanie plików w lokalnym, sklonowanym repozytorium z plikami w folderach Git w Databricks w Twoim obszarze roboczym. dbx sync potwierdza to, drukując Target base path, a następnie ścieżkę folderów Gita Databricks, na przykład:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Napiwek

    Aby określić inną nazwę użytkownika lub nazwę repozytorium, określ odpowiednio opcje --user i --dest-repo po uruchomieniu dbx sync.

  5. Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.

    Ważny

    Aby dbx sync kontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell, dbx sync przestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.

  6. W razie potrzeby zweryfikuj zmiany plików w folderach Git usługi Databricks w obszarze roboczym.

Dodatkowe zasoby