Dbx gebruiken om lokale bestanden te synchroniseren met externe werkruimten in realtime
Belangrijk
Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt.
Databricks raadt aan dat u in plaats van dbx sync
de Databricks CLI-versie 0.205 of hogergebruikt, die functionaliteit bevat die vergelijkbaar is met dbx sync
via de opdracht databricks sync
.
De Databricks-extensie voor Visual Studio Code bevat ook functionaliteit die vergelijkbaar is met dbx sync
geïntegreerd in de Visual Studio Code IDE. Houd er rekening mee dat dbx sync
bestandswijzigingen van een lokale ontwikkelcomputer kunt synchroniseren met DBFS-, werkruimtelocaties en Databricks Git-mappen in uw Azure Databricks-werkruimten. De Databricks-extensie voor Visual Studio Code ondersteunt het synchroniseren van bestandswijzigingen alleen voor werkruimtegebruikersbestanden (/Users
) en Databricks Git-mappen (/Repos
).
Notitie
In dit artikel wordt dbx
door Databricks Labs beschreven, die as-is wordt aangeboden en niet wordt ondersteund door Databricks via de technische ondersteuningskanalen van klanten. Vragen en functieaanvragen kunnen worden gecommuniceerd via de pagina Problemen van de databrickslabs/dbx opslagplaats op GitHub.
U kunt realtime synchronisatie uitvoeren van wijzigingen in bestanden op uw lokale ontwikkelcomputer met de bijbehorende bestanden in uw Azure Databricks-werkruimten met behulp van dbx- door Databricks Labs. Deze bestanden in de werkruimte kunnen zich bevinden in DBFS of in Databricks Git-mappen.
Realtime bestandssynchronisatie met dbx
(ook wel dbx sync
genoemd) is handig in scenario's voor snelle codeontwikkeling. U kunt bijvoorbeeld een lokale IDE (Integrated Development Environment) gebruiken voor productiviteitsfuncties, zoals syntaxismarkering, voltooiing van slimme code, codelining en testen en foutopsporing. U kunt vervolgens direct naar uw werkruimte gaan en uw bijgewerkte code uitvoeren.
U kunt dbx sync
zelf gebruiken, met geautomatiseerde takenof met een IDE-.
dbx sync
ontwikkelwerkstromen
Er zijn twee ontwikkelwerkstromen voor dbx sync
, één met DBFS en een met Databricks Git-mappen.
De typische ontwikkelwerkstroom met dbx sync
en DBFS is:
- Identificeer een lokale map die de bestanden bevat die u wilt synchroniseren met DBFS.
- Identificeer het pad in DBFS waarmee u uw lokale directory wilt synchroniseren (of laat
dbx sync
een standaard DBFS-pad voor u maken). - Voer
dbx sync dbfs
uit om uw lokale map te synchroniseren met het DBFS-pad.dbx sync
begint met het bekijken van uw lokale map voor bestandswijzigingen. - Breng indien nodig wijzigingen aan in bestanden in uw lokale map.
dbx sync
past deze wijzigingen toe op de bijbehorende bestanden in het DBFS-pad in realtime.
De typische ontwikkelwerkstroom met dbx sync
- en Databricks Git-mappen is:
- Maak een opslagplaats met een Git-provider die door Databricks Git-mappen wordt ondersteund, als u nog geen opslagplaats hebt.
- Kloon uw opslagplaats naar uw Azure Databricks-werkruimte.
- Kloon uw repository naar uw lokale ontwikkelcomputer.
- Voer
dbx sync repo
uit om uw lokale gekloonde repository te koppelen aan de gekloonde repository van uw workspace.dbx sync
begint met het bekijken van uw lokale map voor bestandswijzigingen. - Breng indien nodig wijzigingen aan in bestanden in uw lokale gekloonde opslagplaats.
dbx sync
past deze wijzigingen in de bijbehorende bestanden in Databricks Git-mappen in realtime toe. - Push regelmatig bijgewerkte bestanden van de gekloonde opslagplaats in uw werkruimte naar uw Git-provider, zodat de opslagplaats up-to-date blijft met uw Git-provider.
Belangrijk
dbx sync
voert slechts éénrichtingssynchronisatie uit van bestandswijzigingen van uw lokale ontwikkelcomputer naar uw externe werkruimte. Daarom raadt Databricks niet aan dat u wijzigingen in uw Azure Databricks-werkruimte initieert in bestanden die worden bewaakt door dbx sync
. Als u dergelijke door de werkruimte geïnitieerde bestandswijzigingen moet aanbrengen, moet u ook het volgende doen:
- Voor bestandswijzigingen in DBFS moet u de bijbehorende wijzigingen handmatig aanbrengen in de lokale bestanden.
- Voor bestandswijzigingen in Databricks Git-mappen pusht u de bestandswijzigingen van uw werkruimte naar uw Git-provider. Haal deze bestandswijzigingen vervolgens op uw lokale ontwikkelcomputer op bij uw Git-provider.
Eisen
Als u dbx sync
wilt gebruiken met Databricks Git-mappen, moet uw Azure Databricks-werkruimte voldoen aan de volgende vereisten:
- Een kloon van uw opslagplaats met uw Git-provider, terwijl dit niet vereist is, wordt voorgesteld.
Op uw lokale ontwikkelcomputer moet het volgende zijn geïnstalleerd:
Python versie 3.8 of hoger. Als u wilt controleren of Python is geïnstalleerd en om de geïnstalleerde Python-versie te controleren, voert u
python --version
uit in uw terminal of PowerShell.python --version
Notitie
Voor sommige installaties van
python
moet u mogelijkpython3
gebruiken in plaats vanpython
. Vervang in dat artikelpython
doorpython3
.pip-. Als u wilt controleren of
pip
is geïnstalleerd en om de geïnstalleerdepip
-versie te controleren, voert upip --version
ofpython -m pip --version
uit.pip --version # Or... python -m pip --version
Notitie
Voor sommige installaties van
pip
moet u mogelijkpip3
gebruiken in plaats vanpip
. Vervang in dat artikelpip
doorpip3
.dbx versie 0.8.0 of hoger. Als u wilt controleren of
dbx
is geïnstalleerd en om de geïnstalleerdedbx
-versie te controleren, voert udbx --version
uit. Als udbx
wilt installeren vanuit de Python Package Index (PyPI), voert upip install dbx
ofpython -m pip install dbx
uit. (dbx
bevat dbx-synchronisatie.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Notitie
Zie
dbx
en de dbx-documentatievoor meer informatie over .De Databricks CLI versie 0.18 of lager, ingesteld met authenticatie. De verouderde Databricks CLI (Databricks CLI versie 0.17) wordt automatisch geïnstalleerd wanneer u
dbx
installeert. Deze verificatie kan worden ingesteld op uw lokale ontwikkelcomputer op een of beide van de volgende locaties:- Binnen de
DATABRICKS_HOST
enDATABRICKS_TOKEN
omgevingsvariabelen (beginnend met versie 0.8.0 van de verouderde Databricks CLI). - In een Azure Databricks configuratieprofiel in uw
.databrickscfg
-bestand.
dbx
zoekt respectievelijk naar verificatiereferenties op deze twee locaties.dbx
gebruikt alleen de eerste set overeenkomende referenties die het vindt.Notitie
Als u een
.databrickscfg
-bestand gebruikt, zoektdbx sync
in dit bestand standaard naar een configuratieprofiel met de naamDEFAULT
. Als u een ander profiel wilt opgeven, gebruikt u de optie--profile
wanneer u de opdrachtdbx sync
uitvoert, verderop in dit artikel.dbx
biedt geen ondersteuning voor het gebruik van een .netrc--bestand voor verificatie.- Binnen de
Als u
dbx sync
wilt gebruiken met Databricks Git-mappen, wordt een lokale kloon van uw opslagplaats met uw Git-provider voorgesteld, terwijl dit niet is vereist. Raadpleeg de documentatie van uw Git-provider om een lokale kloon uit te voeren.
DBFS gebruiken met dbx sync
Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de map met de bestanden die u wilt synchroniseren met DBFS in uw Azure Databricks-werkruimte.
Voer de opdracht dbx sync uit om uw lokale map te synchroniseren met DBFS in uw werkruimte, als volgt. (Vergeet de punt (
.
) niet aan het einde, die uw huidige directory vertegenwoordigt.)dbx sync dbfs --source .
Fooi
Als u een andere bronmap wilt opgeven, vervangt u de punt (
.
) door een ander pad.Notitie
Als de fout
Error: No such command 'sync'
wordt weergegeven, is de installatie vandbx
waarschijnlijk verouderd. U kunt dit oplossen doorpip install --upgrade dbx==<version>
ofpython -m pip install --upgrade dbx==version
uit te voeren, waarbij<version>
de nieuwste versie vandbx
is. Dit versienummer vindt u op de PyPI-webpagina voor dbx-.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
begint met het synchroniseren van bestanden in uw huidige lokale map met bestanden in het volgende DBFS-pad in uw werkruimte.dbx sync
bevestigt dit doorTarget base path
af te drukken, gevolgd door het DBFS-pad, bijvoorbeeld:/tmp/users/<your-Databricks-username>/<local-directory-name>
Fooi
Als u een andere gebruikersnaam of DBFS-pad wilt opgeven, geeft u respectievelijk de
--user
- en--dest
-opties op wanneer udbx sync
uitvoert.Breng indien nodig wijzigingen aan in uw lokale bestanden.
Belangrijk
U moet uw terminal of PowerShell geopend houden voor
dbx sync
om door te gaan met synchroniseren. Als u de terminal of PowerShell sluit,dbx sync
stopt met kijken naar bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.Controleer indien nodig de veranderingen aan uw bestand in het voorgaande pad in DBFS in uw werkruimte.
Databricks Git-mappen gebruiken met dbx sync
Navigeer vanuit de terminal of PowerShell op uw lokale ontwikkelmachine naar de hoofddirectory die de kloon van de repository via uw Git-provider bevat.
Identificeer in uw Azure Databricks-werkruimte de naam van de Databricks Git-map waarnaar u de lokale gekloonde opslagplaats wilt synchroniseren. U vindt deze opslagplaatsnaam door te klikken op Git-mappen in de zijbalk van uw werkruimte.
Voer op uw lokale ontwikkelcomputer de dbx-synchronisatie uit opdracht om uw lokale gekloonde opslagplaats als volgt te synchroniseren met de Databricks Git-mappen in uw werkruimte, waarbij u
<your-repo-name>
vervangt door de naam van uw opslagplaats in Databricks Git-mappen. (Vergeet de punt (.
) niet aan het einde, die uw huidige directory vertegenwoordigt.)dbx sync repo -d <your-repo-name> --source .
Fooi
Als u een andere bronmap wilt opgeven, vervangt u de punt (
.
) door een ander pad.Notitie
Als de fout
Error: No such command 'sync'
wordt weergegeven, is de installatie vandbx
waarschijnlijk verouderd. U kunt dit oplossen doorpip install --upgrade dbx==<version>
ofpython -m pip install --upgrade dbx==version
uit te voeren, waarbij<version>
de nieuwste versie vandbx
is. Dit versienummer vindt u op de PyPI-webpagina voor dbx-.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
begint met het synchroniseren van bestanden in uw lokale gekloonde opslagplaats met bestanden in Databricks Git-mappen in uw werkruimte.dbx sync
bevestigt dit doorTarget base path
weer te geven, gevolgd door het pad naar de Git-mappen van Databricks, bijvoorbeeld:/Repos/<your-Databricks-username>/<your-repo-name>
Fooi
Als u een andere gebruikersnaam of opslagplaatsnaam wilt opgeven, geeft u respectievelijk de
--user
- en--dest-repo
-opties op wanneer udbx sync
uitvoert.Breng indien nodig wijzigingen aan in uw lokale bestanden.
Belangrijk
U moet uw terminal of PowerShell geopend houden voor
dbx sync
om door te gaan met synchroniseren. Als u de terminal of PowerShell sluit,dbx sync
stopt met kijken naar bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.Controleer waar nodig uw bestandswijzigingen in Databricks Git-mappen in uw werkruimte.