Delen via


Dbx gebruiken om lokale bestanden te synchroniseren met externe werkruimten in realtime

Belangrijk

Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt.

Databricks raadt aan dat u in plaats van dbx syncde Databricks CLI-versie 0.205 of hogergebruikt, die functionaliteit bevat die vergelijkbaar is met dbx sync via de opdracht databricks sync.

De Databricks-extensie voor Visual Studio Code bevat ook functionaliteit die vergelijkbaar is met dbx sync geïntegreerd in de Visual Studio Code IDE. Houd er rekening mee dat dbx sync bestandswijzigingen van een lokale ontwikkelcomputer kunt synchroniseren met DBFS-, werkruimtelocaties en Databricks Git-mappen in uw Azure Databricks-werkruimten. De Databricks-extensie voor Visual Studio Code ondersteunt het synchroniseren van bestandswijzigingen alleen voor werkruimtegebruikersbestanden (/Users) en Databricks Git-mappen (/Repos).

Notitie

In dit artikel wordt dbx door Databricks Labs beschreven, die as-is wordt aangeboden en niet wordt ondersteund door Databricks via de technische ondersteuningskanalen van klanten. Vragen en functieaanvragen kunnen worden gecommuniceerd via de pagina Problemen van de databrickslabs/dbx opslagplaats op GitHub.

U kunt realtime synchronisatie uitvoeren van wijzigingen in bestanden op uw lokale ontwikkelcomputer met de bijbehorende bestanden in uw Azure Databricks-werkruimten met behulp van dbx- door Databricks Labs. Deze bestanden in de werkruimte kunnen zich bevinden in DBFS of in Databricks Git-mappen.

Realtime bestandssynchronisatie met dbx (ook wel dbx syncgenoemd) is handig in scenario's voor snelle codeontwikkeling. U kunt bijvoorbeeld een lokale IDE (Integrated Development Environment) gebruiken voor productiviteitsfuncties, zoals syntaxismarkering, voltooiing van slimme code, codelining en testen en foutopsporing. U kunt vervolgens direct naar uw werkruimte gaan en uw bijgewerkte code uitvoeren.

U kunt dbx sync zelf gebruiken, met geautomatiseerde takenof met een IDE-.

dbx sync ontwikkelwerkstromen

Er zijn twee ontwikkelwerkstromen voor dbx sync, één met DBFS en een met Databricks Git-mappen.

De typische ontwikkelwerkstroom met dbx sync en DBFS is:

  1. Identificeer een lokale map die de bestanden bevat die u wilt synchroniseren met DBFS.
  2. Identificeer het pad in DBFS waarmee u uw lokale directory wilt synchroniseren (of laat dbx sync een standaard DBFS-pad voor u maken).
  3. Voer dbx sync dbfs uit om uw lokale map te synchroniseren met het DBFS-pad. dbx sync begint met het bekijken van uw lokale map voor bestandswijzigingen.
  4. Breng indien nodig wijzigingen aan in bestanden in uw lokale map. dbx sync past deze wijzigingen toe op de bijbehorende bestanden in het DBFS-pad in realtime.

De typische ontwikkelwerkstroom met dbx sync- en Databricks Git-mappen is:

  1. Maak een opslagplaats met een Git-provider die door Databricks Git-mappen wordt ondersteund, als u nog geen opslagplaats hebt.
  2. Kloon uw opslagplaats naar uw Azure Databricks-werkruimte.
  3. Kloon uw repository naar uw lokale ontwikkelcomputer.
  4. Voer dbx sync repo uit om uw lokale gekloonde repository te koppelen aan de gekloonde repository van uw workspace. dbx sync begint met het bekijken van uw lokale map voor bestandswijzigingen.
  5. Breng indien nodig wijzigingen aan in bestanden in uw lokale gekloonde opslagplaats. dbx sync past deze wijzigingen in de bijbehorende bestanden in Databricks Git-mappen in realtime toe.
  6. Push regelmatig bijgewerkte bestanden van de gekloonde opslagplaats in uw werkruimte naar uw Git-provider, zodat de opslagplaats up-to-date blijft met uw Git-provider.

Belangrijk

dbx sync voert slechts éénrichtingssynchronisatie uit van bestandswijzigingen van uw lokale ontwikkelcomputer naar uw externe werkruimte. Daarom raadt Databricks niet aan dat u wijzigingen in uw Azure Databricks-werkruimte initieert in bestanden die worden bewaakt door dbx sync. Als u dergelijke door de werkruimte geïnitieerde bestandswijzigingen moet aanbrengen, moet u ook het volgende doen:

  • Voor bestandswijzigingen in DBFS moet u de bijbehorende wijzigingen handmatig aanbrengen in de lokale bestanden.
  • Voor bestandswijzigingen in Databricks Git-mappen pusht u de bestandswijzigingen van uw werkruimte naar uw Git-provider. Haal deze bestandswijzigingen vervolgens op uw lokale ontwikkelcomputer op bij uw Git-provider.

Eisen

Als u dbx sync wilt gebruiken met Databricks Git-mappen, moet uw Azure Databricks-werkruimte voldoen aan de volgende vereisten:

  • Een kloon van uw opslagplaats met uw Git-provider, terwijl dit niet vereist is, wordt voorgesteld.

Op uw lokale ontwikkelcomputer moet het volgende zijn geïnstalleerd:

  • Python versie 3.8 of hoger. Als u wilt controleren of Python is geïnstalleerd en om de geïnstalleerde Python-versie te controleren, voert u python --version uit in uw terminal of PowerShell.

    python --version
    

    Notitie

    Voor sommige installaties van python moet u mogelijk python3 gebruiken in plaats van python. Vervang in dat artikel python door python3.

  • pip-. Als u wilt controleren of pip is geïnstalleerd en om de geïnstalleerde pip-versie te controleren, voert u pip --version of python -m pip --versionuit.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Notitie

    Voor sommige installaties van pip moet u mogelijk pip3 gebruiken in plaats van pip. Vervang in dat artikel pip door pip3.

  • dbx versie 0.8.0 of hoger. Als u wilt controleren of dbx is geïnstalleerd en om de geïnstalleerde dbx-versie te controleren, voert u dbx --versionuit. Als u dbx wilt installeren vanuit de Python Package Index (PyPI), voert u pip install dbx of python -m pip install dbxuit. (dbx bevat dbx-synchronisatie.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Notitie

    Zie dbx en de dbx-documentatievoor meer informatie over .

  • De Databricks CLI versie 0.18 of lager, ingesteld met authenticatie. De verouderde Databricks CLI (Databricks CLI versie 0.17) wordt automatisch geïnstalleerd wanneer u dbxinstalleert. Deze verificatie kan worden ingesteld op uw lokale ontwikkelcomputer op een of beide van de volgende locaties:

    • Binnen de DATABRICKS_HOST en DATABRICKS_TOKEN omgevingsvariabelen (beginnend met versie 0.8.0 van de verouderde Databricks CLI).
    • In een Azure Databricks configuratieprofiel in uw .databrickscfg-bestand.

    dbx zoekt respectievelijk naar verificatiereferenties op deze twee locaties. dbx gebruikt alleen de eerste set overeenkomende referenties die het vindt.

    Notitie

    Als u een .databrickscfg-bestand gebruikt, zoekt dbx sync in dit bestand standaard naar een configuratieprofiel met de naam DEFAULT. Als u een ander profiel wilt opgeven, gebruikt u de optie --profile wanneer u de opdracht dbx sync uitvoert, verderop in dit artikel.

    dbx biedt geen ondersteuning voor het gebruik van een .netrc--bestand voor verificatie.

  • Als u dbx sync wilt gebruiken met Databricks Git-mappen, wordt een lokale kloon van uw opslagplaats met uw Git-provider voorgesteld, terwijl dit niet is vereist. Raadpleeg de documentatie van uw Git-provider om een lokale kloon uit te voeren.

DBFS gebruiken met dbx sync

  1. Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de map met de bestanden die u wilt synchroniseren met DBFS in uw Azure Databricks-werkruimte.

  2. Voer de opdracht dbx sync uit om uw lokale map te synchroniseren met DBFS in uw werkruimte, als volgt. (Vergeet de punt (.) niet aan het einde, die uw huidige directory vertegenwoordigt.)

    dbx sync dbfs --source .
    

    Fooi

    Als u een andere bronmap wilt opgeven, vervangt u de punt (.) door een ander pad.

    Notitie

    Als de fout Error: No such command 'sync' wordt weergegeven, is de installatie van dbx waarschijnlijk verouderd. U kunt dit oplossen door pip install --upgrade dbx==<version> of python -m pip install --upgrade dbx==versionuit te voeren, waarbij <version> de nieuwste versie van dbxis. Dit versienummer vindt u op de PyPI-webpagina voor dbx-.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync begint met het synchroniseren van bestanden in uw huidige lokale map met bestanden in het volgende DBFS-pad in uw werkruimte. dbx sync bevestigt dit door Target base path af te drukken, gevolgd door het DBFS-pad, bijvoorbeeld:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Fooi

    Als u een andere gebruikersnaam of DBFS-pad wilt opgeven, geeft u respectievelijk de --user- en --dest-opties op wanneer u dbx syncuitvoert.

  4. Breng indien nodig wijzigingen aan in uw lokale bestanden.

    Belangrijk

    U moet uw terminal of PowerShell geopend houden voor dbx sync om door te gaan met synchroniseren. Als u de terminal of PowerShell sluit, dbx sync stopt met kijken naar bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.

  5. Controleer indien nodig de veranderingen aan uw bestand in het voorgaande pad in DBFS in uw werkruimte.

Databricks Git-mappen gebruiken met dbx sync

  1. Navigeer vanuit de terminal of PowerShell op uw lokale ontwikkelmachine naar de hoofddirectory die de kloon van de repository via uw Git-provider bevat.

  2. Identificeer in uw Azure Databricks-werkruimte de naam van de Databricks Git-map waarnaar u de lokale gekloonde opslagplaats wilt synchroniseren. U vindt deze opslagplaatsnaam door te klikken op Git-mappen in de zijbalk van uw werkruimte.

  3. Voer op uw lokale ontwikkelcomputer de dbx-synchronisatie uit opdracht om uw lokale gekloonde opslagplaats als volgt te synchroniseren met de Databricks Git-mappen in uw werkruimte, waarbij u <your-repo-name> vervangt door de naam van uw opslagplaats in Databricks Git-mappen. (Vergeet de punt (.) niet aan het einde, die uw huidige directory vertegenwoordigt.)

    dbx sync repo -d <your-repo-name> --source .
    

    Fooi

    Als u een andere bronmap wilt opgeven, vervangt u de punt (.) door een ander pad.

    Notitie

    Als de fout Error: No such command 'sync' wordt weergegeven, is de installatie van dbx waarschijnlijk verouderd. U kunt dit oplossen door pip install --upgrade dbx==<version> of python -m pip install --upgrade dbx==versionuit te voeren, waarbij <version> de nieuwste versie van dbxis. Dit versienummer vindt u op de PyPI-webpagina voor dbx-.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync begint met het synchroniseren van bestanden in uw lokale gekloonde opslagplaats met bestanden in Databricks Git-mappen in uw werkruimte. dbx sync bevestigt dit door Target base path weer te geven, gevolgd door het pad naar de Git-mappen van Databricks, bijvoorbeeld:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Fooi

    Als u een andere gebruikersnaam of opslagplaatsnaam wilt opgeven, geeft u respectievelijk de --user- en --dest-repo-opties op wanneer u dbx syncuitvoert.

  5. Breng indien nodig wijzigingen aan in uw lokale bestanden.

    Belangrijk

    U moet uw terminal of PowerShell geopend houden voor dbx sync om door te gaan met synchroniseren. Als u de terminal of PowerShell sluit, dbx sync stopt met kijken naar bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.

  6. Controleer waar nodig uw bestandswijzigingen in Databricks Git-mappen in uw werkruimte.

Aanvullende informatiebronnen