Megosztás a következőn keresztül:


Privát Git-csatlakozás beállítása az Azure Databricks Git-mappákhoz (Repo-k)

Ismerje meg és konfigurálja a Git-kiszolgálóproxyt a Databricks Git-mappákhoz, amely egy konfigurálható szolgáltatás, amely lehetővé teszi Git-parancsok proxyzását a Databricks-munkaterület Git-mappáiból a GitHub Enterprise Server, az Azure DevOps Server, a Bitbucket Server és a GitLab ön által felügyelt helyszíni Git-tárházaiba.

Feljegyzés

Az előzetes megtekintése során konfigurált Databricks Git-kiszolgáló-proxyval rendelkező felhasználóknak frissíteniük kell a csoportengedélyeket a legjobb teljesítmény érdekében. Lásd: Globális CAN_ATTACH_TO engedélyek eltávolítása.

A Databricks Git-kiszolgálóproxy kifejezetten a konfigurációs jegyzetfüzetben található Databricks-futtatókörnyezet verziójának használatához készült. Javasolt, hogy a felhasználók ne frissítsék a proxyfürt Databricks Runtime-verzióját.

Mi a Git-kiszolgálóproxy a Databricks Git-mappákhoz?

A Git-mappákhoz készült Databricks Git-kiszolgálóproxy egy olyan szolgáltatás, amellyel Git-parancsokat proxyzhat az Azure Databricks-munkaterületről egy helyszíni Git-kiszolgálóra.

Databricks Git-mappák (korábbi nevén Repos) a csatlakoztatott Git-adattárakat jelölik mappákként. Ezeknek a mappáknak a tartalmát a csatlakoztatott Git-adattárba való szinkronizálással vezérelheti a rendszer. A Git-mappák alapértelmezés szerint csak nyilvános Git-szolgáltatókkal (például nyilvános GitHub, GitLab, Azure DevOps stb.) szinkronizálhatók. Ha azonban saját helyszíni Git-kiszolgálót üzemeltet (például GitHub Enterprise Servert, Bitbucket Servert vagy Ön által felügyelt GitLab-kiszolgálót), a Git-kiszolgálóproxyt Git-mappákkal kell használnia, hogy a Databricks hozzáférjen a Git-kiszolgálóhoz. A Git-kiszolgálónak elérhetőnek kell lennie az Azure Databricks adatsíkjáról (illesztőprogram-csomópont).

Ha a vállalati hálózat csak magánhálózati (VPN-) hozzáféréssel rendelkezik (nincs nyilvános hozzáférése), egy Git-kiszolgálóproxyt kell futtatnia a rajta kívül található Git-adattárak eléréséhez és Git-mappák munkaterületekhez való hozzáadásához.

Hogyan működik a Git Server Proxy for Databricks Git-mappákhoz?

A Databricks Git-mappák esetében a Git-kiszolgálóproxy a Databricks vezérlősíkjáról a Databricks-munkaterület számítási síkján futó szerver, egy proxyfürtön keresztül irányítja a Git-parancsokat. Ebben az összefüggésben a proxyfürt egy olyan fürt, amely úgy van konfigurálva, hogy proxyszolgáltatást futtasson a Git-parancsokhoz a Databricks Git-mappákból a saját üzemeltetésű Git-adattárba. Ez a proxyszolgáltatás a Databricks vezérlősíkról fogadja a Git-parancsokat, és továbbítja őket a Git-kiszolgálópéldánynak.

Az alábbi ábra a teljes rendszerarchitektúrát szemlélteti:

A Databricks Git-mappák Git-kiszolgálóproxyjának konfigurálását szemléltető ábra, amely egy ügyfél számítási síkjáról való futtatásra van konfigurálva

A Git-kiszolgálóproxyhoz jelenleg nincs szükség CAN_ATTACH_TO az összes felhasználó engedélyére. A meglévő proxyfürtökkel rendelkező rendszergazdák mostantól módosíthatják a fürt ACL-engedélyét a funkció engedélyezéséhez. Az engedélyezéséhez:

  1. Válassza Compute az oldalsávon, majd kattintson a Kebab menüre kebab menüre a futó Git Server-proxy Számítási bejegyzése mellett:

    Válassza ki a Számítás lehetőséget az oldalsávon, válassza ki a Git proxykiszolgáló számítási erőforrásától jobbra található kebabot

  2. A párbeszédpanelen távolítsa el a Csatolható bejegyzést Minden felhasználó:

    A megjelenő modális párbeszédpanelen kattintson az X gombra a Minden felhasználó jobb oldalán, és csatolhatja

Hogyan állíthatom be a Git Server Proxy for Databricks Git-mappákat?

Ez a szakasz ismerteti, hogyan készítse elő a Git-kiszolgálópéldányát a Databricks Git-mappáihoz tartozó Git-kiszolgáló proxy létrehozásához, valamint hogyan ellenőrizze a konfigurációt.

Mielőtt elkezdené

A proxy engedélyezése előtt győződjön meg arról, hogy:

  • A munkaterületen engedélyezve van a Databricks Git-mappák funkció.
  • A Git-kiszolgálópéldány elérhető az Azure Databricks-munkaterület számítási síkjának VPC-jéről, és engedélyezve van a HTTPS és a személyes hozzáférési jogkivonatok (PAT-k).

Feljegyzés

A Databricks Git-kiszolgálóproxyja a VPC által támogatott összes régióban működik.

1. lépés: A Git-kiszolgálópéldány előkészítése

Fontos

A számítási erőforrás létrehozásához és a feladat elvégzéséhez rendszergazdai jogosultsággal kell rendelkeznie a munkaterületen.

A Git-kiszolgálópéldány konfigurálása:

  1. Adjon hozzáférést a proxyfürt illesztőprogram-csomópontjának a Git-kiszolgálóhoz.

    A vállalati Git-kiszolgáló rendelkezhet olyan allowlist IP-címmel, amelyről a hozzáférés engedélyezett.

    1. Statikus kimenő IP-cím társítása a proxyfürtből származó forgalomhoz. Ezt az Azure Firewall vagy egy kimenő berendezés használatával teheti meg.
    2. Adja hozzá az előző lépés IP-címét a Git-kiszolgáló engedélyezési listájához.
  2. Állítsa be a Git-kiszolgálópéldányt a HTTPS-átvitel engedélyezésére.

    • A GitHub Enterprise esetében lásd : Melyik távoli URL-címet használjam a GitHub Enterprise súgójában.
    • Bitbucket esetén lépjen a Bitbucket kiszolgálófelügyeleti lapjára, és válassza ki a kiszolgáló beállításait. A HTTP(S) SCM üzemeltetési szakaszában engedélyezze a HTTP(S) engedélyezett jelölőnégyzetet.

2. lépés: Az engedélyezési jegyzetfüzet futtatása

A proxy engedélyezése:

  1. Jelentkezzen be az Azure Databricks-munkaterületre munkaterület-rendszergazdaként, és hozzáférési jogosultságokkal rendelkezik a fürt létrehozásához.

  2. Importálja ezt a jegyzetfüzetet, amely a felhőszolgáltatótól elérhető legkisebb példánytípust választja a Git-proxy futtatásához:

    Jegyzetfüzet: Engedélyezze a Git-kiszolgálóproxyt a Databricks Git-mappákhoz a Git-mappák privát Git-kiszolgálói kapcsolatához.

  3. Kattintson a(z) Az összes futtatása gombra a jegyzetfüzet futtatásához, amely a következő feladatokat hajtja végre:

    • Létrehoz egy "Databricks Git Proxy" nevű csomópont számítási erőforrást , amely nem fejeződik be automatikusan. Ez a Git-proxyszolgáltatás fogja feldolgozni és továbbítani a Git-parancsokat az Azure Databricks-munkaterületről a helyszíni Git-kiszolgálóra.
    • Lehetővé teszi egy funkciójelző használatát, amely azt szabályozza, hogy a Databricks Git-mappákban lévő Git-kérelmek a számítási példányon keresztül legyenek-e elérhetők.

    Ajánlott eljárásként érdemes létrehozni egy egyszerű feladatot a Git proxy számítási erőforrásának futtatásához. Ez lehet egy egyszerű jegyzetfüzet, amely kinyomtatja vagy naplózza az állapotot, például "A Git proxyszolgáltatás fut". Állítsa be, hogy a feladat rendszeres időközönként fusson, hogy a Git proxyszolgáltatás mindig elérhető legyen a felhasználók számára.

Feljegyzés

Ha egy további, hosszú ideig futó számítási erőforrást futtat a proxyszoftver üzemeltetéséhez, további ADATBÁZIS-objektumokra lesz szükség. A költségek minimalizálása érdekében a jegyzetfüzet úgy konfigurálja a proxyt, hogy egy egycsomópontos számítási erőforrást használjon olcsó csomóponttípussal. Előfordulhat azonban, hogy az igényeinek megfelelően módosítani szeretné a számítási beállításokat. A számítási példányok díjszabásáról a Databricks díjszabási kalkulátorában talál további információt.

3. lépés: A Git-kiszolgáló konfigurációjának ellenőrzése

A Git-kiszolgáló konfigurációjának ellenőrzéséhez próbáljon meg klónozni egy privát Git-kiszolgálón üzemeltetett adattárat a proxyfürtön keresztül. A sikeres klónozás azt jelenti, hogy sikeresen engedélyezte a Git-kiszolgálóproxyt a munkaterületen.

4. lépés: Proxybarát Git-adattárak létrehozása

Miután a felhasználók konfigurálták a Git-hitelesítő adataikat, nincs szükség további lépésekre az adattárak létrehozásához vagy szinkronizálásához. A Git-mappákhoz tartozó hitelesítő adatok konfigurálásához és az adattárak programozott eléréséhez lásd: Git-hitelesítő adatok konfigurálása & távoli adattár csatlakoztatása az Azure Databrickshez.

Globális CAN_ATTACH_TO-engedélyek eltávolítása

A meglévő proxyfürtökkel rendelkező rendszergazdák mostantól módosíthatják a fürt ACL-engedélyét az általánosan elérhető Git-kiszolgálóproxy-viselkedés kihasználásához.

Ha korábban CAN_ATTACH_TO jogosultságokkal konfigurálta a Databricks Git-kiszolgálóproxyt, az alábbi lépésekkel távolíthatja el ezeket az engedélyeket:

  1. Válassza Compute az oldalsávon, majd kattintson a Kebab menüre kebab menüre a futtatott Git-kiszolgálóproxy Számítási bejegyzése mellett:

    Válassza ki a Számítás lehetőséget az oldalsávon, válassza ki a Git proxykiszolgáló számítási erőforrásától jobbra található kebabot

  2. A párbeszédpanelen távolítsa el a Can Attach To bejegyzést Minden felhasználószámára:

    A megjelenő modális párbeszédpanelen kattintson az X gombra a Minden felhasználó jobb oldalán, és csatolhatja

Hibaelhárítás

Hiba történt a Git-kiszolgálóproxy Databricks Git-mappákhoz való konfigurálása során? Íme néhány gyakori probléma és módszer a hatékonyabb diagnosztizálásukra.

Gyakori problémák ellenőrzőlistája

Mielőtt elkezdené diagnosztizálni a hibát, győződjön meg arról, hogy elvégezte a következő lépéseket:

  • Biztosítsa, hogy a proxyfürt ezzel a Git proxykiszolgálóval és ahibaelhárítási jegyzetfüzettel fut-e. (Ez egy másik notebook, mint a Git proxykiszolgáló engedélyezési notebook, és ezt is a Databricks biztosítja.)
  • Győződjön meg arról, hogy Ön munkaterület-rendszergazda.
  • Ha még nem tette, futtassa a hibakereső jegyzetfüzet többi részét, és rögzítse az eredményeket. Ha nem tudja hibakereséssel elhárítani a problémát, vagy nem látja a hibakeresési jegyzetfüzetből jelentett hibákat, a Databricks ügyfélszolgálata áttekintheti az eredményeket. Ha szükséges, exportálhatja és elküldheti a hibakeresési jegyzetfüzetet DBC-archívumként.

A Git-proxy konfigurációjának módosítása

Ha a Git-proxyszolgáltatás nem az alapértelmezett konfigurációval dolgozik, meghatározott környezeti változókat állíthat be, hogy az jobban támogassa a hálózati infrastruktúrát.

A Git-proxyszolgáltatás konfigurációjának frissítéséhez használja az alábbi környezeti változókat:

Környezeti változó Formátum Leírás
GIT_PROXY_ENABLE_SSL_VERIFICATION true/false Állítsa ezt false, ha önaláírt tanúsítványt használ a privát Git-kiszolgálóhoz.
GIT_PROXY_CA_CERT_PATH Fájl elérési útja (sztring) Állítsa be ezt egy SSL-ellenőrzéshez használt CA-tanúsítványfájl elérési útjára. Példa: /FileStore/myCA.pem
GIT_PROXY_HTTP_PROXY https://<hostname>:<port #> Állítsa be ezt a HTTPS URL-címre a hálózat HTTP forgalmának tűzfalproxyja számára.
GIT_PROXY_CUSTOM_HTTP_PORT Portszám (egész szám) Állítsa be ezt a Git-kiszolgáló HTTP-portjához rendelt portszámra.

A környezeti változók beállításához lépjen az Azure Databricks-munkaterület Számítási lapjára, és válassza ki a Git-proxyszolgáltatás számítási konfigurációját. A Konfigurációs panel alján bontsa ki Speciális beállítások, és válassza a Spark fület alatta. Egy vagy több környezeti változó beállításához vegye fel őket a Környezeti változók szövegterületre.

A Databricks számítási konfigurációs lapja, ahol környezeti változókat állított be egy Git-proxyhoz

A proxyfürt naplóinak vizsgálata

A proxyfürtön /databricks/git-proxy/git-proxy.log található fájl hibakeresési célokra hasznos naplókat tartalmaz.

A naplófájlnak a Data-plane proxy server binding to ('', 8000)…sorral kell kezdődnie. Ha nem, ez azt jelenti, hogy a proxykiszolgáló nem indult el megfelelően. Indítsa újra a fürtöt, vagy törölje a létrehozott fürtöt, és futtassa újra az engedélyezési jegyzetfüzetet.

Ha a naplófájl ezzel a sortal kezdődik, tekintse át a Databricks Git-mappákban egy Git-művelet által kezdeményezett Git-kérelmekhez követendő naplókivonatokat.

Példa:

  do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
  "GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`

A fájlba írt hibanaplók hasznosak lehetnek a Databricks támogatási hibakeresési problémáinak megoldásához.

Gyakori hibaüzenetek és azok megoldása

  • SSL-problémák miatt nem sikerült biztonságos kapcsolatot létesíteni

    A következő hibaüzenet jelenhet meg:

      https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SLL problems
    

    Ez gyakran azt jelenti, hogy speciális SSL-tanúsítványokat igénylő adattárat használ. Ellenőrizze a /databricks/git-proxy/git-proxy.log fájl tartalmát a proxyfürtön. Ha a tanúsítvány érvényesítése sikertelen, akkor hozzá kell adnia a tanúsítványt a rendszertanúsítvány-lánchoz. Először bontsa ki a főtanúsítványt (a böngésző vagy más beállítás használatával), és töltse fel a DBFS-be. Ezután szerkessze a Git-mappák Git Proxyfürtjét , hogy a GIT_PROXY_CA_CERT_PATH környezeti változó a főtanúsítvány-fájlra mutasson. A fürt környezeti változóinak szerkesztéséről további információt a Környezeti változók című témakörben talál.

    A lépés befejezése után indítsa újra a fürtöt.

  • "Hiányzó/Érvénytelen Git-hitelesítő adatok" hibaüzenettel rendelkező adattár klónozásának hibája

    Először ellenőrizze, hogy konfigurálta-e a Git-hitelesítő adatait a Felhasználói beállítások.

    A következő hibaüzenet jelenhet meg:

      Error: Invalid Git credentials. Go to User Settings -> Git Integration and check that your personal access token or app password has the correct repository access.
    

    Ha a szervezet SAML SSO-t használ, győződjön meg arról, hogy a jogkivonat engedélyezve van (ezt a Git-kiszolgáló személyes hozzáférési jogkivonatának (PAT) felügyeleti oldalán teheti meg).

Gyakori kérdések

Mi a legegyszerűbb módszer annak kiderítésére, hogy a Git proxykiszolgáló fut-e?

Importálja a Databricks által biztosított Git-proxy hibakeresési jegyzetfüzetét. Töltse le a helyi gépre, majd importálja az Azure Databricks-munkaterületre.

A jegyzetfüzet futtatása jelentést küld, ha a Git proxyszolgáltatással kapcsolatos hibák vagy problémák jelentkeznek.

Milyen biztonsági következményekkel jár a Git-kiszolgálóproxy?

A legfontosabb tudnivalók a következők:

  • A proxyzás nem befolyásolja a Databricks vezérlősík biztonsági architektúráját.
  • Munkaterületenként csak egy Git-proxykiszolgáló-fürt lehet.

Igen. A jelenlegi kiadásban az Azure Databricks-munkaterület nem tesz különbséget a proxied és a nem felügyelt adattárak között.

Működik a Git-proxy funkció más Vállalati Git-kiszolgálószolgáltatókkal?

A Databricks Git-mappák támogatják a GitHub Enterprise, a Bitbucket Server, az Azure DevOps Server és a GitLab önkiszolgáló kezelését. Más vállalati Git-kiszolgálószolgáltatóknak is működniük kell, ha megfelelnek a gyakori Git-specifikációknak.

A Databricks Git-mappák támogatják a véglegesítések GPG-aláírását?

Szám

A Databricks Git-mappák támogatják a Git-műveletek SSH-átvitelét?

Szám Csak a HTTPS támogatott.

Támogatott egy nem alapértelmezett HTTPS-port használata a Git-kiszolgálón?

Az engedélyezési jegyzetfüzet jelenleg feltételezi, hogy a Git-kiszolgáló az alapértelmezett 443-os HTTPS-portot használja. Beállíthatja a GIT_PROXY_CUSTOM_HTTP_PORT környezeti változót, hogy felülírja a portértéket egy előnyben részesített értékkel.

Megoszthat egy proxyt több munkaterületen, vagy munkaterületenként egy proxyfürtre van szüksége?

Azure Databricks-munkaterületenként egy proxyfürtre van szükség.

Működik a proxy az örökölt egyjegyzetes verziószámozással?

Nem, a proxy nem működik az örökölt egyjegyzetes verziószámozással. A felhasználóknak át kell költözniük a Databricks Git-mappák verziószámozására.

El tudja rejteni a Databricks a Git-kiszolgáló kipróbálkozott URL-címeit? Megadhatják a felhasználók az eredeti Git-kiszolgáló URL-címeit, nem pedig a proxyzott URL-címeket?

Igen mindkét kérdésre. A felhasználóknak nem kell módosítaniuk a proxy viselkedését. A jelenlegi proxy implementációval a Databricks Git-mappák összes Git-forgalma a proxyn keresztül lesz irányítva. A felhasználók a git-adattár szokásos URL-címét adhatók meg, például https://git.company.com/org/repo-name.git.

Milyen gyakran dolgoznak a felhasználók a Git URL-címeivel?

A felhasználó általában csak akkor adja hozzá a Git URL-címét, ha új adattárat hoz létre, vagy kivesz egy meglévő adattárat, amelyet még nem vette ki.

A szolgáltatás transzparens proxyhitelesítési adatokat ad a Git-kiszolgálónak?

Igen, a proxy a felhasználói fiók Git-kiszolgálói jogkivonatával hitelesíti a Git-kiszolgálót.

A Databricks hozzáfér a Git-kiszolgáló kódhoz?

Az Azure Databricks proxyszolgáltatás a felhasználó által megadott hitelesítő adatokkal fér hozzá a Git-kiszolgálón található Git-adattárhoz, és szinkronizálja az adattárban lévő kódfájlokat a Git mappával. A hozzáférést a felhasználó által megadott személyes hozzáférési jogkivonatban (PAT) megadott engedélyek korlátozzák.