Privát Git-csatlakozás beállítása az Azure Databricks Git-mappákhoz (Repo-k)
Ismerje meg és konfigurálja a Git-kiszolgálóproxyt a Databricks Git-mappákhoz, amely egy konfigurálható szolgáltatás, amely lehetővé teszi Git-parancsok proxyzását a Databricks-munkaterület Git-mappáiból a GitHub Enterprise Server, az Azure DevOps Server, a Bitbucket Server és a GitLab ön által felügyelt helyszíni Git-tárházaiba.
Feljegyzés
Az előzetes megtekintése során konfigurált Databricks Git-kiszolgáló-proxyval rendelkező felhasználóknak frissíteniük kell a csoportengedélyeket a legjobb teljesítmény érdekében. Lásd: Globális CAN_ATTACH_TO engedélyek eltávolítása.
A Databricks Git-kiszolgálóproxy kifejezetten a konfigurációs jegyzetfüzetben található Databricks-futtatókörnyezet verziójának használatához készült. Javasolt, hogy a felhasználók ne frissítsék a proxyfürt Databricks Runtime-verzióját.
Mi a Git-kiszolgálóproxy a Databricks Git-mappákhoz?
A Git-mappákhoz készült Databricks Git-kiszolgálóproxy egy olyan szolgáltatás, amellyel Git-parancsokat proxyzhat az Azure Databricks-munkaterületről egy helyszíni Git-kiszolgálóra.
Databricks Git-mappák (korábbi nevén Repos) a csatlakoztatott Git-adattárakat jelölik mappákként. Ezeknek a mappáknak a tartalmát a csatlakoztatott Git-adattárba való szinkronizálással vezérelheti a rendszer. A Git-mappák alapértelmezés szerint csak nyilvános Git-szolgáltatókkal (például nyilvános GitHub, GitLab, Azure DevOps stb.) szinkronizálhatók. Ha azonban saját helyszíni Git-kiszolgálót üzemeltet (például GitHub Enterprise Servert, Bitbucket Servert vagy Ön által felügyelt GitLab-kiszolgálót), a Git-kiszolgálóproxyt Git-mappákkal kell használnia, hogy a Databricks hozzáférjen a Git-kiszolgálóhoz. A Git-kiszolgálónak elérhetőnek kell lennie az Azure Databricks adatsíkjáról (illesztőprogram-csomópont).
Ha a vállalati hálózat csak magánhálózati (VPN-) hozzáféréssel rendelkezik (nincs nyilvános hozzáférése), egy Git-kiszolgálóproxyt kell futtatnia a rajta kívül található Git-adattárak eléréséhez és Git-mappák munkaterületekhez való hozzáadásához.
Hogyan működik a Git Server Proxy for Databricks Git-mappákhoz?
A Databricks Git-mappák esetében a Git-kiszolgálóproxy a Databricks vezérlősíkjáról a Databricks-munkaterület számítási síkján futó szerver, egy
Az alábbi ábra a teljes rendszerarchitektúrát szemlélteti:
Fontos
A Databricks egy engedélyező jegyzetfüzetet biztosít, a amelyen konfigurálhatja a Git-kiszolgálópéldányt a Databricks Git-mappák proxyparancsaihoz. Az engedélyezési jegyzetfüzet lekérése a GitHubon.
A Git-kiszolgálóproxyhoz jelenleg nincs szükség CAN_ATTACH_TO
az összes felhasználó engedélyére. A meglévő proxyfürtökkel rendelkező rendszergazdák mostantól módosíthatják a fürt ACL-engedélyét a funkció engedélyezéséhez. Az engedélyezéséhez:
Válassza Compute az oldalsávon, majd kattintson a
kebab menüre a futó Git Server-proxy Számítási bejegyzése mellett:
A párbeszédpanelen távolítsa el a Csatolható bejegyzést Minden felhasználó:
Hogyan állíthatom be a Git Server Proxy for Databricks Git-mappákat?
Ez a szakasz ismerteti, hogyan készítse elő a Git-kiszolgálópéldányát a Databricks Git-mappáihoz tartozó Git-kiszolgáló proxy létrehozásához, valamint hogyan ellenőrizze a konfigurációt.
Mielőtt elkezdené
A proxy engedélyezése előtt győződjön meg arról, hogy:
- A munkaterületen engedélyezve van a Databricks Git-mappák funkció.
- A Git-kiszolgálópéldány elérhető az Azure Databricks-munkaterület számítási síkjának VPC-jéről, és engedélyezve van a HTTPS és a személyes hozzáférési jogkivonatok (PAT-k).
Feljegyzés
A Databricks Git-kiszolgálóproxyja a VPC által támogatott összes régióban működik.
1. lépés: A Git-kiszolgálópéldány előkészítése
Fontos
A számítási erőforrás létrehozásához és a feladat elvégzéséhez rendszergazdai jogosultsággal kell rendelkeznie a munkaterületen.
A Git-kiszolgálópéldány konfigurálása:
Adjon hozzáférést a proxyfürt illesztőprogram-csomópontjának a Git-kiszolgálóhoz.
A vállalati Git-kiszolgáló rendelkezhet olyan
allowlist
IP-címmel, amelyről a hozzáférés engedélyezett.- Statikus kimenő IP-cím társítása a proxyfürtből származó forgalomhoz. Ezt az Azure Firewall vagy egy kimenő berendezés használatával teheti meg.
- Adja hozzá az előző lépés IP-címét a Git-kiszolgáló engedélyezési listájához.
Állítsa be a Git-kiszolgálópéldányt a HTTPS-átvitel engedélyezésére.
- A GitHub Enterprise esetében lásd : Melyik távoli URL-címet használjam a GitHub Enterprise súgójában.
- Bitbucket esetén lépjen a Bitbucket kiszolgálófelügyeleti lapjára, és válassza ki a kiszolgáló beállításait. A HTTP(S) SCM üzemeltetési szakaszában engedélyezze a HTTP(S) engedélyezett jelölőnégyzetet.
2. lépés: Az engedélyezési jegyzetfüzet futtatása
A proxy engedélyezése:
Jelentkezzen be az Azure Databricks-munkaterületre munkaterület-rendszergazdaként, és hozzáférési jogosultságokkal rendelkezik a fürt létrehozásához.
Importálja ezt a jegyzetfüzetet, amely a felhőszolgáltatótól elérhető legkisebb példánytípust választja a Git-proxy futtatásához:
Jegyzetfüzet: Engedélyezze a Git-kiszolgálóproxyt a Databricks Git-mappákhoz a Git-mappák privát Git-kiszolgálói kapcsolatához.
Kattintson a(z) Az összes futtatása gombra a jegyzetfüzet futtatásához, amely a következő feladatokat hajtja végre:
- Létrehoz egy "Databricks Git Proxy" nevű csomópont számítási erőforrást , amely nem fejeződik be automatikusan. Ez a Git-proxyszolgáltatás fogja feldolgozni és továbbítani a Git-parancsokat az Azure Databricks-munkaterületről a helyszíni Git-kiszolgálóra.
- Lehetővé teszi egy funkciójelző használatát, amely azt szabályozza, hogy a Databricks Git-mappákban lévő Git-kérelmek a számítási példányon keresztül legyenek-e elérhetők.
Ajánlott eljárásként érdemes létrehozni egy egyszerű feladatot a Git proxy számítási erőforrásának futtatásához. Ez lehet egy egyszerű jegyzetfüzet, amely kinyomtatja vagy naplózza az állapotot, például "A Git proxyszolgáltatás fut". Állítsa be, hogy a feladat rendszeres időközönként fusson, hogy a Git proxyszolgáltatás mindig elérhető legyen a felhasználók számára.
Feljegyzés
Ha egy további, hosszú ideig futó számítási erőforrást futtat a proxyszoftver üzemeltetéséhez, további ADATBÁZIS-objektumokra lesz szükség. A költségek minimalizálása érdekében a jegyzetfüzet úgy konfigurálja a proxyt, hogy egy egycsomópontos számítási erőforrást használjon olcsó csomóponttípussal. Előfordulhat azonban, hogy az igényeinek megfelelően módosítani szeretné a számítási beállításokat. A számítási példányok díjszabásáról a Databricks díjszabási kalkulátorában talál további információt.
3. lépés: A Git-kiszolgáló konfigurációjának ellenőrzése
A Git-kiszolgáló konfigurációjának ellenőrzéséhez próbáljon meg klónozni egy privát Git-kiszolgálón üzemeltetett adattárat a proxyfürtön keresztül. A sikeres klónozás azt jelenti, hogy sikeresen engedélyezte a Git-kiszolgálóproxyt a munkaterületen.
4. lépés: Proxybarát Git-adattárak létrehozása
Miután a felhasználók konfigurálták a Git-hitelesítő adataikat, nincs szükség további lépésekre az adattárak létrehozásához vagy szinkronizálásához. A Git-mappákhoz tartozó hitelesítő adatok konfigurálásához és az adattárak programozott eléréséhez lásd: Git-hitelesítő adatok konfigurálása & távoli adattár csatlakoztatása az Azure Databrickshez.
Globális CAN_ATTACH_TO-engedélyek eltávolítása
A meglévő proxyfürtökkel rendelkező rendszergazdák mostantól módosíthatják a fürt ACL-engedélyét az általánosan elérhető Git-kiszolgálóproxy-viselkedés kihasználásához.
Ha korábban CAN_ATTACH_TO
jogosultságokkal konfigurálta a Databricks Git-kiszolgálóproxyt, az alábbi lépésekkel távolíthatja el ezeket az engedélyeket:
Válassza Compute az oldalsávon, majd kattintson a
kebab menüre a futtatott Git-kiszolgálóproxy Számítási bejegyzése mellett:
A párbeszédpanelen távolítsa el a Can Attach To bejegyzést Minden felhasználószámára:
Hibaelhárítás
Hiba történt a Git-kiszolgálóproxy Databricks Git-mappákhoz való konfigurálása során? Íme néhány gyakori probléma és módszer a hatékonyabb diagnosztizálásukra.
Gyakori problémák ellenőrzőlistája
Mielőtt elkezdené diagnosztizálni a hibát, győződjön meg arról, hogy elvégezte a következő lépéseket:
- Biztosítsa, hogy a proxyfürt ezzel a Git proxykiszolgálóval és ahibaelhárítási jegyzetfüzettel fut-e. (Ez egy másik notebook, mint a Git proxykiszolgáló engedélyezési notebook, és ezt is a Databricks biztosítja.)
- Győződjön meg arról, hogy Ön munkaterület-rendszergazda.
- Ha még nem tette, futtassa a hibakereső jegyzetfüzet többi részét, és rögzítse az eredményeket. Ha nem tudja hibakereséssel elhárítani a problémát, vagy nem látja a hibakeresési jegyzetfüzetből jelentett hibákat, a Databricks ügyfélszolgálata áttekintheti az eredményeket. Ha szükséges, exportálhatja és elküldheti a hibakeresési jegyzetfüzetet DBC-archívumként.
A Git-proxy konfigurációjának módosítása
Ha a Git-proxyszolgáltatás nem az alapértelmezett konfigurációval dolgozik, meghatározott környezeti változókat állíthat be, hogy az jobban támogassa a hálózati infrastruktúrát.
A Git-proxyszolgáltatás konfigurációjának frissítéséhez használja az alábbi környezeti változókat:
Környezeti változó | Formátum | Leírás |
---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true /false |
Állítsa ezt false , ha önaláírt tanúsítványt használ a privát Git-kiszolgálóhoz. |
GIT_PROXY_CA_CERT_PATH |
Fájl elérési útja (sztring) | Állítsa be ezt egy SSL-ellenőrzéshez használt CA-tanúsítványfájl elérési útjára. Példa: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Állítsa be ezt a HTTPS URL-címre a hálózat HTTP forgalmának tűzfalproxyja számára. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Portszám (egész szám) | Állítsa be ezt a Git-kiszolgáló HTTP-portjához rendelt portszámra. |
A környezeti változók beállításához lépjen az Azure Databricks-munkaterület Számítási lapjára, és válassza ki a Git-proxyszolgáltatás számítási konfigurációját. A Konfigurációs panel alján bontsa ki Speciális beállítások, és válassza a Spark fület alatta. Egy vagy több környezeti változó beállításához vegye fel őket a Környezeti változók szövegterületre.
A proxyfürt naplóinak vizsgálata
A proxyfürtön /databricks/git-proxy/git-proxy.log
található fájl hibakeresési célokra hasznos naplókat tartalmaz.
A naplófájlnak a Data-plane proxy server binding to ('', 8000)…
sorral kell kezdődnie. Ha nem, ez azt jelenti, hogy a proxykiszolgáló nem indult el megfelelően. Indítsa újra a fürtöt, vagy törölje a létrehozott fürtöt, és futtassa újra az engedélyezési jegyzetfüzetet.
Ha a naplófájl ezzel a sortal kezdődik, tekintse át a Databricks Git-mappákban egy Git-művelet által kezdeményezett Git-kérelmekhez követendő naplókivonatokat.
Példa:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
A fájlba írt hibanaplók hasznosak lehetnek a Databricks támogatási hibakeresési problémáinak megoldásához.
Gyakori hibaüzenetek és azok megoldása
SSL-problémák miatt nem sikerült biztonságos kapcsolatot létesíteni
A következő hibaüzenet jelenhet meg:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SLL problems
Ez gyakran azt jelenti, hogy speciális SSL-tanúsítványokat igénylő adattárat használ. Ellenőrizze a
/databricks/git-proxy/git-proxy.log
fájl tartalmát a proxyfürtön. Ha a tanúsítvány érvényesítése sikertelen, akkor hozzá kell adnia a tanúsítványt a rendszertanúsítvány-lánchoz. Először bontsa ki a főtanúsítványt (a böngésző vagy más beállítás használatával), és töltse fel a DBFS-be. Ezután szerkessze a Git-mappák Git Proxyfürtjét , hogy aGIT_PROXY_CA_CERT_PATH
környezeti változó a főtanúsítvány-fájlra mutasson. A fürt környezeti változóinak szerkesztéséről további információt a Környezeti változók című témakörben talál.A lépés befejezése után indítsa újra a fürtöt.
"Hiányzó/Érvénytelen Git-hitelesítő adatok" hibaüzenettel rendelkező adattár klónozásának hibája
Először ellenőrizze, hogy konfigurálta-e a Git-hitelesítő adatait a Felhasználói beállítások.
A következő hibaüzenet jelenhet meg:
Error: Invalid Git credentials. Go to User Settings -> Git Integration and check that your personal access token or app password has the correct repository access.
Ha a szervezet SAML SSO-t használ, győződjön meg arról, hogy a jogkivonat engedélyezve van (ezt a Git-kiszolgáló személyes hozzáférési jogkivonatának (PAT) felügyeleti oldalán teheti meg).
Gyakori kérdések
Mi a legegyszerűbb módszer annak kiderítésére, hogy a Git proxykiszolgáló fut-e?
Importálja a Databricks által biztosított Git-proxy hibakeresési jegyzetfüzetét. Töltse le a helyi gépre, majd importálja az Azure Databricks-munkaterületre.
A jegyzetfüzet futtatása jelentést küld, ha a Git proxyszolgáltatással kapcsolatos hibák vagy problémák jelentkeznek.
Milyen biztonsági következményekkel jár a Git-kiszolgálóproxy?
A legfontosabb tudnivalók a következők:
- A proxyzás nem befolyásolja a Databricks vezérlősík biztonsági architektúráját.
- Munkaterületenként csak egy Git-proxykiszolgáló-fürt lehet.
A Databricks Git-mappákhoz kapcsolódó Git-forgalom a proxyfürtön keresztül van irányítva, még a nyilvános Git-adattárak esetében is?
Igen. A jelenlegi kiadásban az Azure Databricks-munkaterület nem tesz különbséget a proxied és a nem felügyelt adattárak között.
Működik a Git-proxy funkció más Vállalati Git-kiszolgálószolgáltatókkal?
A Databricks Git-mappák támogatják a GitHub Enterprise, a Bitbucket Server, az Azure DevOps Server és a GitLab önkiszolgáló kezelését. Más vállalati Git-kiszolgálószolgáltatóknak is működniük kell, ha megfelelnek a gyakori Git-specifikációknak.
A Databricks Git-mappák támogatják a véglegesítések GPG-aláírását?
Szám
A Databricks Git-mappák támogatják a Git-műveletek SSH-átvitelét?
Szám Csak a HTTPS támogatott.
Támogatott egy nem alapértelmezett HTTPS-port használata a Git-kiszolgálón?
Az engedélyezési jegyzetfüzet jelenleg feltételezi, hogy a Git-kiszolgáló az alapértelmezett 443-os HTTPS-portot használja. Beállíthatja a GIT_PROXY_CUSTOM_HTTP_PORT
környezeti változót, hogy felülírja a portértéket egy előnyben részesített értékkel.
Megoszthat egy proxyt több munkaterületen, vagy munkaterületenként egy proxyfürtre van szüksége?
Azure Databricks-munkaterületenként egy proxyfürtre van szükség.
Működik a proxy az örökölt egyjegyzetes verziószámozással?
Nem, a proxy nem működik az örökölt egyjegyzetes verziószámozással. A felhasználóknak át kell költözniük a Databricks Git-mappák verziószámozására.
El tudja rejteni a Databricks a Git-kiszolgáló kipróbálkozott URL-címeit? Megadhatják a felhasználók az eredeti Git-kiszolgáló URL-címeit, nem pedig a proxyzott URL-címeket?
Igen mindkét kérdésre. A felhasználóknak nem kell módosítaniuk a proxy viselkedését. A jelenlegi proxy implementációval a Databricks Git-mappák összes Git-forgalma a proxyn keresztül lesz irányítva. A felhasználók a git-adattár szokásos URL-címét adhatók meg, például https://git.company.com/org/repo-name.git
.
Milyen gyakran dolgoznak a felhasználók a Git URL-címeivel?
A felhasználó általában csak akkor adja hozzá a Git URL-címét, ha új adattárat hoz létre, vagy kivesz egy meglévő adattárat, amelyet még nem vette ki.
A szolgáltatás transzparens proxyhitelesítési adatokat ad a Git-kiszolgálónak?
Igen, a proxy a felhasználói fiók Git-kiszolgálói jogkivonatával hitelesíti a Git-kiszolgálót.
A Databricks hozzáfér a Git-kiszolgáló kódhoz?
Az Azure Databricks proxyszolgáltatás a felhasználó által megadott hitelesítő adatokkal fér hozzá a Git-kiszolgálón található Git-adattárhoz, és szinkronizálja az adattárban lévő kódfájlokat a Git mappával. A hozzáférést a felhasználó által megadott személyes hozzáférési jogkivonatban (PAT) megadott engedélyek korlátozzák.