Csatlakozás StreamSetekhez
Fontos
Ez a funkció a nyilvános előzetes verzióban érhető el.
A StreamSets segítségével teljes életciklusa során kezelheti és figyelheti az adatfolyamokat. A StreamSets natív integrációja az Azure Databricks és a Delta Lake használatával különböző forrásokból származó adatokat kér le, és egyszerűen kezelheti a folyamatokat.
A StreamSets általános bemutatásához tekintse meg a következő YouTube-videót (10 perc).
A StreamSets és az Azure Databricks használatának lépései.
1. lépés: Databricks személyes hozzáférési jogkivonat létrehozása
A StreamSets egy Azure Databricks személyes hozzáférési jogkivonat használatával hitelesíti az Azure Databrickset.
Feljegyzés
Ajánlott biztonsági eljárásként, ha automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, a Databricks azt javasolja, hogy munkaterület-felhasználók helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat használja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.
2. lépés: Klaszter beállítása az integrációs igények támogatására
A StreamSets adatokat fog írni egy Azure Data Lake Storage-elérési útra, és az Azure Databricks integrációs fürt ebből a helyről fogja beolvasni az adatokat. Az integrációs fürt ezért biztonságos hozzáférést igényel az Azure Data Lake Storage elérési úthoz.
Biztonságos hozzáférés egy Azure Data Lake Storage-elérési úthoz
Az Azure Data Lake Storage (ADLS) adataihoz való hozzáférés biztonságossá tételéhez használhatja az Azure Storage-fiók hozzáférési kulcsát (ajánlott) vagy a Microsoft Entra ID szolgáltatásnevet.
Azure Storage-fiók hozzáférési kulcsának használata
A Spark-konfiguráció részeként konfigurálhat egy tárfiók hozzáférési kulcsát az integrációs fürtön. Győződjön meg arról, hogy a tárfiók rendelkezik hozzáféréssel az előkészítéshez használt ADLS-tárolóhoz és fájlrendszerhez, valamint ahhoz az ADLS-tárolóhoz és fájlrendszerhez, ahol a Delta Lake-táblákat meg szeretné írni. Az integrációs fürt kulcs használatára való konfigurálásához kövesse a Csatlakozás az Azure Data Lake Storage Gen2-hez és a Blob Storage-hoz című témakörben leírt lépéseket.
Microsoft Entra ID szolgáltatásnév használata
A Spark-konfiguráció részeként konfigurálhat egy szolgáltatásnevet az Azure Databricks integrációs fürtön. Győződjön meg arról, hogy a szolgáltatási főfelhasználó hozzáfér az adatok előkészítéséhez használt ADLS-tárolóhoz, valamint ahhoz az ADLS-tárolóhoz, ahová a Delta-táblákat írni kívánja. Az integrációs fürt szolgáltatásnév használatára való konfigurálásához kövesse az Access ADLS Gen2 szolgáltatásnévvel kapcsolatos lépéseit.
A fürtkonfiguráció megadása
Állítsa a(z) cluster módot a Standard-ra.
Állítsa be a Databricks futtatókörnyezet verzióját értékre: 6.3 vagy újabbra.
Az optimalizált írás és az automatikus tömörítés engedélyezéséhez adja hozzá a következő tulajdonságokat a Spark-konfigurációhoz:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Konfigurálja a fürtöt az integrációs és skálázási igényeknek megfelelően.
A fürtkonfiguráció részleteiért lásd : Számítási konfigurációs referencia.
A JDBC URL-címének és HTTP-elérési útjának beszerzésének lépéseit az Az Azure Databricks számítási erőforrás kapcsolati adatainak lekérése című témakörben találja.
3. lépés: JDBC- és ODBC-kapcsolatadatok beszerzése a fürthöz való csatlakozáshoz
Az Azure Databricks-fürt StreamSetekhez való csatlakoztatásához a következő JDBC/ODBC kapcsolati tulajdonságokra van szükség:
- JDBC URL-címe
- HTTP elérési útja
4. lépés: StreamSetek lekérése az Azure Databrickshez
Ha még nem rendelkezik StreamSets-fiókkal, regisztráljona Databricks StreamSets szolgáltatására. Ingyenesen kezdhet, és amikor készen áll, frissíthet; lásd StreamSets DataOps Platform díjszabás.
5. lépés: Megtudhatja, hogyan tölthet be adatokat a StreamSets használatával a Delta Lake-be
Kezdjen egy mintafolyamattal, vagy tekintse meg a StreamSets-megoldásokat , amelyekből megtudhatja, hogyan hozhat létre olyan folyamatot, amely adatokat fogad be a Delta Lake-be.