Verbinding maken met Infoworks

Artikel
01/22/2025

Belangrijk

Deze functie is beschikbaar als openbare preview.

Infoworks DataFoundry is een geautomatiseerd systeem voor zakelijke gegevens en indeling dat systeemeigen wordt uitgevoerd op Azure Databricks en gebruikmaakt van de volledige kracht van Azure Databricks om een eenvoudige oplossing te bieden voor het onboarden van gegevens. Dit is een belangrijke eerste stap bij het operationeel maken van uw Data Lake. DataFoundry automatiseert niet alleen gegevensopname, maar automatiseert ook de belangrijkste functionaliteit die bij opname moet worden geleverd om een basis voor analyse tot stand te brengen. Onboarding van gegevens met DataFoundry automatiseert:

Gegevensopname: van alle bedrijfs- en externe gegevensbronnen
Gegevenssynchronisatie: CDC om gegevens gesynchroniseerd te houden met de bron
Gegevensbeheer: catalogiseren, herkomst, metagegevensbeheer, controle en geschiedenis

Hier volgen de stappen voor het gebruik van Infoworks met Azure Databricks.

stap 1: Generate een persoonlijk toegangstoken van Databricks

Infoworks verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.

Notitie

Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Stap 2: Zet een cluster Set op om integratiebehoeften te ondersteunen

Infoworks schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.

Beveiligde toegang tot een Azure Data Lake Storage-pad

Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.

Een toegangssleutel voor een Azure-opslagaccount gebruiken

U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor het voorbereiden van gegevens, en tot de ADLS-container en het bestandssysteem where waarnaar u de Delta Lake tableswilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage Gen2 en Blob Storage.

Een Microsoft Entra ID-service-principal gebruiken

U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor het voorbereiden van gegevens en de ADLS-container where waarnaar u de Delta-tableswilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS Gen2 met een service-principal.

De clusterconfiguratie opgeven

Set clustermodus naar Standaard.
Set Databricks Runtime-versie naar een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.

Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.

Zie Get verbindingsgegevens voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.

Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster

Als u een Azure Databricks-cluster wilt verbinden met Infoworks, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:

JDBC-URL
HTTP-pad

Stap 4: Get Infoworks voor Azure Databricks

Ga naar Infoworks- voor meer informatie en get een demo.

Aanvullende bronnen

Ondersteuning

Delen via