Rekenproces configureren voor taken
Dit artikel bevat aanbevelingen en resources voor het configureren van rekenkracht voor Databricks-taken.
Belangrijk
Beperkingen voor serverloze berekeningen voor taken zijn onder andere:
- Geen ondersteuning voor doorlopende planning.
- Geen ondersteuning voor standaard- of tijdgebaseerde intervaltriggers in Structured Streaming.
Zie Serverloze rekenbeperkingen voor meer beperkingen.
Elke taak kan een of meer taken hebben. U definieert rekenresources voor elke taak. Meerdere taken die voor dezelfde taak zijn gedefinieerd, kunnen dezelfde rekenresource gebruiken.
Wat is de aanbevolen berekening voor elke taak?
De volgende tabel geeft de aanbevolen en ondersteunde rekentypen voor elk taaktype aan.
Notitie
Serverloze rekenkracht voor taken heeft beperkingen en biedt geen ondersteuning voor alle workloads. Zie beperkingen voor serverloze berekeningen.
Opdracht | Aanbevolen rekenkracht | Ondersteunde berekeningen |
---|---|---|
Notitieboekjes | Serverloze taken | Serverloze taken, klassieke taken, klassieke voor algemene doeleinden |
Python script | Serverloze opdrachten | Serverloze banen, klassieke banen, klassieke all-purpose-banen |
Python-wiel | Serverloze processen | Serverloze taken, klassieke taken, klassieke veelzijdig |
SQL | Serverloze SQL Magazijn | Serverloze SQL-gegevensmagazijn, pro SQL-gegevensmagazijn |
DLT-pijplijn | Serverloze pijplijn | Serverloze pijplijn, klassieke pijplijn |
dbt | Serverloze SQL Magazijn | Serverloze SQL-warehouse, pro SQL-warehouse |
DBT CLI-opdrachten | Serverloze taken | Serverloze taken, klassieke taken, klassieke algemene toepassingen |
JAR | Klassieke banen | Klassieke taken, klassiek voor algemeen gebruik |
Spark Submit | Klassieke banen | Klassieke beroepen |
Prijzen voor taken zijn gekoppeld aan de berekening die wordt gebruikt voor het uitvoeren van taken. Zie De prijzen van Databricks voor meer informatie.
Hoe kan ik rekenkracht configureren voor taken?
Klassieke takenverwerking wordt rechtstreeks via de Databricks Jobs-gebruikersinterface geconfigureerd, en deze configuraties maken deel uit van de taakdefinitie. Alle configuraties van andere beschikbare rekentypen worden opgeslagen samen met andere werkruimtebronnen. De volgende tabel bevat meer informatie:
Rekentype | Details |
---|---|
Klassieke taken berekenen | Je configureert rekenkracht voor klassieke taken met dezelfde gebruikersinterface en instellingen die beschikbaar zijn voor algemene rekenkracht. Raadpleeg de referentie voor de configuratie van compute. |
Serverloze rekenkracht voor taken | Serverloze berekening voor taken is de standaardinstelling voor alle taken die deze ondersteunen. Databricks beheert rekeninstellingen voor serverloze berekeningen. Zie Uw Azure Databricks-taak uitvoeren met serverloze berekeningen voor werkstromen. Een workspacebeheerder moet serverloze verwerking inschakelen om deze optie zichtbaar te maken. Zie Serverloze berekening inschakelen. |
SQL-magazijnen | Serverloze en pro SQL-warehouses worden geconfigureerd door werkruimtebeheerders of gebruikers met onbeperkte bevoegdheden voor het maken van clusters. U configureert taken die moeten worden uitgevoerd op bestaande SQL-warehouses. Zie Verbinding maken met een SQL-warehouse. |
DLT-pijplijn berekenen | U configureert rekeninstellingen voor DLT-pijplijnen tijdens de pijplijnconfiguratie. Zie Rekenkracht configureren voor een DLT-pijplijn. nn Azure Databricks beheert rekenresources voor serverloze DLT-pijplijnen. Zie Een serverloze DLT-pijplijn configureren. |
Rekenproces voor alle doeleinden | U kunt desgewenst taken configureren met behulp van klassieke berekeningen voor alle doeleinden. Databricks raadt deze configuratie niet aan voor productietaken. Zie De referentie voor de compute-configuratie en moet er ooit rekenkracht voor alle doeleinden worden gebruikt voor taken?. |
Rekenkracht delen tussen taken
Configureer taken om dezelfde computerbronnen te gebruiken en zo het gebruik van middelen te optimaliseren met jobs die meerdere taken coördineren. Het delen van rekenkracht over taken kan de latentie verminderen die is gekoppeld aan opstarttijden.
U kunt één taakresource gebruiken om alle taken uit te voeren die deel uitmaken van de taak of meerdere taakresources die zijn geoptimaliseerd voor specifieke workloads. Een jobcompute die als onderdeel van een taak is geconfigureerd, is beschikbaar voor alle andere taken binnen de job.
In de volgende tabel worden de verschillen getoond tussen job compute die is geconfigureerd voor één taak en job compute die wordt gedeeld tussen verschillende taken.
Eén taak | Gedeeld tussen taken | |
---|---|---|
Begin | Wanneer de taak wordt uitgevoerd. | Wanneer de eerste taak die is geconfigureerd om de rekenresource te gebruiken, begint te draaien. |
Terminate | Nadat de taak is uitgevoerd. | Nadat de laatste taak, die is geconfigureerd om de rekenresource te gebruiken, wordt uitgevoerd. |
Niet-actieve rekenkracht | Niet van toepassing. | De computer blijft ingeschakeld en inactief terwijl taken worden uitgevoerd die geen gebruikmaken van de computercapaciteit. |
Een gedeeld taakcluster is gericht op één taakuitvoering en kan niet worden gebruikt door andere taken of uitvoeringen van dezelfde taak.
Bibliotheken kunnen niet worden gedeclareerd in een configuratie van een gedeeld taakcluster. U moet afhankelijke bibliotheken toevoegen in taakinstellingen.
Controleer, configureer en wissel de rekenkracht van taken.
De sectie Compute in het deelvenster Taakdetails bevat alle berekeningen die zijn geconfigureerd voor taken in de huidige taak.
Taken die zijn geconfigureerd voor het gebruik van een rekenresource, worden gemarkeerd in de taakgrafiek wanneer u de muisaanwijzer boven de berekeningsspecificatie beweegt.
Gebruik de knop Wisselen om de berekening te wijzigen voor alle taken die zijn gekoppeld aan een rekenresource.
Rekenresources voor klassieke taken hebben een optie Configureren . Andere rekenresources bieden u opties om details van de rekenconfiguratie weer te geven en te wijzigen.
Aanbevelingen voor het configureren van klassieke taken berekenen
Deze sectie is gericht op algemene aanbevelingen over functies en configuraties die kunnen profiteren van bepaalde werkstromen. Specifieke aanbevelingen voor het configureren van de grootte en typen rekenresources variëren op basis van de workload.
Databricks raadt aan Photon Acceleration in te schakelen, recente Databricks Runtime-versies te gebruiken en rekenkracht te gebruiken die is geconfigureerd voor Unity Catalog.
Serverloze berekening voor taken beheert alle infrastructuur, waardoor de volgende overwegingen worden geëlimineerd. Zie Uw Azure Databricks-taak uitvoeren met serverloze berekeningen voor werkstromen.
Notitie
Gestructureerde streamingwerkstromen hebben specifieke aanbevelingen. Zie Overwegingen voor productie voor gestructureerd streamen.
Standaardtoegangsmodus gebruiken (voorheen modus voor gedeelde toegang)
Databricks raadt aan om de standaardtoegangsmodus voor taken te gebruiken. Zie toegangsmodi.
Notitie
De standaardtoegangsmodus biedt geen ondersteuning voor sommige workloads en functies. Databricks raadt toegewezen toegangsmodus (voorheen modus voor individuele gebruikerstoegang) aan voor deze workloads. Zie beperkingen voor de compute-toegangsmodus voor Unity Catalog-.
Clusterbeleid gebruiken
Databricks raadt aan dat werkruimtebeheerders clusterbeleid voor taken definiëren en dit beleid afdwingen voor alle gebruikers die taken configureren.
Met clusterbeleid kunnen werkruimtebeheerders kostenbeheer instellen en de configuratieopties van gebruikers beperken. Zie Rekenbeleid maken en beheren voor meer informatie over het configureren van clusterbeleid.
Azure Databricks biedt een standaardbeleid dat is geconfigureerd voor taken. Beheerders kunnen dit beleid beschikbaar maken voor andere werkruimtegebruikers. Zie Taak berekenen.
Automatische schaalaanpassing gebruiken
Stel autoscaling zo in dat voor langlopende taken werkknooppunten dynamisch kunnen worden toegevoegd en verwijderd tijdens het uitvoeren van taken. Zie automatisch schalen inschakelen.
Een pool gebruiken om de begintijden van het cluster te verminderen
Met rekengroepen kunt u rekenresources reserveren van uw cloudprovider. Pools zijn nuttig om de begintijd van het nieuwe taakcluster te verlagen en ervoor te zorgen dat de beschikbaarheid van rekenresources wordt gegarandeerd. Raadpleeg de poolconfiguratiereferentie.
Spot-exemplaren gebruiken
Configureer spot-exemplaren voor workloads met lage latentievereisten om de kosten te optimaliseren. Zie Spot-instances.
Moet berekening voor alle doeleinden ooit worden gebruikt voor taken?
Er zijn talloze redenen waarom Databricks het gebruik van algemene rekenkracht voor taken afraadt, waaronder de volgende:
- Azure Databricks factureert voor algemene rekendoeleinden tegen een ander tarief dan voor takencomputatie.
- Het berekenen van taken wordt automatisch beëindigd nadat een taakuitvoering is voltooid. Compute voor alle doeleinden ondersteunt automatische beëindiging, die is gekoppeld aan inactiviteit in plaats van het einde van een taakuitvoering.
- Berekeningen voor alle doeleinden worden vaak gedeeld tussen teams van gebruikers. Taken die zijn gepland op basis van berekeningen voor alle doeleinden, hebben vaak een verhoogde latentie vanwege concurrentie voor rekenresources.
- Veel aanbevelingen voor het optimaliseren van de rekenconfiguratie van taken zijn niet geschikt voor het type ad-hocquery's en interactieve workloads die worden uitgevoerd op rekenprocessen voor alle doeleinden.
Hier volgen gebruiksscenario's waarin u ervoor kunt kiezen om berekeningen voor alle doeleinden te gebruiken voor taken:
- U bent iteratief bezig met het ontwikkelen of testen van nieuwe taken. Opstarttijden voor het berekenen van taken kunnen iteratieve ontwikkeling tijdrovend maken. Met berekeningen voor alle doeleinden kunt u wijzigingen toepassen en uw taak snel uitvoeren.
- U hebt kortstondige taken die regelmatig of volgens een specifiek schema moeten worden uitgevoerd. Er is geen opstarttijd gekoppeld aan de momenteel uitgevoerde berekening voor alle doeleinden. Houd rekening met kosten die zijn gekoppeld aan niet-actieve tijd als u dit patroon gebruikt.
Serverloze computing voor jobs is de aanbevolen vervanging voor de meeste taaktypen die u met algemene rekendoeleinden kunt uitvoeren.