Ordlista för teknisk terminologi i Azure Databricks

Artikel
02/14/2025

A

åtkomstkontrollista (ACL)

En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten och vilka åtgärder som tillåts på tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd. Se även Åtkomstkontrollistor.

åtkomstläge

En säkerhetsfunktion som avgör vem som kan använda en beräkningsresurs och de data som de kan komma åt när du använder beräkningsresursen. Varje beräkningsresurs i Azure Databricks har ett åtkomstläge. Se Åtkomstlägen.

ACID-transaktioner

Databastransaktioner som bearbetas på ett tillförlitligt sätt. ACID står för atomaritet, konsistens, isolering, hållbarhet. Se Metodtips för tillförlitlighet.

artificiell intelligens (AI)

Möjligheten för en dator att imitera intelligent mänskligt beteende. Se AI och maskininlärning på Databricks.

AI-agent

Ett program med komplexa resonemangsfunktioner som gör att det kan skapa en egen plan och köra uppgiften enligt de verktyg som står till dess förfogande. Se Vad är sammansatta AI-system och AI-agenter?.

AI-funktioner

De inbyggda SQL-funktionerna som gör att du kan använda AI på dina data direkt från SQL i Azure Databricks. Se Tillämpa AI på data med hjälp av Azure Databricks AI-funktioner.

AI-lekplats

En Azure Databricks-funktion där användare kan interagera med, testa och jämföra generativa AI-modeller som hanteras på din Azure Databricks-arbetsyta. Se Chatta med LLM:er och prototypa generativa AI-appar genom AI Playground.

avvikelseidentifiering

Tekniker och verktyg som används för att identifiera ovanliga mönster som inte överensstämmer med förväntat beteende i datauppsättningar. Azure Databricks underlättar avvikelseidentifiering genom sina funktioner för maskininlärning och databearbetning.

Apache Spark

Ett distribuerat databehandlingssystem med öppen källkod som används för stordataarbetsbelastningar. Se Apache Spark på Azure Databricks.

artificiellt neuralt nätverk (ANN)

Ett beräkningssystem mönstrat efter driften av neuroner i den mänskliga hjärnan.

tillgång

En entitet på en Azure Databricks-arbetsyta (till exempel ett objekt eller en fil).

granskningslogg

En logg av användaraktiviteter och åtgärder i Azure Databricks-miljön, som är kritisk för säkerhet, efterlevnad och driftövervakning. Se Diagnostikloggreferens.

Auto Loader

En funktion för datainmatning som inkrementellt och effektivt bearbetar nya datafiler när de tas emot i molnlagring utan ytterligare installation. Se även Vad är Auto Loader?.

AutoML

En Azure Databricks-funktion som förenklar processen med att tillämpa maskininlärning på dina datauppsättningar genom att automatiskt hitta den bästa algoritmen och hyperparameterkonfigurationen åt dig. Se Vad är AutoML?.

automatiserad datahärstamning

Processen att automatiskt spåra och visualisera flödet av data från dess ursprung genom olika transformeringar till dess slutliga form, som är nödvändig för felsökning, efterlevnad och förståelse av databeroenden. Azure Databricks underlättar detta genom integreringar med dataursprungsverktyg.

automatisk skalning, vågrätt

Lägga till eller ta bort utförare baserat på antalet aktiviteter som väntar på att schemaläggas. Detta sker dynamiskt under en enda uppdatering.

autoskala, vertikal

Öka eller minska storleken på en dator (drivrutin eller exekverare) baserat på minnestryck (eller brist på det). Detta sker bara i början av en ny uppdatering.

Azure Databricks

En version av Databricks som är optimerad för Microsoft Azure-molnplattformen.

B

satsvis bearbetning

En databehandlingsmetod som gör att du kan definiera explicita instruktioner för att bearbeta en fast mängd statiska, icke-föränderliga data som en enda åtgärd. Azure Databricks använder Spark SQL eller DataFrames. Se Direktuppspelning och inkrementell inmatning.

identifiering och minskning av fördomar

Processen att identifiera och åtgärda fördomar i data- och maskininlärningsmodeller för att säkerställa rättvisa och noggrannhet. Databricks erbjuder verktyg och integreringar som hjälper dig att identifiera och minimera bias. Se Övervaka rättvisa och fördomar för klassificeringsmodeller.

business intelligence (BI)

De strategier och tekniker som används av företag för dataanalys och hantering av affärsinformation.

C

Katalogutforskare

En Azure Databricks-funktion som tillhandahåller ett användargränssnitt för att utforska och hantera data, scheman (databaser), tabeller, modeller, funktioner och andra AI-tillgångar. Du kan använda den för att hitta dataobjekt och ägare, förstå datarelationer mellan tabeller och hantera behörigheter och delning. Se Vad är Katalogutforskaren?.

CICD eller CI/CD

De kombinerade metoderna för kontinuerlig integrering (CI) och kontinuerlig leverans (CD). Se Vad är CI/CD på Azure Databricks?.

rensa data

Data som har genomgått en datarensningsprocess, som är processen att identifiera och korrigera (eller ta bort) skadade eller felaktiga poster från en postuppsättning, tabell eller databas och syftar på att identifiera ofullständiga, felaktiga, felaktiga eller irrelevanta delar av data och sedan ersätta, ändra eller ta bort smutsiga eller grova data.

Renrum

En Azure Databricks-funktion som använder deltadelning och serverlös beräkning för att tillhandahålla en säker och sekretessskyddande miljö där flera parter kan dela känsliga företagsdata och samarbeta utan direkt åtkomst till varandras data. Med Clean Rooms kan användare från andra Databricks-konton samarbeta för att generera insikter om delade projekt, till exempel reklamkampanjer, investeringsbeslut eller forskning och utveckling, utan att dela åtkomst till känsliga underliggande data. Se Vad är Azure Databricks Clean Rooms?.

molnplattformsleverantör

Ett företag som tillhandahåller en plattform för molnbaserad databehandling. Till exempel Microsoft Azure, Amazon Web Services (AWS) och Google Cloud Platform (GCP).

kluster

En icke-serverlös beräkningsresurs som används i anteckningsböcker, jobb och DLT. Termen beräkning har ersatt kluster i hela Azure Databricks-användargränssnittet, men används fortfarande i kluster-API:et och i metadata.

sammansatt AI-system

System som hanterar AI-uppgifter genom att kombinera flera interagerande komponenter. Däremot är en AI-modell en statistisk modell (till exempel en transformerare som förutsäger nästa token i text). Se Vad är sammansatta AI-system och AI-agenter?.

beräkna

Refererar till beräkningsresurser, som är infrastrukturelement, oavsett om det är maskinvara eller programvara, som möjliggör problemlösning och skapande av lösningar genom att ta emot, analysera och lagra data. Beräkning.

kontinuerlig rörledning

En datapipeline som uppdaterar alla tabeller kontinuerligt när ny data tas emot i indata utan att avbrytas. Se Triggat vs. kontinuerligt pipelineläge.

D

riktad acyklisk graf (DAG)

En metod för att representera beroenden mellan uppgifter i ett arbetsflöde eller en pipeline. I en DAG-bearbetningsmodell representeras uppgifter som noder i en riktad acyklisk graf, där kanterna representerar beroendena mellan aktiviteter.

datakatalog

Ett verktyg för metadatahantering för att hantera datakällor med information om datans struktur, plats och användning. Azure Databricks integreras med externa datakataloger för förbättrad metadatahantering.

datastyrning

Praxis att hantera tillgänglighet, integritet, säkerhet och användbarhet för data, med principer, procedurer och tekniker för att säkerställa datakvalitet och efterlevnad.

dataintag

Processen att importera, överföra, läsa in och bearbeta data från olika källor till Azure Databricks för lagring, analys och bearbetning.

data lake

En stor lagringsplats som innehåller en stor mängd rådata i sitt interna format tills den behövs.

Data Lakehouse

Ett datahanteringssystem som kombinerar fördelarna med datasjöar och informationslager. Ett datasjöhus ger skalbara lagrings- och bearbetningsfunktioner för moderna organisationer som vill undvika isolerade system för bearbetning av olika arbetsbelastningar, till exempel maskininlärning (ML) och Business Intelligence (BI). Ett datasjöhus kan hjälpa dig att upprätta en enda sanningskälla, eliminera redundanta kostnader och säkerställa datas färskhet. Se Vad är en data lakehouse?.

datapipeline

En serie steg där data genereras, samlas in, bearbetas och flyttas till ett mål. Databricks underlättar skapande och hantering av komplexa datapipelines för bearbetning av batchdata och realtidsdata.

datasekretess

Praxis att skydda personuppgifter från obehörig åtkomst, användning, avslöjande eller stöld. Azure Databricks betonar robusta funktioner för datasekretess och säkerhet, inklusive kryptering från slutpunkt till slutpunkt, rollbaserad åtkomstkontroll och efterlevnad av viktiga dataskyddsregler, för att skydda känslig information och säkerställa datastyrning.

datavisualisering

En datahanteringsmetod som gör att ett program kan hämta och manipulera data utan att kräva teknisk information om data, till exempel hur de formateras eller var de finns fysiskt. Azure Databricks kan fungera som en del av ett datavirtualiseringslager genom att ge sömlös åtkomst till och analys av data mellan olika källor.

datalagerhantering

Syftar på att samla in och lagra data från flera källor så att de snabbt kan nås för affärsinsikter och rapportering. Lakehouse-arkitekturen och Databricks SQL ger molndatalagerfunktioner till dina datasjöar. Se Vad är datalagerhantering i Azure Databricks?.

Databricks

En enhetlig, öppen analysplattform för att skapa, distribuera, dela och underhålla data-, analys- och AI-lösningar i företagsklass i stor skala. Databricks Data Intelligence Platform integreras med molnlagring och säkerhet i ditt molnkonto och hanterar och distribuerar molninfrastruktur åt dig. Se Vad är Azure Databricks?.

Databricks AI/BI

En business intelligence-produkt för att ge förståelse för dina datas semantik, vilket möjliggör dataanalys med självbetjäning. AI/BI bygger på ett sammansatt AI-system som drar insikter från hela livscykeln för dina data på Databricks-plattformen, inklusive ETL-pipelines, ursprung och andra frågor. Se Vad är Databricks AI/BI?.

Databricks-resurspaket

Ett verktyg för att underlätta införandet av metodtips för programvaruutveckling, inklusive källkodskontroll, kodgranskning, testning och kontinuerlig integrering och leverans (CI/CD) för dina data- och AI-projekt. Paket gör det möjligt att beskriva Azure Databricks-resurser som jobb, pipelines och notebook-filer som källfiler. Se Vad är Databricks-tillgångspaket?.

Databricks Assistant

En AI-baserad parprogrammerare och en supportagent som gör dig mer effektiv när du skapar anteckningsböcker, frågor, instrumentpaneler och filer. Det kan hjälpa dig att snabbt besvara frågor genom att generera, optimera, slutföra, förklara och åtgärda kod och frågor. Se Vad är Databricks Assistant?.

Databricks CLI

Ett kommandoradsgränssnitt för Azure Databricks som gör det möjligt för användare att hantera och automatisera Databricks-arbetsytor och distribuera jobb, notebook-filer och bibliotek. Se Vad är Databricks CLI?.

Databricks Connect

Ett klientbibliotek som gör det möjligt för utvecklare att ansluta sina favorit-IDE:er, anteckningsböcker och andra verktyg till Azure Databricks beräkningsresurser och köra Spark-kod på distans. Se Vad är Databricks Connect?.

Databricks Container Services

Med en Azure Databricks-funktion kan du ange en Docker-avbildning när du skapar beräkning. Se Anpassa containrar med Databricks Container Service.

Databricks Marketplace

Ett öppet forum för utbyte av dataprodukter. Leverantörer måste ha ett Azure Databricks-konto, men mottagarna kan vara vem som helst. Marketplace-tillgångar omfattar datauppsättningar, Azure Databricks-notebook-filer, Azure Databricks Solution Accelerators och maskininlärningsmodeller (AI). Datauppsättningar görs vanligtvis tillgängliga som kataloger med tabelldata, även om icke-tabelldata, i form av Azure Databricks-volymer, också stöds. Se Vad är Databricks Marketplace?.

Databricks Runtime

En exekveringsmiljö optimerad för stordataanalys. Databricks erbjuder även Databricks Runtime for Machine Learning som är optimerat för maskininlärningsarbetsbelastningar. Se Databricks Runtime och Versions- och kompatibilitetshistorik för Databricks Runtime.

Databricks SQL (DBSQL)

Samling av tjänster som tillför datalagerfunktionalitet och prestanda till dina befintliga datasjöar. Azure Databricks SQL stöder öppna format och ANSI SQL som standard. Med en SQL-redigerare och instrumentpanelsverktyg på plattformen kan gruppmedlemmar samarbeta med andra Azure Databricks-användare direkt på arbetsytan. Se Vad är datalagerhantering i Azure Databricks?.

DatabricksIQ

Dataintelligensmotorn som driver Databricks-plattformen. Det är ett sammansatt AI-system som kombinerar användningen av AI-modeller, hämtnings-, ranknings- och anpassningssystem för att förstå semantiken i organisationens data- och användningsmönster. Se DatabricksIQ-baserade funktioner.

DBU:er

En Databricks-enhet (DBU) är en normaliserad enhet för bearbetningskraft på Databricks Lakehouse Platform som används för mätning och prissättning. Antalet DBU:er som en arbetsbelastning förbrukar drivs av bearbetningsmått, vilket kan omfatta de beräkningsresurser som används och mängden data som bearbetas. Se Azure Databricks-koncept.

DataFrame

En datastruktur som organiserar data i en tvådimensionell tabell med rader och kolumner, ungefär som ett kalkylblad. DataFrames är en av de vanligaste datastrukturerna som används i modern dataanalys eftersom de är ett flexibelt och intuitivt sätt att lagra och arbeta med data. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames.

dataset

En strukturerad samling data som organiseras och lagras tillsammans för analys eller bearbetning. Data i en datauppsättning är vanligtvis relaterade på något sätt och hämtas från en enda källa eller är avsedda för ett enda projekt.

Delta Lake

Ett lagringslager med öppen källkod som ger tillförlitlighet till datasjöar. Delta Lake tillhandahåller ACID-transaktioner, skalbar hantering av metadata och kombinerar direktuppspelning och batchdatabehandling. Se Vad är Delta Lake?.

DLT (DLT)

Ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines. Du definierar de omvandlingar som ska utföras på dina data och DLT hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. Se Vad är DLT?.

DLT-datauppsättningar

Strömmande tabeller, materialiserade vyer och vyer som upprätthålls som resultat av deklarativa frågor.

Deltadelning

Gör att du kan dela data och AI-tillgångar i Azure Databricks med användare utanför organisationen, oavsett om dessa användare använder Azure Databricks eller inte. Även tillgängligt som ett projekt med öppen källkod för att dela tabelldata, med hjälp av dem i Azure Databricks kan du dela icke-tabellbaserade, ostrukturerade data (volymer), AI-modeller, vyer, filtrerade data och notebook-filer. Se Vad är deltadelning?.

Delta-tabeller

Standardformatet för datatabeller i Azure Databricks och är en funktion i Dataramverket med öppen källkod i Delta Lake. Deltatabeller används vanligtvis för datasjöar, där data matas in via direktuppspelning eller i stora batchar. Se Vad är en tabell?.

E

ETL (Extract, Transform, Load)

En modern metod för dataintegrering som extraherar data från källor, läser in dem i målsystemet och sedan transformerar dem i målsystemet. Se Kör din första ETL-arbetsbelastning på Azure Databricks.

F

Feature Store

En central lagringsplats för lagring, hantering och servering av funktioner för maskininlärningsmodeller. Se Funktionsutveckling och servering.

flöde

Ett flöde är en gräns i en DLT-pipeline som läser data, transformerar dem och skriver dem till ett mål.

grundmodeller

Stora ML-modeller är förtränade med avsikten att de ska finjusteras för mer specifika språktolknings- och generationsuppgifter. Se API:er för Databricks Foundation Model.

G

generativ artificiell intelligens

En typ av artificiell intelligens som fokuserar på datorers förmåga att använda modeller för att skapa innehåll som bilder, text, kod och syntetiska data. Generativa AI-program bygger på generativa AI-modeller: stora språkmodeller (LLM) och grundmodeller. Se AI och maskininlärning på Databricks.

J

jobb

Den primära enheten för schemaläggning och orkestrering av produktionsarbetsbelastningar i Azure Databricks. Azure Databricks-jobb består av en eller flera uppgifter. Se Översikt över orkestrering på Databricks.

L

Lakeflow Connect

Erbjuder inbyggda anslutningar för inmatning från företagsapplikationer och databaser. Den resulterande inmatningspipelinen styrs av Unity Catalog och drivs av serverlös beräkning och DLT. Se Lakeflow Connect.

Lakehouse Federation

Frågefederationsplattformen för Azure Databricks. Termen frågefederation beskriver en samling funktioner som gör att användare och system kan köra frågor mot flera datakällor utan att behöva migrera alla data till ett enhetligt system. Azure Databricks använder Unity Catalog för att hantera frågefederation. Se Vad är Lakehouse Federation?.

Lakehouse-övervakning

Övervakar statistiska egenskaper och datakvalitet i alla tabeller i ditt konto. Du kan också använda den för att spåra prestanda för maskininlärningsmodeller och modellbetjäningsslutpunkter genom att övervaka slutsatsdragningstabeller som innehåller modellindata och förutsägelser. Se Introduktion till Databricks Lakehouse Monitoring.

stor språkmodell (LLM)

En NLP-modell (natural language processing) som utformats för uppgifter som att besvara frågor med öppen slutpunkt, chatt, innehållssammanfattning, körning av nästan godtyckliga instruktioner, översättning och innehåll och kodgenerering. LLM:er tränas från massiva datamängder med hjälp av avancerade maskininlärningsalgoritmer för att lära sig mönster och strukturer i mänskligt språk. Se Stora språkmodeller (LLM: er) på Databricks.

bibliotek

Ett kodpaket som är tillgängligt för den notebook eller det jobb som körs i klustret. Databricks-runtimes innehåller många bibliotek, och du kan också ladda upp dina egna. Se Bibliotek.

M

materialiserad vy

En vy som har förberäknats och lagrats så att den kan efterfrågas med lägre svarstid eller upprepade gånger utan redundant beräkning. Se Använd materialiserade vyer i Databricks SQL.

medaljongarkitektur

Ett mönster för datadesign som används för att logiskt organisera data i ett sjöhus, med målet att stegvis och progressivt förbättra strukturen och kvaliteten på data när de flödar genom varje lager i arkitekturen (från tabellerna Brons ⇒ Silver ⇒ Guldskikt). Vad är "medallion lakehouse"-arkitekturen?.

metadatalager

Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som krävs för att läsa och skriva data samt motsvarande filer där data lagras. Se Metastores.

MLflow

En plattform med öppen källkod för att hantera livscykeln för maskininlärning från slutpunkt till slutpunkt, inklusive experimentering, reproducerbarhet och distribution. MLflow på Azure Databricks är en fullständigt hanterad tjänst med ytterligare funktioner för företagskunder, vilket ger en skalbar och säker hanterad distribution av MLflow. Se MLflow för generativ AI-agent och ML-modellens livscykel.

modellinlärning

Processen med att träna maskininlärnings- och djupinlärningsmodeller i Azure Databricks med hjälp av många populära bibliotek med öppen källkod. Se Träna AI- och ML-modeller.

Mosaik-AI

Funktionen som tillhandahåller enhetliga verktyg för att skapa, distribuera, utvärdera och styra AI- och ML-lösningar – från att skapa förutsägande ML-modeller till de senaste generativa AI-apparna. Se AI och maskininlärning på Databricks.

Mosaic AI-modellhantering

Det enhetliga gränssnittet för att distribuera, styra och fråga AI-modeller för realtids- och batchinferens. Se Distribuera modeller med hjälp av Mosaic AI Model Serving.

Ai-modellträning för Mosaik

Med funktionen kan du använda dina data för att anpassa en grundmodell för att optimera dess prestanda för ditt specifika program. Genom att utföra fullständig parameterjustering eller kontinuerlig träning av en grundmodell kan du träna din egen modell med betydligt mindre data-, tids- och beräkningsresurser än att träna en modell från grunden. Se Finjustering av grundmodell.

Sökning efter mosaik-AI-vektorer

En vektordatabas som är inbyggd i Databricks Data Intelligence Platform och integrerad med dess styrnings- och produktivitetsverktyg. Se Mosaic AI Vector Search.

N

anteckningsbok

Ett interaktivt webbgränssnitt som används av dataexperter och tekniker för att skriva och köra kod på flera språk (till exempel Python, Scala, SQL) i samma dokument. Se Introduktion till Databricks anteckningsböcker.

O

OAuth

OAuth är en öppen standard för åtkomstdelegering, som ofta används som ett sätt för Internetanvändare att ge webbplatser eller program åtkomst till deras information på andra webbplatser men utan att ge dem lösenorden. Se Auktorisera åtkomst till Azure Databricks-resurser.

P

Partneranslutning

Ett Databricks-program som tillhandahåller integreringar som underhålls av oberoende programvaruleverantörer för att ansluta till de flesta företagsdatasystem. Se Vad är Databricks Partner Connect?.

personlig åtkomsttoken (PAT)

En sträng med tecken som används för att autentisera en användare vid åtkomst till ett datorsystem i stället för ett lösenord. Se Auktorisera åtkomst till Azure Databricks-resurser.

Foton

En Databricks-inbyggt vektoriserad frågemotor med höga prestanda som kör dina SQL-arbetsbelastningar och DataFrame API-anrop snabbare för att minska den totala kostnaden per arbetsbelastning. Photon är kompatibelt med Apache Spark-API:er, så det fungerar med din befintliga kod. Se Vad är Photon?.

rörledning

I en beroende ordning som fastställs av systemet, en DAG med tabeller, vyer, materialiserade vyer, flöden och sänkor som uppdateras sparsamt.

R

hämtningsförhöjd generation (RAG)

En teknik som gör det möjligt för en stor språkmodell (LLM) att generera berikade svar genom att utöka en användares uppmaning med stöddata som hämtats från en extern informationskälla. Genom att införliva den här hämtade informationen gör RAG det möjligt för LLM att generera mer exakta svar av högre kvalitet jämfört med att inte utöka prompten med ytterligare kontext. Se Introduktion till RAG i AI-utveckling.

S

schema (Unity Catalog)

Del av en katalog i Unity Catalog som kan innehålla tabeller, vyer, volymer, modeller och funktioner. Ett schema är den andra nivån i Unity Catalogs namnområde på tre nivåer (catalog.schema.table-etc). Se även Vad är Unity Catalog?.

serverlös beräkning

Beräkning som hanteras av Azure Databricks, vilket minskar hanteringskostnaderna och ger omedelbar beräkning för att förbättra användarproduktiviteten. Se Ansluta till serverlös beräkning.

tjänstens huvudnamn

En identitet som skapats för användning med automatiserade verktyg, jobb som körs och program. Du kan begränsa tjänstens huvudnamns åtkomst till resurser med hjälp av behörigheter, på samma sätt som en Azure Databricks-användare. Till skillnad från en Azure Databricks-användare är ett tjänstehuvudnamn en identitet som endast kan användas via API. Det kan inte komma åt Azure Databricks-användargränssnittet eller Databricks CLI direkt. Läs mer i Hantera tjänstprincipaler.

mottagare (pipelines)

En sink är en destination för ett flöde som skriver till ett externt system (till exempel Kafka, Kinesis, Delta).

SQL-lager

En beräkningsresurs som gör att du kan köra frågor mot och utforska data i Azure Databricks. Se Ansluta till ett SQL-lager.

dataströmbearbetning

En databehandlingsmetod som gör att du kan definiera en fråga mot en obundna, kontinuerligt växande datauppsättning och sedan bearbeta data i små, inkrementella batchar. Azure Databricks-dataströmbearbetning använder strukturerad direktuppspelning. Se Direktuppspelning och inkrementell inmatning.

direktuppspelning

Direktuppspelning refererar till allt medieinnehåll – live eller inspelade – (dvs. en dataström) som levereras till datorer och mobila enheter via Internet och spelas upp i realtid. Se Begrepp för strukturerad direktuppspelning.

strömmande dataanalys

Processen att analysera data som genereras kontinuerligt av olika källor. Azure Databricks stöder strömmande analys via strukturerad direktuppspelning, vilket möjliggör bearbetning och analys av livedata för insikter i realtid.

Strukturerad strömning

En skalbar och feltolerant strömbearbetningsmotor som bygger på Spark SQL-motorn, vilket möjliggör komplexa beräkningar som strömmande frågor. Se Begrepp för strukturerad direktuppspelning.

strömmande tabeller

En hanterad tabell som har en ström som skriver till den.

T

tabell

En tabell finns i ett schema och innehåller rader med data. Alla tabeller som skapats i Databricks använder Delta Lake som standard. Tabeller som backas upp av Delta Lake kallas även Delta-tabeller. Se Vad är en tabell?.

utlöst pipeline

En pipeline som matar in alla data som var tillgängliga i början av uppdateringen för varje tabell, körs i beroendeordning och sedan avslutas. Se Triggat vs. kontinuerligt pipelineläge.

U

Unity Catalog

En Azure Databricks-funktion som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifieringsfunktioner i Azure Databricks-arbetsytor. Se även Vad är Unity Catalog?.

V

vektordatabas

En databas som är optimerad för att lagra och hämta inbäddningar. Inbäddningar är matematiska representationer av det semantiska innehållet i data, vanligtvis text- eller bilddata. Se Mosaic AI Vector Search.

utsikt

En virtuell tabell som definieras av en SQL-fråga. Den lagrar inte data i sig, men ger ett sätt att presentera data från en eller flera tabeller, i ett specifikt format eller abstraktion. Läs Vad är en vy?.

volymer (Unity Catalog)

Unity Catalog-objekt som möjliggör styrning över datauppsättningar som inte är tabellbaserade. Volymer representerar en logisk lagringsvolym på en lagringsplats för molnobjekt. Volymer ger funktioner för åtkomst, lagring, styrning och organisering av filer. Se Vad är Unity Catalog-volymer?.

W

Arbetsflöden

Den uppsättning verktyg som gör att du kan schemalägga och samordna databearbetningsuppgifter i Azure Databricks. Du använder Azure Databricks-arbetsflöden för att konfigurera Azure Databricks-jobb. Se Översikt över orkestrering på Databricks.

arbetsbörda

Den mängd bearbetningskapacitet som krävs för att utföra en uppgift eller grupp med uppgifter. Azure Databricks identifierar två typer av arbetsbelastningar: datateknik (jobb) och dataanalys (all-purpose). Se Azure Databricks-koncept.

arbetsyta

En organisationsmiljö som gör att Databricks-användare kan utveckla, bläddra och dela objekt som notebook-filer, experiment, frågor och instrumentpaneler. Se Navigera på arbetsytan.

Dela via

Ordlista för teknisk terminologi i Azure Databricks

A

B

C

D

E

F

G

J

L

M

N

O

P

R

S

T

U

V

W

Feedback

Ytterligare resurser