Glossário de terminologia técnica do Azure Databricks

Artigo
02/14/2025

A

lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao workspace, ao cluster, ao trabalho, à tabela ou ao experimento. Uma ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica uma entidade e uma operação. Confira Listas de Controle de Acesso.

modo de acesso

Um recurso de segurança que determina quem pode usar um recurso de computação e os dados que podem acessar ao usar o recurso de computação. Cada recurso de computação no Azure Databricks tem um modo de acesso. Consulte Modos de acesso.

Transações ACID

Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento, durabilidade. Confira Boas práticas de confiabilidade.

inteligência artificial (IA)

A capacidade de um computador de imitar o comportamento humano inteligente. Confira IA e Machine Learning no Databricks.

Agente de IA

Um aplicativo com recursos de raciocínio complexos que permite criar seu próprio plano e executar a tarefa de acordo com as ferramentas à sua disposição. Confira O que são sistemas de IA compostos e agentes de IA?.

Funções de IA

As funções SQL internas que permitem aplicar IA em seus dados diretamente do SQL no Azure Databricks. Consulte Aplicar IA em dados usando o Azure Databricks AI Functions.

Playground de IA

Um recurso do Azure Databricks em que os usuários podem interagir, testar e comparar modelos de IA generativos atendidos em seu workspace do Azure Databricks. Consulte o Chat com LLMs e protótipos de aplicativos de IA generativa usando o Playground de IA.

detecção de anomalias

Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado em conjuntos de dados. O Azure Databricks facilita a detecção de anomalias por meio de seus recursos de aprendizado de máquina e processamento de dados.

Apache Spark

Um sistema de computação distribuído de código aberto usado para cargas de trabalho de big data. Confira Apache Spark no Azure Databricks.

rede neural artificial (ANN)

Um sistema de computação padronizado após a operação de neurônios no cérebro humano.

ativo

Uma entidade em um workspace do Azure Databricks (por exemplo, um objeto ou um arquivo).

Registro de auditoria

Um registro das atividades e ações do usuário no ambiente do Azure Databricks, crucial para segurança, conformidade e monitoramento operacional. Confira Referência do log de diagnóstico.

Carregador Automático

Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem nenhuma configuração adicional. Confira O que é o Carregador Automático?.

AutoML

Um recurso do Azure Databricks que simplifica o processo de aplicação do aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetro para você. Consulte O que é AutoML?.

Linhagem de dados automatizada

O processo de rastrear e visualizar automaticamente o fluxo de dados desde sua origem até sua forma final, essencial para depuração, conformidade e compreensão das dependências de dados. O Azure Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.

dimensionamento automático, horizontal

Adicionar ou remover executores com base no número de tarefas aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.

dimensionamento automático, vertical

Aumentar ou diminuir o tamanho de um computador (driver ou executor) com base na pressão de memória (ou falta dela). Isso acontece apenas no início de uma nova atualização.

Azure Databricks

Uma versão do Databricks otimizada para a plataforma de nuvem do Microsoft Azure.

B

processamento em lote

Um método de processamento de dados que permite definir instruções explícitas para processar uma quantidade fixa de dados estáticos e inalteráveis como uma única operação. O Azure Databricks usa o Spark SQL ou DataFrames. Confira Streaming e ingestão incremental.

detecção e mitigação de viés

O processo de identificação e endereçamento de preconceitos em modelos de dados e machine learning para garantir a imparcialidade e a precisão. O Databricks oferece ferramentas e integrações para ajudar a detectar e reduzir o viés. Confira o artigo Monitorar a imparcialidade e o viés para modelos de classificação.

inteligência de negócios (BI)

As estratégias e tecnologias usadas pelas empresas para a análise de dados e gerenciamento de informações de negócios.

C

Explorador de Catálogos

Um recurso do Azure Databricks que fornece uma interface do usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros ativos de IA. Você pode usá-lo para localizar objetos de dados e proprietários, reconhecer as relações de dados entre tabelas e gerenciar permissões e compartilhamentos. Confira O que é o Explorador de Catálogos?.

CICD ou CI/CD

As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte O que é CI/CD no Azure Databricks?.

dados limpos

Dados que passaram por um processo de limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, substituir, modificar ou excluir os dados sujos ou grosseiros.

Salas Limpas

Um recurso do Azure Databricks que usa o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e de proteção de privacidade em que várias partes podem compartilhar dados corporativos confidenciais e colaborar sem acesso direto aos dados uns dos outros. Com o Clean Rooms, os usuários de outras contas da Databricks podem colaborar para gerar insights sobre projetos compartilhados, como campanhas publicitárias, decisões de investimento ou pesquisa e desenvolvimento, sem compartilhar o acesso a dados subjacentes confidenciais. Confira O que é o Azure Databricks Clean Rooms?.

Provedor de plataforma em nuvem

Uma empresa que fornece uma plataforma de computação em nuvem. Por exemplo, Microsoft Azure, Amazon Web Services (AWS) e Google Cloud Platform (GCP).

cluster

Um recurso de computação sem servidor usado em notebooks, trabalhos e DLT. O termo computação substituiu o cluster em toda a interface do usuário do Azure Databricks, mas ainda é usado na API de Clusters e nos metadados.

sistema composto de IA

Sistemas que lidam com tarefas de IA combinando vários componentes interativos. Por outro lado, um modelo de IA é um modelo estatístico (por exemplo, um Transformer que prevê o próximo token no texto). Confira O que são sistemas de IA compostos e agentes de IA?.

compute

Refere-se a recursos de computação, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. Computação.

Canalização contínua

Um pipeline que atualiza todas as tabelas continuamente, conforme novos dados chegam ininterruptamente na entrada. Confira Modo de pipeline disparado versus contínuo.

D

gráfico acíclico direcionado (DAG)

Um método de representação das dependências entre tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.

Catálogo de dados

Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, localização e uso dos dados. O Azure Databricks se integra a catálogos de dados externos para gerenciamento aprimorado de metadados.

Governança de dados

A prática de gerenciar a disponibilidade, integridade, segurança e usabilidade dos dados, envolvendo políticas, procedimentos e tecnologias para garantir a qualidade e a conformidade dos dados.

ingestão de dados

O processo de importação, transferência, carregamento e processamento de dados de várias fontes para o Azure Databricks para armazenamento, análise e processamento.

Lago de dados

Um grande repositório de armazenamento que contém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.

Data Lakehouse

Um sistema de gerenciamento de dados que combina os benefícios de data lakes e data warehouses. Um data lakehouse fornece recursos escalonáveis de armazenamento e processamento para organizações modernas que desejam evitar sistemas isolados para processar cargas de trabalho diferentes, como machine learning (ML) e business intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir a atualização de dados. Consulte O que é um data lakehouse?.

pipeline de dados

Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. O Databricks facilita a criação e o gerenciamento de pipelines de dados complexos para processamento de dados em lote e em tempo real.

Privacidade de dados

A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. O Azure Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, controle de acesso baseado em função e conformidade com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.

visualização de dados

Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como como eles são formatados ou onde estão fisicamente localizados. O Azure Databricks pode servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.

armazenamento de dados

Refere-se à coleta e armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. A arquitetura do lakehouse e o Databricks SQL trazem funcionalidades de armazenamento de dados na nuvem para seus data lakes. Consulte O que é armazenamento de dados no Azure Databricks?.

Databricks

Uma plataforma de análise unificada e aberta para criar, implantar, compartilhar e manter soluções de dados, análises e IA de nível empresarial em escala. A Databricks Data Intelligence Platform se integra ao armazenamento em nuvem e à segurança em sua conta de nuvem, além de gerenciar e implantar a infraestrutura de nuvem em seu nome. Confira O que é o Azure Databricks?.

Databricks AI/BI

Um produto de inteligência empresarial para fornecer compreensão da semântica de seus dados, permitindo a análise de dados autônoma. A IA/BI é construída sobre um sistema de IA composto que extrai insights de todo o ciclo de vida dos seus dados na plataforma Databricks, incluindo pipelines de ETL, linhagem de dados e outras consultas. Confira O que é o Databricks AI/BI?.

Pacotes de Ativos do Databricks (DABs)

Uma ferramenta para facilitar a adoção das melhores práticas de engenharia de software, incluindo controle do código-fonte, revisão de código, teste e integração e entrega contínuas (CI/CD) para seus projetos de dados e IA. Os pacotes possibilitam descrever recursos do Azure Databricks, como trabalhos, pipelines e notebooks, como arquivos de origem. Veja que são pacotes de ativos do Databricks?.

Assistente do Databricks

Um programador de pares baseado em IA e um agente de suporte que o torna mais eficiente à medida que você cria notebooks, consultas, painéis e arquivos. Ele pode ajudá-lo a responder rapidamente às perguntas gerando, otimizando, concluindo, explicando e corrigindo código e consultas. Confira O que é o Assistente do Databricks?.

CLI do Databricks

Uma interface de linha de comando para o Azure Databricks que permite aos usuários gerenciar e automatizar workspaces do Databricks e implantar trabalhos, notebooks e bibliotecas. Confira O que é a CLI do Databricks?.

Databricks Connect

Uma biblioteca de cliente que permite que os desenvolvedores conectem seus IDEs, notebooks e outras ferramentas favoritos ao Azure Databricks para processar e executar código Spark remotamente. Consulte O que é o Databricks Connect?.

Serviços de Contêiner do Databricks

Um recurso do Azure Databricks que permite especificar uma imagem do Docker ao criar computação. Confira Personalizar contêineres com o Serviço de Contêineres do Databricks.

Databricks Marketplace

Um fórum aberto para troca de produtos de dados. Os provedores devem ter uma conta do Azure Databricks, mas os destinatários podem ser qualquer pessoa. Os ativos do Marketplace incluem conjuntos de dados, notebooks do Azure Databricks, Aceleradores de Solução do Azure Databricks e modelos de IA (aprendizado de máquina). Normalmente, os conjuntos de dados são disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes do Azure Databricks. Confira O que é o Databricks Marketplace?.

Databricks Runtime

Um tempo de execução otimizado para análise de big data. O Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho de aprendizado de máquina. Confira Databricks Runtime e versões e compatibilidade de notas de versão do Databricks Runtime.

Databricks SQL (DBSQL)

A coleção de serviços que traz funcionalidades de armazenamento de dados e desempenho para seus data lakes existentes. O SQL do Azure Databricks dá suporte a formatos abertos e SQL ANSI padrão. Um editor SQL na plataforma e ferramentas de painel permitem que os membros da equipe colaborem com outros usuários do Azure Databricks diretamente no workspace. Consulte O que é armazenamento de dados no Azure Databricks?.

DatabricksIQ

O mecanismo de inteligência de dados que alimenta a Plataforma Databricks. É um sistema composto de IA que combina o uso de modelos de IA, recuperação, classificação e sistemas de personalização para entender a semântica dos dados e os padrões de uso da sua organização. Consulte recursos potenciados por DatabricksIQ.

DBUs

Uma DBU (Unidade Databricks) é uma unidade normalizada de poder de processamento na Plataforma Databricks Lakehouse usada para fins de medição e precificação. O número de DBUs que uma carga de trabalho consome é orientado por métricas de processamento, que podem incluir os recursos de computação usados e a quantidade de dados processados. Confira Conceitos do Azure Databricks.

DataFrame

Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma maneira flexível e intuitiva de armazenar e trabalhar com dados. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames.

conjunto de dados

Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados em um conjunto de dados geralmente são relacionados de alguma forma e obtidos de uma única fonte ou destinados a um único projeto.

Delta Lake

Uma camada de armazenamento de código aberto que traz confiabilidade às lagoas de dados. O Delta Lake fornece transações ACID, tratamento de metadados escalonáveis e unifica o processamento de dados de lote e streaming. Veja O que é o Delta Lake?.

DLT (DLT)

Uma estrutura declarativa para a criação de pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Você define as transformações a serem executadas em seus dados e o DLT gerencia a orquestração de tarefas, o gerenciamento de cluster, o monitoramento, a qualidade dos dados e o tratamento de erros. Veja O que é DLT?.

Conjuntos de dados de DLT

As tabelas de streaming, exibições materializadas e exibições mantidas como resultados das consultas declarativas.

Compartilhamento Delta

Permite que você compartilhe dados e ativos de IA no Azure Databricks com usuários fora da sua organização, independentemente de esses usuários usarem o Azure Databricks ou não. Também disponível como um projeto de software livre para compartilhar dados tabulares, usá-lo no Azure Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos de IA, exibições, dados filtrados e notebooks. Confira O que é o Compartilhamento Delta?.

Tabelas do Delta

O formato de tabela de dados padrão no Azure Databricks é um recurso da estrutura de dados de software livre do Delta Lake. Normalmente, as tabelas Delta são usadas para data lakes, nos quais os dados são ingeridos por streaming ou em lotes grandes. Confira O que é uma tabela?.

E

ETL (Extrair, Transformar, Carregar)

Uma abordagem moderna para integração de dados que extrai dados de fontes, carrega-os no sistema de destino e os transforma no sistema de destino. Confira Executar sua primeira carga de trabalho de ETL no Azure Databricks.

F

Repositório de recursos

Um repositório central para armazenar, gerenciar e fornecer recursos para modelos de aprendizado de máquina. Confira Engenharia de recursos e serviços.

fluxo

Um fluxo é uma borda em um pipeline de DLT que lê dados, transforma-os e grava em um destino.

Modelos de fundação

Grandes modelos de ML pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Confira APIs do Modelo Base do Databricks.

G

IA generativa

Um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. Os aplicativos de IA generativos são criados com base em modelos de IA generativos: LLMs (modelos de linguagem grandes) e modelos de base. Confira IA e Machine Learning no Databricks.

J

trabalho

A unidade primária para agendar e orquestrar cargas de trabalho de produção no Azure Databricks. Os trabalhos do Azure Databricks consistem em uma ou mais tarefas. Confira Visão geral da orquestração no Databricks.

L

LakeFlow Connect

Oferece conectores integrados para ingestão de aplicativos e bancos de dados corporativos. O pipeline de ingestão resultante é regido pelo Catálogo do Unity e é alimentado por computação sem servidor e DLT. Confira LakeFlow Connect.

Federação de Lakehouse

A plataforma de federação de consulta do Azure Databricks. O termo federação de consulta descreve uma coleção de recursos que permitem que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. O Azure Databricks usa o Catálogo do Unity para gerenciar a federação de consultas. Confira O que é Federação do Lakehouse?.

Monitoramento do Lakehouse

Monitora as propriedades estatísticas e a qualidade dos dados em todas as tabelas da sua conta. Você também pode usá-lo para acompanhar o desempenho de modelos de machine learning e pontos de extremidade que servem modelos monitorando tabelas de inferência que contêm entradas e previsões de modelo. Confira Introdução ao monitoramento de lakehouse do Databricks.

modelo de linguagem grande (LLM)

Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como responder a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de conjuntos de dados massivos usando algoritmos avançados de aprendizado de máquina para aprender os padrões e estruturas da linguagem humana. Confira LLMs (modelos de linguagem grandes) no Databricks.

biblioteca

Um pacote de código disponível para o notebook ou o trabalho em execução no cluster. Os runtimes do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Bibliotecas.

M

Visão materializada

Uma exibição que foi pré-computada e armazenada para que possa ser consultada com latência mais baixa ou repetidamente sem computação redundante. Confira Usar exibições materializadas no Databricks SQL.

Medallion Architecture

Um padrão de design de dados que é usado para organizar logicamente os dados em um lakehouse, com o objetivo de melhorar incremental e progressivamente a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (das tabelas de camada Bronze ⇒ Prata ⇒ Ouro). O que é arquitetura medallion do Lakehouse?.

metastore

O componente que armazena todas as informações de estrutura das diversas tabelas e partições no data warehouse, incluindo informações de coluna e de tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados, assim como os arquivos correspondentes em que os dados são armazenados. Confira Metastores.

MLflow

Uma plataforma de software livre para gerenciar o ciclo de vida de aprendizado de máquina de ponta a ponta, incluindo experimentação, reprodutibilidade e implantação. O MLflow no Azure Databricks é um serviço totalmente gerenciado com funcionalidade adicional para clientes corporativos, fornecendo uma implantação gerenciada escalonável e segura do MLflow. Confira MLflow para agente de IA generativa e ciclo de vida de modelos de ML.

Treinamento de modelo

O processo de treinamento de modelos de aprendizado de máquina e aprendizado profundo no Azure Databricks usando muitas bibliotecas de software livre populares. Consulte Treinar modelos de IA e ML.

Mosaic AI

O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e governar soluções de IA e ML , desde a criação de modelos de ML preditivos até os aplicativos de IA generativos mais recentes. Confira IA e Machine Learning no Databricks.

Serviço de Modelo de IA do mosaico

A interface unificada para implantar, controlar e consultar modelos de IA para inferência em tempo real e em lote. Consulte Implantar modelos usando o Serviço de Modelos de IA da Mosaic.

Mosaic AI Model Training

O recurso permite que você use seus dados para personalizar um modelo de base para otimizar seu desempenho para seu aplicativo específico. Ao realizar o ajuste fino completo dos parâmetros ou o treinamento contínuo de um modelo básico, você pode treinar seu próprio modelo usando significativamente menos dados, tempo e recursos de computação do que treinar um modelo do zero. Consulte Ajuste Fino de Modelos de Base.

Pesquisa de vetores Mosaic AI

Um banco de dados vetorial integrado à Databricks Data Intelligence Platform e integrado às suas ferramentas de governança e produtividade. Confira Busca em vetores de IA do mosaico.

N

notebook

Uma interface da Web interativa usada por cientistas e engenheiros de dados para escrever e executar código em várias linguagens (por exemplo, Python, Scala, SQL) no mesmo documento. Confira Introdução aos notebooks do Databricks.

O

OAuth

O OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma de os usuários da Internet concederem a sites ou aplicativos acesso às suas informações em outros sites, mas sem fornecer as senhas. Consulte Autorizando o acesso aos recursos do Azure Databricks.

P

Conexão de parceiros

Um programa da Databricks que fornece integrações mantidas por fornecedores de software independentes para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?.

token de acesso pessoal (PAT)

Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Consulte Autorizando o acesso aos recursos do Azure Databricks.

Photon

Um mecanismo de consulta vetorizado nativo do Databricks de alto desempenho que executa suas cargas de trabalho SQL e chamadas de API do DataFrame mais rapidamente para reduzir o custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark. Portanto, ele funciona com o código existente. Confira O que é o Photon?.

pipeline

Um DAG de tabelas, exibições, exibições materializadas, fluxos e coletores que são atualizados lentamente em uma ordem de dependência determinada pelo sistema.

R

RAG (geração aumentada de recuperação)

Uma técnica que permite que um LLM (modelo de linguagem grande) gere respostas enriquecidas aumentando o prompt de um usuário com dados de suporte recuperados de uma fonte de informações externa. Ao incorporar essas informações recuperadas, o RAG permite que o LLM gere respostas mais precisas e de maior qualidade em comparação com a não utilização de contexto adicional no prompt. Consulte Introdução ao RAG no desenvolvimento de IA.

S

esquema (Catálogo do Unity)

O filho de um catálogo no Catálogo do Unity, que pode conter tabelas, exibições, volumes, modelos e funções. Um esquema é o segundo nível do namespace de três níveis do Catálogo do Unity (catalog.schema.table-etc). Veja O que é o Catálogo do Unity?.

Computação sem servidor

Computação gerenciada pelo Azure Databricks, que reduz a sobrecarga de gerenciamento e fornece computação instantânea para aumentar a produtividade do usuário. Consulte Conectar-se ao computador sem servidor.

entidade de serviço

Uma identidade criada para uso com ferramentas automatizadas, trabalhos em execução e aplicativos. Você pode restringir o acesso de uma entidade de serviço aos recursos usando permissões, tal como no caso de um usuário do Azure Databricks. Ao contrário de um usuário do Azure Databricks, uma entidade de serviço é uma identidade Somente API; ele não pode acessar diretamente a interface do usuário do Azure Databricks ou a CLI do Databricks. Confira Gerenciar entidades de serviço.

coletor (pipelines)

Um coletor é um destino para um fluxo que faz gravações em um sistema externo (por exemplo, Kafka, Kinesis, Delta).

Armazém SQL

Um recurso de computação que permite consultar e explorar dados no Azure Databricks. Consulte Conectar-se a um armazém de dados SQL.

processamento de fluxo

Um método de processamento de dados que permite definir uma consulta em um conjunto de dados não associado e em crescimento contínuo e, em seguida, processar dados em lotes pequenos e incrementais. O processamento de fluxo do Azure Databricks usa o Streaming Estruturado. Confira Streaming e ingestão incremental.

streaming

Streaming refere-se a qualquer conteúdo de mídia – ao vivo ou gravado – (ou seja, um fluxo de dados) entregue a computadores e dispositivos móveis via internet e reproduzido em tempo real. Consulte Conceitos de Streaming Estruturado.

Análise de streaming

O processo de análise de dados gerados continuamente por diferentes fontes. O Azure Databricks dá suporte à análise de streaming por meio do Streaming Estruturado, permitindo o processamento e a análise de dados dinâmicos para insights em tempo real.

Streaming estruturado

Um mecanismo de processamento de fluxo escalonável e tolerante a falhas criado no mecanismo Spark SQL, permitindo cálculos complexos como consultas de streaming. Consulte Conceitos de Streaming Estruturado.

Tabelas de streaming

Uma tabela gerenciada que tem um fluxo de gravação para ela.

T

table

Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas no Databricks usam o Delta Lake por padrão. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Confira O que é uma tabela?.

pipeline disparado

Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização de cada tabela, em execução na ordem de dependência e, em seguida, sendo encerrado. Confira Modo de pipeline disparado versus contínuo.

U

Catálogo do Unity

Um recurso do Azure Databricks que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks. Veja O que é o Catálogo do Unity?.

V

banco de dados vetorial

Um banco de dados otimizado para armazenar e recuperar inserções. Incorporações são representações matemáticas do conteúdo semântico de dados, de modo geral dados de texto ou de imagens. Consulte a Busca Vetorial de IA do Mosaic.

visualizar

Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específica. Confira O que é uma exibição?.

volumes (Catálogo do Unity)

Objetos do Catálogo do Unity que permitem a governança em conjuntos de dados não tabulares. Volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Confira O que são volumes do Unity Catalog?.

W

Fluxos de trabalho

O conjunto de ferramentas que permitem agendar e orquestrar tarefas de processamento de dados no Azure Databricks. Você usa fluxos de trabalho do Azure Databricks para configurar trabalhos do Azure Databricks. Confira Visão geral da orquestração no Databricks.

carga de trabalho

A quantidade de capacidade de processamento necessária para executar uma tarefa ou grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (para todas as finalidades). Confira Conceitos do Azure Databricks.

workspace

Um ambiente organizacional que permite que os usuários do Databricks desenvolvam, naveguem e compartilhem objetos como notebooks, experimentos, consultas e painéis. Consulte Navegar no espaço de trabalho.

Compartilhar via

Glossário de terminologia técnica do Azure Databricks

A

B

C

D

E

F

G

J

L

M

N

O

P

R

S

T

U

V

W

Comentários

Recursos adicionais