O alcance da plataforma lakehouse
Uma estrutura moderna de plataforma de dados e IA
Para discutir o escopo da Databricks Data Intelligence Platform, é útil primeiro definir uma estrutura básica para a plataforma moderna de dados e IA:
Visão geral do escopo da casa do lago
A Databricks Data Intelligence Platform abrange toda a estrutura moderna da plataforma de dados. Ele é construído sobre a arquitetura lakehouse e alimentado por um mecanismo de inteligência de dados que entende as qualidades únicas de seus dados. É uma base aberta e unificada para cargas de trabalho ETL, ML/AI e DWH/BI, e tem o Unity Catalog como a solução central de governança de dados e IA.
Personas da estrutura da plataforma
A estrutura abrange os membros da equipe de dados primários (personas) que trabalham com os aplicativos na estrutura:
- Os engenheiros de dados fornecem aos cientistas de dados e analistas de negócios dados precisos e reproduzíveis para tomada de decisões oportunas e insights em tempo real. Eles implementam processos de ETL altamente consistentes e confiáveis para aumentar a confiança do usuário nos dados. Eles garantem que os dados estejam bem integrados com os vários pilares do negócio e normalmente seguem as melhores práticas de engenharia de software.
- Os cientistas de dados combinam experiência analítica e compreensão de negócios para transformar dados em insights estratégicos e modelos preditivos. Eles são hábeis em traduzir desafios de negócios em soluções orientadas por dados, seja por meio de insights analíticos retrospetivos ou modelagem preditiva prospetiva. Aproveitando técnicas de modelagem de dados e aprendizado de máquina, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões a partir de dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que as partes interessadas do negócio não apenas entendam, mas também possam agir de acordo com as recomendações orientadas por dados, impulsionando uma abordagem centrada em dados para a solução de problemas dentro de uma organização.
- Os engenheiros de ML (engenheiros de aprendizado de máquina) lideram a aplicação prática da ciência de dados em produtos e soluções, criando, implantando e mantendo modelos de aprendizado de máquina. Seu foco principal gira para o aspeto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, confiabilidade e escalabilidade dos sistemas de aprendizado de máquina em ambientes dinâmicos, abordando desafios relacionados à qualidade, infraestrutura e desempenho dos dados. Ao integrar modelos de IA e ML em processos de negócios operacionais e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na solução de desafios de negócios, garantindo que os modelos não permaneçam apenas na pesquisa, mas gerem valor comercial tangível.
- Analistas de negócios e usuários de negócios: Os analistas de negócios fornecem às partes interessadas e às equipes de negócios dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para gerenciamento usando ferramentas de BI padrão. Eles geralmente são o primeiro ponto de contato para usuários de negócios não técnicos e colegas de operações para perguntas de análise rápida. Painéis e aplicativos de negócios fornecidos na plataforma Databricks podem ser usados diretamente por usuários corporativos.
- Os parceiros de negócios são partes interessadas importantes em um mundo de negócios cada vez mais conectado. Eles são definidos como uma empresa ou indivíduos com quem uma empresa tem um relacionamento formal para alcançar um objetivo comum, e podem incluir fornecedores, fornecedores, distribuidores e outros parceiros terceirizados. A partilha de dados é um aspeto importante das parcerias empresariais, uma vez que permite a transferência e o intercâmbio de dados para melhorar a colaboração e a tomada de decisões baseadas em dados.
Domínios do quadro da plataforma
A plataforma é composta por vários domínios:
- Armazenamento: Na nuvem, os dados são armazenados principalmente em armazenamento de objetos escalável, eficiente e resiliente em provedores de nuvem.
- Governança: recursos em torno da governança de dados, como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento de todos os dados e ativos de IA.
- Motor de IA: O motor de IA fornece capacidades de IA generativas para toda a plataforma.
- Ingest & transform: As capacidades para cargas de trabalho de ETL.
- Análise avançada, ML e IA: todos os recursos em torno de aprendizado de máquina, IA, IA generativa e também análise de streaming.
- Data warehouse: O domínio que suporta casos de uso de DWH e BI.
- Automação: Gerenciamento de fluxo de trabalho para processamento de dados, aprendizado de máquina, pipelines de análise, incluindo suporte a CI/CD e MLOps.
- Ferramentas ETL & DS: As ferramentas de front-end que engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente para o trabalho.
- Ferramentas de BI: As ferramentas de front-end que os analistas de BI usam principalmente para o trabalho.
- Colaboração: recursos para compartilhamento de dados entre duas ou mais partes.
O âmbito da Plataforma Databricks
A Databricks Data Intelligence Platform e seus componentes podem ser mapeados para a estrutura da seguinte maneira:
Download: Escopo da casa do lago - Componentes Databricks
Cargas de trabalho de dados no Azure Databricks
Mais importante ainda, a Databricks Data Intelligence Platform cobre todas as cargas de trabalho relevantes para o domínio de dados em uma plataforma, com o Apache Spark/Photon como o mecanismo:
Ingerir & transformar
O Databricks oferece várias formas de ingestão de dados:
- Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos corporativos e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e DLT.
- Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento em nuvem em trabalhos programados ou contínuos - sem a necessidade de gerenciar informações de estado. Uma vez ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/AI. O Databricks fornece recursos poderosos de ETL para engenheiros de dados, cientistas de dados e analistas.
DLT (DLT) permite escrever trabalhos ETL de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser melhorada através da definição das suas expectativas.
Análise avançada, ML e IA
A plataforma inclui Databricks Mosaic AI, um conjunto de ferramentas de aprendizado de máquina e IA totalmente integradas para aprendizado de máquina clássico e profundo, bem como IA generativa e modelos de linguagem grandes (LLMs). Ele cobre todo o fluxo de trabalho, desde a preparação de dados até a criação de modelos de aprendizado de máquina e aprendizado profundo, até o Mosaic AI Model Serving.
O Spark Structured Streaming e o DLT permitem análises em tempo real.
Armazém de dados
A plataforma Databricks Data Intelligence também possui uma solução completa de data warehouse com Databricks SQL, governado centralmente pelo Unity Catalog com controle de acesso refinado.
funções de IA são funções SQL incorporadas que permitem aplicar IA nos seus dados diretamente do SQL. A integração da IA em fluxos de trabalho de análise fornece acesso a informações anteriormente inacessíveis aos analistas e os capacita a tomar decisões mais informadas, gerenciar riscos e sustentar uma vantagem competitiva por meio de inovação e eficiência orientadas por dados.
Visão geral das áreas de funcionalidades do Azure Databricks
Este é um mapeamento dos recursos da Databricks Data Intelligence Platform para as outras camadas da estrutura, de baixo para cima:
Armazenamento na nuvem
Todos os dados do lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. O Databricks oferece suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON e Avro), bem como formatos não estruturados (como imagens e documentos), são ingeridos e transformados usando processos em lote ou streaming.
Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivos, confiabilidade, consistência, atualizações e assim por diante) e é completamente de código aberto para evitar bloqueio. E o formato universal Delta (UniForm) permite que você leia tabelas Delta com clientes leitores Iceberg.
Nenhum formato de dados proprietário é usado na Databricks Data Intelligence Platform.
Governança de Dados e IA
Além da camada de armazenamento, Unity Catalog oferece uma ampla gama de recursos de governança de dados e IA, incluindo de gerenciamento de metadados no metastore, de controle de acesso, de auditoria, de descoberta de dados e de linhagem de dados.
O monitoramento da Lakehouse fornece métricas de qualidade prontas para uso para dados e ativos de IA, além de painéis gerados automaticamente para visualizar essas métricas.
Fontes SQL externas podem ser integradas no lakehouse e no Unity Catalog através da federação lakehouse.
Motor de IA
A plataforma de inteligência de dados é construída na arquitetura lakehouse e aprimorada pelo mecanismo de inteligência de dados DatabricksIQ. O DatabricksIQ combina IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. O Intelligent Search e o Databricks Assistant são exemplos de serviços alimentados por IA que simplificam o trabalho com a plataforma para cada usuário.
Orquestração
O Databricks Jobs permite que você execute diversas cargas de trabalho para o ciclo de vida completo de dados e IA em qualquer nuvem. Eles permitem orquestrar trabalhos, bem como DLT para SQL, Spark, notebooks, DBT, modelos de ML e muito mais.
Ferramentas ETL & DS
Na camada de consumo, os engenheiros de dados e os engenheiros de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem notebooks e usam os tempos de execução de ML ou IA e o sistema de fluxo de trabalho de aprendizado de máquina MLflow para rastrear experimentos e gerenciar o ciclo de vida do modelo.
Ferramentas de BI
Os analistas de negócios normalmente usam sua ferramenta de BI preferida para acessar o data warehouse do Databricks. O Databricks SQL pode ser consultado por diferentes ferramentas de análise e BI, consulte BI e visualização
Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:
- painéis de Inteligência Artificial (IA) e Inteligência Empresarial (BI) para arrastar e soltar visualizações de dados e partilhar perspetivas.
- Especialistas em domínio, como analistas de dados, configuram espaços AI/BI Genie com conjuntos de dados, consultas de exemplo e diretrizes de texto para ajudar o Genie a traduzir perguntas de negócios em consultas analíticas. Após a configuração, os usuários corporativos podem fazer perguntas e gerar visualizações para entender os dados operacionais.
- Databricks Apps permite que os desenvolvedores criem dados seguros e aplicativos de IA na plataforma Databricks e compartilhem esses aplicativos com os usuários.
- Editor SQL para analistas SQL analisarem dados.
Colaboração
Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhamento seguro de dados com outras organizações, independentemente das plataformas de computação que usam.
O Databricks Marketplace é um fórum aberto para a troca de produtos de dados. Ele aproveita o Delta Sharing para dar aos provedores de dados as ferramentas para compartilhar produtos de dados com segurança e aos consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.
Salas Limpas usam o Compartilhamento Delta e a computação em modo serverless para fornecer um ambiente seguro e que proteja a privacidade, onde várias partes podem trabalhar juntas em dados empresariais sensíveis sem acesso direto aos dados uns dos outros.