Architektury referencyjne usługi Lakehouse (pobierz)
W tym artykule opisano wskazówki dotyczące architektury lakehouse pod względem źródła danych, pozyskiwania, przekształcania, wykonywania zapytań i przetwarzania, obsługi, analizy i magazynowania.
Każda architektura referencyjna ma plik PDF do pobrania w formacie 11 x 17 (A3).
Chociaż usługa Lakehouse w usłudze Databricks to otwarta platforma, która integruje się z dużym ekosystemem narzędzi partnerskich, architektury referencyjne koncentrują się tylko na usługach platformy Azure i usłudze Databricks Lakehouse. Wyświetlone usługi dostawcy usług w chmurze są wybierane w celu zilustrowania pojęć i nie są wyczerpujące.
Pobieranie : Architektura referencyjna usługi Azure Databricks Lakehouse
Architektura referencyjna platformy Azure przedstawia następujące usługi specyficzne dla platformy Azure do przyjmowania, przechowywania, obsługi i analizy:
- Usługi Azure Synapse i SQL Server jako systemy źródłowe dla usługi Lakehouse Federation
- Usługi Azure IoT Hub i Azure Event Hubs na potrzeby pozyskiwania strumieniowego
- Usługa Azure Data Factory do pozyskiwania wsadowego
- Usługa Azure Data Lake Storage Gen 2 (ADLS) jako magazyn obiektów
- Usługi Azure SQL DB i Azure Cosmos DB jako operacyjne bazy danych
- Azure Purview jako katalog przedsiębiorstwa, do którego UC eksportuje schematy i informacje o pochodzeniu.
- Usługa Power BI jako narzędzie analizy biznesowej
Organizacja architektur referencyjnych
Architektura referencyjna jest ustrukturyzowana wzdłuż ścieżek Source, Pozyskiwanie, Transformacja, Zapytanie/Przetwarzanie, Serwowanie, Analizai Przechowywanie:
Source
Architektura rozróżnia dane częściowo ustrukturyzowane i nieustrukturyzowane (czujniki i IoT, nośniki, pliki/dzienniki) i dane ustrukturyzowane (RDBMS, aplikacje biznesowe). Źródła SQL (RDBMS) można również zintegrować z usługą Lakehouse i Unity Catalog bez uwierzytelniania ETL za pośrednictwem federacji lakehouse. Ponadto dane mogą być ładowane z innych dostawców usług w chmurze.
Spożywać
Dane można pozyskiwać do magazynu lakehouse za pośrednictwem partii lub przesyłania strumieniowego:
- Databricks LakeFlow Connect oferuje wbudowane łączniki do pozyskiwania danych z aplikacji i baz danych przedsiębiorstw. Wynikowy potok pozyskiwania jest zarządzany przez Unity Catalog i obsługiwany przez bezserwerowe obliczenia oraz Delta Live Tables.
- Pliki dostarczane do magazynu w chmurze można ładować bezpośrednio przy użyciu modułu automatycznego ładującego usługi Databricks.
- W przypadku pozyskiwania danych wsadowych z aplikacji dla przedsiębiorstw do usługi Delta Lake usługa Databricks Lakehouse opiera się na narzędziach pozyskiwania partnerów z określonymi adapterami dla tych systemów rekordów.
- Zdarzenia przesyłania strumieniowego można pozyskiwać bezpośrednio z systemów przesyłania strumieniowego zdarzeń, takich jak Kafka, przy użyciu przesyłania strumieniowego ze strukturą usługi Databricks. Źródła przesyłania strumieniowego mogą być czujnikami, IoT lub procesami przechwytywania zmian danych.
Storage
Dane są zwykle przechowywane w systemie magazynu w chmurze, w którym potoki ETL używają architektury medalonu do przechowywania danych w sposób wyselekcjonowy jako pliki/tabele delty.
przekształcanie i wykonywanie zapytań/procesów
Usługa Databricks lakehouse używa aparatów Apache Spark i Photon do wszystkich przekształceń i zapytań.
DLT (delta live tables) to struktura deklaratywna umożliwiająca uproszczenie i optymalizowanie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych.
Obsługiwane przez platformy Apache Spark i Photon platforma analizy danych usługi Databricks obsługuje oba typy obciążeń: zapytania SQL za pośrednictwem magazynów SQL oraz obciążenia SQL, Python i Scala za pośrednictwem klastrów obszarów roboczych.
W przypadku nauki o danych (modelowanie uczenia maszynowego i sztuczna inteligencja generacji) platforma AI i Machine Learning usługi Databricks udostępnia wyspecjalizowane środowiska uruchomieniowe uczenia maszynowego dla rozwiązania AutoML i kodowania zadań uczenia maszynowego. Wszystkie przepływy pracy nauki o danych i metodyce MLOps są najlepiej obsługiwane przez platformę MLflow.
obsługa
W przypadku przypadków użycia usług DWH i ANALIZY biznesowej usługa Databricks lakehouse udostępnia usługę Databricks SQL, magazyn danych obsługiwany przez magazyny SQL i bezserwerowe magazyny SQL.
W przypadku uczenia maszynowego obsługa modeli to skalowalna, w czasie rzeczywistym możliwość obsługi modelu klasy korporacyjnej hostowana na płaszczyźnie sterowania usługi Databricks. Gateway AI Mosaic to rozwiązanie Databricks do zarządzania dostępem i monitorowania obsługiwanych modeli generatywnej sztucznej inteligencji oraz ich skojarzonych punktów końcowych modelu obsługi.
Operacyjne bazy danych: systemy zewnętrzne, takie jak operacyjne bazy danych, mogą służyć do przechowywania i dostarczania końcowych produktów danych do aplikacji użytkowników.
Współpraca: Partnerzy biznesowi uzyskują bezpieczny dostęp do potrzebnych danych za pośrednictwem funkcji udostępniania różnicowego. W oparciu o udostępnianie różnicowe platforma Marketplace usługi Databricks jest otwartym forum do wymiany produktów danych.
Analiza
Końcowe aplikacje biznesowe znajdują się w tym torze pływania. Przykłady obejmują klientów niestandardowych, takich jak aplikacje sztucznej inteligencji połączone z usługą Mosaic AI Model Serving na potrzeby wnioskowania w czasie rzeczywistym lub aplikacji, które uzyskują dostęp do danych wypychanych z usługi Lakehouse do operacyjnej bazy danych.
W przypadku przypadków użycia analizy biznesowej analitycy zazwyczaj używają narzędzi analizy biznesowej do uzyskiwania dostępu do magazynu danych. Deweloperzy SQL mogą dodatkowo używać edytora SQL usługi Databricks (nie pokazanego na diagramie) na potrzeby zapytań i pulpitów nawigacyjnych.
Platforma analizy danych oferuje również pulpity nawigacyjne umożliwiające tworzenie wizualizacji danych i udostępnianie szczegółowych informacji.
Zintegruj
Platforma Databricks integruje się ze standardowymi dostawcami tożsamości na potrzeby zarządzania użytkownikami i logowania jednokrotnego .
Zewnętrzne usługi sztucznej inteligencji, takie jak OpenAI, LangChain lub HuggingFace mogą być używane bezpośrednio z poziomu platformy analizy usługi Databricks.
Zewnętrzni orkiestratorzy mogą korzystać z kompleksowych interfejsu API REST lub dedykowanych łączników do zewnętrznych narzędzi orkiestracji, takich jak Apache Airflow.
Wykaz aparatu Unity jest używany na potrzeby wszystkich danych & ładu sztucznej inteligencji na platformie analizy usługi Databricks i może zintegrować inne bazy danych ze swoim ładem za pośrednictwem usługi Lakehouse Federation.
Ponadto Unity Catalog można zintegrować z innymi katalogami przedsiębiorstwa, np. Purview. Aby uzyskać szczegółowe informacje, skontaktuj się z dostawcą katalogu przedsiębiorstwa.
Typowe możliwości dla wszystkich obciążeń
Ponadto usługa Databricks Lakehouse oferuje możliwości zarządzania, które obsługują wszystkie obciążenia:
Zarządzanie danymi i sztuczną inteligencją
Centralnym systemem zarządzania danymi i sztuczną inteligencją w usłudze Databricks Data Intelligence Platform jest wykaz aparatu Unity. Wykaz aparatu Unity udostępnia jedno miejsce do zarządzania zasadami dostępu do danych, które mają zastosowanie we wszystkich obszarach roboczych i obsługuje wszystkie zasoby utworzone lub używane w usłudze Lakehouse, takie jak tabele, woluminy, funkcje (magazyn funkcji) i modele (rejestr modeli). Wykaz aparatu Unity może również służyć do przechwytywania pochodzenia danych środowiska uruchomieniowego między zapytaniami uruchamianymi w usłudze Databricks.
Monitorowanie usługi Databricks lakehouse umożliwia monitorowanie jakości danych wszystkich tabel na koncie. Może również śledzić wydajność modeli uczenia maszynowego i punktów końcowych obsługujących model.
Aby można było zaobserwować, tabele systemowe to magazyn analityczny hostowany w usłudze Databricks danych operacyjnych twojego konta. Tabele systemowe mogą służyć do obserwacji historycznej na koncie.
Aparat analizy danych
Platforma analizy danych usługi Databricks umożliwia całej organizacji korzystanie z danych i sztucznej inteligencji. Jest ona obsługiwana przez usługę DatabricksIQ i łączy generowanie sztucznej inteligencji z zaletami zjednoczenia usługi Lakehouse w celu zrozumienia unikatowych semantyki danych.
Asystent usługi Databricks jest dostępny w notesach usługi Databricks, edytorze SQL i edytorze plików jako asystenta sztucznej inteligencji obsługującego kontekst dla deweloperów.
Automatyzacja & Orkiestracja
Zadania usługi Databricks organizuje przetwarzanie danych, uczenie maszynowe i potoki analizy na platformie analizy danych usługi Databricks. Delta Live Tables umożliwia tworzenie niezawodnych i konserwowalnych potoków ETL przy użyciu składni deklaratywnej. Platforma obsługuje również CI/CD oraz MLOps
Ogólne przypadki użycia platformy analizy danych na platformie Azure
Usługa Databricks LakeFlow Connect oferuje wbudowane łączniki do pobierania danych z aplikacji przedsiębiorstw i baz danych. Wynikowy potok pozyskiwania jest zarządzany przez Unity Catalog i obsługiwany przez bezserwerowe obliczenia oraz Delta Live Tables. Usługa LakeFlow Connect wykorzystuje wydajne operacje odczytu przyrostowego i zapisu w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, podczas gdy dane pozostają świeże do użycia podrzędnego.
Przypadek użycia: Ingestowanie za pomocą narzędzia Lakeflow Connect:
Pobierz: Architektura referencyjna przetwarzania wsadowego ETL dla usługi Azure Databricks.
Przypadek użycia: Batch ETL
Pobieranie: Architektura referencyjna protokołu ETL usługi Batch dla usługi Azure Databricks
Narzędzia pozyskiwania używają kart specyficznych dla źródła, aby odczytywać dane ze źródła, a następnie przechowywać je w magazynie w chmurze, z którego moduł automatycznego ładowania może go odczytać, lub bezpośrednio wywołać usługę Databricks (na przykład z narzędziami pozyskiwania partnerów zintegrowanymi z usługą Databricks lakehouse). Aby załadować dane, aparat ETL usługi Databricks i aparat przetwarzania — za pośrednictwem biblioteki DLT — uruchamia zapytania. Pojedyncze lub wielozadane przepływy pracy mogą być orkiestrowane przez zadania usługi Databricks i zarządzane przez wykaz aparatu Unity (kontrola dostępu, inspekcja, pochodzenie itd.). Jeśli systemy operacyjne o małych opóźnieniach wymagają dostępu do określonych złotych tabel, można je wyeksportować do operacyjnej bazy danych, takiej jak RDBMS lub magazyn klucz-wartość na końcu potoku ETL.
Przypadek użycia: przesyłanie strumieniowe i przechwytywanie zmian danych (CDC)
Aparat ETL usługi Databricks używa przesyłania strumieniowego ze strukturą platformy Spark do odczytywania z kolejek zdarzeń, takich jak Apache Kafka lub Azure Event Hub. Kroki podrzędne są zgodne z podejściem powyższego przypadku użycia usługi Batch.
Przechwytywanie danych zmian w czasie rzeczywistym (CDC) zwykle używa kolejki zdarzeń do przechowywania wyodrębnionych zdarzeń. W tym miejscu przypadek użycia jest zgodny z przypadkiem użycia przesyłania strumieniowego.
Jeśli usługa CDC jest wykonywana w partii, w której wyodrębnione rekordy są najpierw przechowywane w magazynie w chmurze, program Autoloader usługi Databricks może je odczytać, a przypadek użycia jest zgodny z etL usługi Batch.
Przypadek użycia: Uczenie maszynowe i sztuczna inteligencja
W przypadku uczenia maszynowego platforma analizy danych usługi Databricks udostępnia sztuczną inteligencję Mozaiki, która jest wyposażona w najnowocześniejsze biblioteki maszynowe i głębokie. Zapewnia ona funkcje, takie jak magazyn funkcji i rejestr modeli (zarówno zintegrowany z katalogiem aparatu Unity), funkcje z małą ilością kodu z rozwiązaniem AutoML, jak i integracja MLflow z cyklem życia nauki o danych.
Wszystkie zasoby związane z nauką o danych (tabele, funkcje i modele) podlegają katalogowi aparatu Unity, a analitycy danych mogą organizować swoje zadania przy użyciu zadań usługi Databricks.
Aby wdrożyć modele w sposób skalowalny i klasy korporacyjnej, użyj funkcji MLOps, aby opublikować modele w obsłudze modeli.
Przypadek użycia: Zastosowania agenta generatywnej sztucznej inteligencji (Gen AI)
architektura referencyjna aplikacji
pobieranie : Architektura referencyjna aplikacji sztucznej inteligencji generacji dla usługi Azure Databricks
W przypadku sztucznej inteligencji generatywnej, Mosaic AI oferuje najnowocześniejsze biblioteki i specyficzne możliwości generatywnej AI od inżynierii promptów do precyzyjnego dostrajania istniejących modeli i wstępnego trenowania od zera. W powyższej architekturze przedstawiono przykład, w jaki sposób można zintegrować wyszukiwanie wektorów, aby stworzyć aplikację generatywnej sztucznej inteligencji przy użyciu RAG (generacja wspomagana przez pobieranie).
Aby wdrożyć modele w sposób skalowalny i klasy korporacyjnej, użyj funkcji MLOps, aby opublikować modele w obsłudze modeli.
Przypadek użycia: analiza analizy biznesowej i SQL
Pobieranie: architektura referencyjna analizy biznesowej i sql dla usługi Azure Databricks
W przypadku przypadków użycia analizy biznesowej analitycy biznesowi mogą używać pulpitów nawigacyjnych, edytora SQL usługi Databricks lub określonych narzędzi analizy biznesowej, takich jak Tableau lub Power BI. We wszystkich przypadkach aparat jest usługą Databricks SQL (bezserwerową lub bezserwerową), a odnajdywanie, eksploracja i kontrola dostępu są udostępniane przez wykaz aparatu Unity.
Przypadek użycia: federacja usługi Lakehouse
referencyjna architektura federacyjna
Pobieranie: Architektura referencyjna federacji usługi Lakehouse dla usługi Azure Databricks
Federacja usługi Lakehouse umożliwia integrację zewnętrznych baz danych SQL (takich jak MySQL, Postgres, SQL Server lub Azure Synapse) z usługą Databricks.
Wszystkie obciążenia (AI, DWH i BI) mogą korzystać z tego bez konieczności etl danych do magazynu obiektów. Wykaz źródeł zewnętrznych jest mapowany do katalogu aparatu Unity i szczegółowej kontroli dostępu można zastosować do uzyskiwania dostępu za pośrednictwem platformy Databricks.
Przypadek użycia: Udostępnianie danych przedsiębiorstwa
Udostępnianie danych klasy korporacyjnej jest udostępniane przez udostępnianie różnicowe. Zapewnia bezpośredni dostęp do danych w magazynie obiektów zabezpieczonym przez katalog aparatu Unity, a witryna Databricks Marketplace to otwarte forum wymiany produktów danych.