Zakres platformy lakehouse

Artykuł
03/06/2025

Nowoczesna platforma danych i sztucznej inteligencji

Aby omówić zakres platformy analizy danych usługi Databricks, warto najpierw zdefiniować podstawową strukturę dla nowoczesnej platformy danych i sztucznej inteligencji:

struktura analizy danych w chmurze.

Omówienie zakresu lakehouse'u

Platforma analizy danych usługi Databricks obejmuje kompletną nowoczesną platformę danych. Jest ona oparta na architekturze typu lakehouse i obsługiwana przez aparat analizy danych, który rozumie unikatowe cechy danych. Jest to otwarta i zintegrowana platforma dla obciążeń ETL, ML/AI i DWH/BI, z Unity Catalog jako centralnym rozwiązaniem do zarządzania danymi i AI.

Persony struktury platformy

Struktura obejmuje członków podstawowego zespołu danych (personas) pracujących z aplikacjami w strukturze:

Inżynierowie danych udostępniają analitykom danych i analitykom biznesowym dokładne i powtarzalne dane na potrzeby terminowego podejmowania decyzji i szczegółowych informacji w czasie rzeczywistym. Implementują wysoce spójne i niezawodne procesy ETL, aby zwiększyć zaufanie użytkowników i zaufanie do danych. Zapewniają one, że dane są dobrze zintegrowane z różnymi filarami działalności biznesowej i zwykle stosują najlepsze rozwiązania w zakresie inżynierii oprogramowania.
Analitycy danych łączą wiedzę analityczną i wiedzę biznesową, aby przekształcić dane w strategiczne analizy i modele predykcyjne. Są one biegłe w tłumaczeniu wyzwań biznesowych na rozwiązania oparte na danych, czy to za pomocą retrospektywnych analiz analitycznych lub przyszłościowego modelowania predykcyjnego. Korzystając z technik modelowania danych i uczenia maszynowego, projektują, opracowują i wdrażają modele, które ujawniają wzorce, trendy i prognozy na podstawie danych. Działają one jako most, przekształcając złożone narracje danych w zrozumiałe historie, zapewniając interesariuszom biznesowym nie tylko ich zrozumienie, ale także możliwość działania na podstawie zaleceń opartych na danych, co z kolei napędza podejście skoncentrowane na danych w rozwiązywaniu problemów w organizacji.
Inżynierowie uczenia maszynowego (inżynierowie uczenia maszynowego) prowadzą praktyczną aplikację nauki o danych w produktach i rozwiązaniach, tworząc, wdrażając i utrzymując modele uczenia maszynowego. Ich głównym celem jest ukierunkowanie na aspekt inżynieryjny tworzenia i wdrażania modelu. Inżynierowie ml zapewniają niezawodność, niezawodność i skalowalność systemów uczenia maszynowego w środowiskach na żywo, zajmując się wyzwaniami związanymi z jakością danych, infrastrukturą i wydajnością. Dzięki integracji modeli sztucznej inteligencji i uczenia maszynowego z operacyjnymi procesami biznesowymi i produktami dostępnymi dla użytkowników ułatwiają wykorzystanie nauki o danych w rozwiązywaniu wyzwań biznesowych, zapewniając, że modele nie tylko pozostają w badaniach, ale napędzają namacalną wartość biznesową.
analitycy biznesowi i użytkowników biznesowych: Analitycy biznesowi zapewniają uczestnikom projektu i zespołom biznesowym dane umożliwiające podejmowanie działań. Często interpretują dane i tworzą raporty lub inną dokumentację do zarządzania przy użyciu standardowych narzędzi analizy biznesowej. Zazwyczaj jest to pierwszy punkt kontaktu dla użytkowników nietechnicznych i współpracowników operacyjnych w celu uzyskania szybkich pytań analitycznych. Pulpity nawigacyjne i aplikacje biznesowe dostarczane na platformie Databricks mogą być używane bezpośrednio przez użytkowników biznesowych.
Partnerzy biznesowi są ważnymi uczestnikami projektu w coraz bardziej sieciowym świecie biznesowym. Są one definiowane jako firma lub osoby fizyczne, z którymi firma ma formalne relacje w celu osiągnięcia wspólnego celu, i mogą obejmować dostawców, dostawców, dystrybutorów i innych partnerów innych firm. Udostępnianie danych jest ważnym aspektem partnerstwa biznesowego, ponieważ umożliwia transfer i wymianę danych w celu zwiększenia współpracy i podejmowania decyzji opartych na danych.

Domeny struktury platformy

Platforma składa się z wielu domen:

Magazyn: W chmurze dane są przechowywane głównie w skalowalnym, wydajnym i odpornym magazynie obiektów u dostawców chmury.
Zarządzanie: możliwości w zakresie zarządzania danymi, takie jak kontrola dostępu, audyt, zarządzanie metadanymi, śledzenie pochodzenia i monitorowanie wszystkich zasobów danych i sztucznej inteligencji.
Aparat sztucznej inteligencji: aparat sztucznej inteligencji zapewnia możliwości generowania sztucznej inteligencji dla całej platformy.
Pozyskiwanie i przekształcanie: możliwości obciążeń ETL.

Analiza zaawansowana, uczenie maszynowe i sztuczna inteligencja: wszystkie możliwości związane z uczeniem maszynowym, sztuczną inteligencją, generowaniem sztucznej inteligencji, a także analizą strumieniową.

Magazyn danych: domena obsługująca przypadki użycia DWH i BI.
Automation: Zarządzanie przepływem pracy na potrzeby przetwarzania danych, uczenia maszynowego, potoków analitycznych, w tym obsługi ciągłej integracji/ciągłego wdrażania i metodyki MLOps.
Narzędzia ETL i DS: To narzędzia front-endowe używane głównie do pracy przez inżynierów danych, analityków danych i inżynierów uczenia maszynowego.
Narzędzia analizy biznesowej: narzędzia front-end używane głównie przez analityków BI do pracy.
Współpraca: możliwości udostępniania danych między co najmniej dwiema stronami.

Zakres platformy usługi Databricks

Platforma Inteligencji Danych Databricks i jej składniki można zamapować do ramy w następujący sposób:

Diagram zakresu lakehouse. Pobieranie: Zakres lakehouse - składniki Databricks

Obciążenia danych w usłudze Azure Databricks

Co najważniejsze, platforma inteligencji danych Databricks obejmuje wszystkie odpowiednie obciążenia dla domeny danych na jednej platformie, z Apache Spark/Photon jako silnikiem.

Pozyskiwanie i przekształcanie

Usługa Databricks oferuje kilka sposobów pozyskiwania danych:
- Databricks Lakeflow Connect oferuje wbudowane konektory do pozyskiwania danych z aplikacji i baz danych dla przedsiębiorstw. Wynikowy potok wprowadzania danych jest zarządzany przez Unity Catalog i napędzany przez bezserwerową infrastrukturę obliczeniową oraz Delta Live Tables (DLT).
- Auto Loader przyrostowo i automatycznie przetwarza pliki trafiające do przechowywania w chmurze w zaplanowanych lub ciągłych zadaniach, bez konieczności zarządzania informacjami o stanie. Po pozyskiwaniu nieprzetworzone dane muszą zostać przekształcone, aby były gotowe do analizy biznesowej i uczenia maszynowego/sztucznej inteligencji. Usługa Databricks oferuje zaawansowane funkcje ETL dla inżynierów danych, naukowców do spraw danych i analityków.
DLT (DLT) umożliwia pisanie zadań ETL w sposób deklaratywny, upraszczając cały proces implementacji. Jakość danych można poprawić, definiując oczekiwania dotyczące danych.
Zaawansowana analiza, uczenie maszynowe i sztuczna inteligencja

Platforma obejmuje Databricks Mosaic AI, zestaw w pełni zintegrowanych narzędzi uczenia maszynowego i sztucznej inteligencji na potrzeby klasycznego uczenia maszynowego i głębokiego uczenia, a także generatywnej sztucznej inteligencji i dużych modeli językowych (LLMs). Obejmuje cały przepływ pracy od przygotowywania danych do tworzenia modeli uczenia maszynowego i uczenia głębokiego po usługę Mozaika AI Model Serving.

Spark Structured Streaming i DLT umożliwiają analizę w czasie rzeczywistym.
Magazyn danych

Platforma analizy danych usługi Databricks ma również kompletne rozwiązanie magazynu danych z usługą Databricks SQL, centralnie zarządzane przez usługę Unity Catalog z precyzyjną kontrolą dostępu.

Funkcje AI to wbudowane funkcje SQL, które pozwalają stosować sztuczną inteligencję bezpośrednio z poziomu SQL. Integracja sztucznej inteligencji z przepływami pracy analizy zapewnia dostęp do informacji, które były wcześniej niedostępne dla analityków i umożliwia podejmowanie bardziej świadomych decyzji, zarządzanie ryzykiem i utrzymanie przewagi konkurencyjnej dzięki innowacjom i wydajności opartym na danych.

Konspekt obszarów funkcji usługi Azure Databricks

Jest to mapowanie funkcji platformy analizy danych usługi Databricks na inne warstwy struktury od dołu do góry:

Magazyn w chmurze

Wszystkie dane Lakehouse są przechowywane w obiektowej pamięci masowej dostawcy chmury. Usługa Databricks obsługuje trzech dostawców usług w chmurze: AWS, Azure i GCP. Pliki w różnych formatach ustrukturyzowanych i częściowo ustrukturyzowanych (na przykład Parquet, CSV, JSON i Avro), a także formatach bez struktury (takich jak obrazy i dokumenty), są pozyskiwane i przekształcane przy użyciu procesów wsadowych lub przesyłanych strumieniowo.

Usługa Delta Lake jest zalecanym formatem danych dla usługi Lakehouse (transakcje plików, niezawodność, spójność, aktualizacje itd.) i jest całkowicie open source, aby uniknąć blokady. Format Delta Universal (UniForm) umożliwia odczytywanie tabel Delta za pomocą klientów czytnika Iceberg.

W usłudze Databricks Data Intelligence Platform nie są używane żadne zastrzeżone formaty danych.
zarządzanie danymi i sztuczną inteligencją

Na wierzchu warstwy magazynowania Unity Catalog oferuje szeroką gamę funkcji zarządzania danymi i sztuczną inteligencją, w tym zarządzanie metadanymi w metamagazynie, kontrolę dostępu, audytowanie, odkrywanie danychi pochodzenie danych.

Monitorowanie usługi Lakehouse zapewnia gotowe metryki jakości dla danych i zasobów sztucznej inteligencji oraz pulpity nawigacyjne generowane automatycznie w celu wizualizacji tych metryk.

Zewnętrzne źródła SQL można zintegrować z lakehouse i Unity Catalog za pośrednictwem federacji lakehouse.
Aparat sztucznej inteligencji

Platforma inteligencji danych jest oparta na architekturze lakehouse i ulepszona przez silnik inteligencji danych DatabricksIQ. Usługa DatabricksIQ łączy generatywną sztuczną inteligencję z zaletami ujednolicania architektury typu lakehouse w celu zrozumienia unikatowej semantyki danych. Inteligentne wyszukiwanie i Asystent usługi Databricks to przykłady usług opartych na sztucznej inteligencji, które upraszczają pracę z platformą dla każdego użytkownika.
Aranżacja

Zadania Databricks umożliwiają uruchamianie różnorodnych obciążeń w pełnym cyklu życia danych i sztucznej inteligencji na dowolnej chmurze. Pozwalają na orkiestrację zadań oraz wykorzystanie DLT w ramach SQL, Spark, notesów, DBT, modeli uczenia maszynowego i innych.

Platforma obsługuje również CI/CD oraz MLOps
Narzędzia ETL i DS

W warstwie konsumpcji inżynierowie danych i inżynierowie uczenia maszynowego zwykle pracują z platformą przy użyciu IDEs. Analitycy danych często wolą notesy i używają środowisk uruchomieniowych ML i AI oraz systemu przepływu pracy uczenia maszynowego MLflow do śledzenia eksperymentów i zarządzania cyklem życia modelu.
Narzędzia analizy biznesowej

Analitycy biznesowi zazwyczaj używają preferowanego narzędzia analizy biznesowej do uzyskiwania dostępu do magazynu danych usługi Databricks. Usługa Databricks SQL może być odpytywana przez różne narzędzia analizy i biznesowej inteligencji, zobacz Analizy i wizualizacje

Ponadto platforma oferuje gotowe narzędzia do wykonywania zapytań i analizy:
- pulpity nawigacyjne sztucznej inteligencji/analizy biznesowej do przeciągania i upuszczania wizualizacji danych oraz udostępniania szczegółowych informacji.
- Eksperci z dziedziny, tacy jak analitycy danych, konfigurują przestrzenie usługi AI/BI Genie z zestawami danych, przykładowymi zapytaniami i wytycznymi tekstowymi, aby ułatwić Genie tłumaczenie pytań biznesowych na zapytania analityczne. Po skonfigurowaniu użytkownicy biznesowi mogą zadawać pytania i generować wizualizacje w celu zrozumienia danych operacyjnych.
- Databricks Apps umożliwia deweloperom tworzenie bezpiecznych danych i aplikacji sztucznej inteligencji na platformie Databricks i udostępnianie tych aplikacji użytkownikom.
- Edytor SQL dla analityków SQL do analizowania danych.
Współpraca

Usługa Delta Sharing to otwarty protokół opracowany przez usługę Databricks na potrzeby bezpiecznego udostępniania danych innym organizacjom niezależnie od używanych platform obliczeniowych.

Databricks Marketplace to otwarte forum wymiany produktów danych. Wykorzystuje Delta Sharing, aby dostawcom danych zapewnić narzędzia do bezpiecznego udostępniania produktów danych, a użytkownikom danych dać możliwość eksploracji i rozszerzenia dostępu do potrzebnych im danych i usług danych.

Clean Rooms korzystają z funkcji Delta Sharing i przetwarzania bezserwerowego w celu zapewnienia bezpiecznego i chroniącego prywatność środowiska, w którym wiele stron może współpracować na poufnych danych przedsiębiorstwa bez bezpośredniego dostępu do danych innych stron.

Udostępnij za pośrednictwem