Co to jest lustrzane odbicie w systemie Fabric?
Mirroring w środowisku Fabric to rozwiązanie o niskich kosztach i małych opóźnieniach, które umożliwia łączenie danych z różnych systemów w jedną platformę analityczną. Istniejącą infrastrukturę danych można stale replikować bezpośrednio do OneLake Fabric z różnych baz danych usługi Azure i zewnętrznych źródeł danych.
Dzięki najbardziej aktualnym danym w formacie z możliwością wykonywania zapytań w usłudze OneLake możesz teraz używać wszystkich różnych usług w usłudze Fabric, takich jak uruchamianie analiz za pomocą platformy Spark, wykonywanie notesów, inżynierii danych, wizualizowanie za pośrednictwem raportów usługi Power BI i nie tylko.
Odbicie w systemie Fabric umożliwia użytkownikom korzystanie z wysoce zintegrowanego, wszechstronnego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych. Opracowane pod kątem otwartości i współpracy między firmą Microsoft a rozwiązaniami technologicznymi, które mogą odczytywać open-source'owy format tabeli Delta Lake, Mirroring jest rozwiązaniem o niskich kosztach i małych opóźnieniach, które umożliwia utworzenie repliki danych w usłudze OneLake, co może być używane do wszystkich potrzeb analitycznych.
Tabele Delta mogą być następnie używane wszędzie w ramach platformy Fabric, co umożliwia użytkownikom przyspieszenie ich drogi do korzystania z Fabric.
Dlaczego warto używać mirroringu w systemie Fabric?
Obecnie wiele organizacji ma krytyczne dane operacyjne lub analityczne siedzące w silosach.
Uzyskiwanie dostępu do tych danych i praca z nimi wymaga obecnie złożonych potoków ETL (Wyodrębnianie, Transformacja, Ładowanie), procesów biznesowych i silosów decyzyjnych, tworząc:
- Ograniczony i ograniczony dostęp do ważnych, ciągle zmieniających się danych
- Tarcie między ludźmi, procesem i technologią
- Długie oczekiwanie na tworzenie potoków danych i procesów do krytycznie ważnych danych
- Brak swobody korzystania z narzędzi potrzebnych do wygodnego analizowania i udostępniania szczegółowych informacji
- Brak właściwej podstawy, aby ludzie dzielili się danymi i współpracowali nad nimi
- Brak typowych, otwartych formatów danych dla wszystkich scenariuszy analitycznych — analizy biznesowej, sztucznej inteligencji, integracji, inżynierii, a nawet aplikacji
Odwzorowanie na platformie Fabric zapewnia łatwe środowisko umożliwiające przyspieszenie uzyskiwania wartości z informacji i decyzji oraz wyeliminowanie silosów danych między rozwiązaniami technologicznymi.
- Niemal w czasie rzeczywistym replikacja danych i metadanych do usługi SaaS data-lake z wbudowaną funkcją analizy biznesowej i sztucznej inteligencji
Platforma Microsoft Fabric jest oparta na oprogramowaniu jako usłudze (SaaS), co wznosi prostotę i integrację na zupełnie nowy poziom. Aby dowiedzieć się więcej o usłudze Microsoft Fabric, zobacz Co to jest microsoft fabric?
Odzwierciedlenie tworzy trzy elementy w obszarze roboczym usługi Fabric.
- Dublowanie zarządza replikacją danych i metadanych do usługi OneLake i konwersją na Parquet w formacie gotowym do analizy. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
- Punkt końcowy analizy SQL
- Domyślny model semantyczny
Oprócz edytora zapytań SQL, istnieje szeroki ekosystem narzędzi, w tym SQL Server Management Studio (SSMS), rozszerzenie mssql dla Visual Studio Code, a nawet GitHub.
Udostępnianie umożliwia łatwość kontroli dostępu i zarządzania, aby upewnić się, że możesz kontrolować dostęp do poufnych informacji. Udostępnianie umożliwia również bezpieczne i zdemokratyzowane podejmowanie decyzji w całej organizacji.
Typy odbicia
Platforma Fabric oferuje trzy różne podejścia do wprowadzania danych do usługi OneLake poprzez mirroring.
- Dublowanie baz danych — dublowanie bazy danych w usłudze Microsoft Fabric umożliwia replikację całych baz danych i tabel, umożliwiając łączenie danych z różnych systemów w jedną platformę analizy.
- Dublowanie metadanych — dublowanie metadanych w sieci szkieletowej synchronizuje metadane (takie jak nazwy katalogów, schematy i tabele) zamiast fizycznie przenosić dane. Takie podejście wykorzystuje skróty, zapewniając, że dane pozostają w swoim źródle, a jednocześnie są łatwo dostępne w Fabric.
- Otwieranie mirroringu — Otwieranie mirroringu w Fabric jest zaprojektowane do rozszerzania mirroringu na podstawie otwartego formatu tabeli Delta Lake. Ta funkcja umożliwia każdemu deweloperowi zapisywanie danych zmian aplikacji bezpośrednio w element dublowanej bazy danych w usłudze Microsoft Fabric w oparciu o otwarte podejście dublowania i publiczne interfejsy API.
Obecnie dostępne są następujące zewnętrzne bazy danych:
Jak działa replikacja dublowania bazy danych niemal w czasie rzeczywistym?
Dublowanie jest włączone przez utworzenie bezpiecznego połączenia ze źródłem danych operacyjnych. Decydujesz, czy replikować całą bazę danych, czy poszczególne tabele, a dublowanie automatycznie zachowa synchronizację danych. Po skonfigurowaniu dane będą stale replikowane do usługi OneLake na potrzeby użycia analiz.
Poniżej przedstawiono podstawowe założenia odzwierciedlania:
Włączanie mirroringu w Fabric jest proste i intuicyjne, bez konieczności tworzenia złożonych potoków ETL, przydzielania innych zasobów obliczeniowych i zarządzania przenoszeniem danych.
Dublowanie w sieci szkieletowej to w pełni zarządzana usługa, więc nie musisz martwić się o hostowanie, konserwowanie i zarządzanie replikacją dublowanego połączenia.
Jak działa dublowanie metadanych?
Dublowanie nie tylko umożliwia replikację danych, ale można również przeprowadzić za pomocą skrótów lub dublowania metadanych, a nie pełnej replikacji danych, co pozwala na dostępność danych bez fizycznego przenoszenia lub duplikowania. Dublowanie w tym kontekście odnosi się do replikowania tylko metadanych, takich jak nazwy katalogów, schematy i tabele, a nie rzeczywiste dane. Takie podejście umożliwia sieci szkieletowej udostępnianie danych z różnych źródeł bez duplikowania ich, upraszczanie zarządzania danymi i minimalizowanie potrzeb związanych z magazynem.
Na przykład podczas uzyskiwania dostępu do danych zarejestrowanych w katalogu Unity, Fabric odzwierciedla tylko strukturę katalogu z usługi Azure Databricks, umożliwiając dostęp do danych źródłowych za pomocą skrótów. Ta metoda gwarantuje, że wszelkie zmiany w danych źródłowych zostaną natychmiast odzwierciedlone w sieci szkieletowej bez konieczności przenoszenia danych, utrzymania synchronizacji w czasie rzeczywistym i zwiększenia wydajności uzyskiwania dostępu do aktualnych informacji.
Jak działa otwarte lustrzane odbicie?
Oprócz dublowania umożliwiającego replikację danych przez utworzenie bezpiecznego połączenia ze źródłem danych można również wybrać istniejącego dostawcę danych lub napisać własną aplikację, aby umieścić dane w dublowanej bazie danych. Po utworzeniu otwartej dublowanej bazy danych za pośrednictwem publicznego interfejsu API lub portalu Fabric, będzie można uzyskać adres URL strefy docelowej do lądowania w usłudze OneLake, gdzie można umieszczać dane zmian zgodnie ze specyfikacją otwartego dublowania.
Gdy dane znajdą się w strefie docelowej z odpowiednim formatem, replikacja zacznie działać i zarządza złożonością scalania zmian z aktualizacjami, wstawianiem i usuwaniem, które mają zostać odzwierciedlone w tabelach różnicowych. Ta metoda gwarantuje, że wszystkie dane zapisane w strefie lądowania będą natychmiast aktualizowane, utrzymując dane w systemie Fabric na bieżąco.
Udostępnianie
Udostępnianie zapewnia łatwość kontroli dostępu i zarządzania, a mechanizmy zabezpieczeń, takie jak zabezpieczenia na poziomie wiersza (RLS) i poziomie obiektu (OLS) oraz inne, umożliwiają kontrolę dostępu do poufnych informacji. Udostępnianie umożliwia również bezpieczne i zdemokratyzowane podejmowanie decyzji w całej organizacji.
Dzięki udostępnianiu użytkownicy udzielają innym użytkownikom lub grupie użytkowników dostępu do dublowanej bazy danych bez udzielania dostępu do obszaru roboczego i pozostałych elementów. Gdy ktoś udostępnia dublowaną bazę danych, udziela również dostępu do punktu końcowego analizy SQL i skojarzonego domyślnego modelu semantycznego.
Aby uzyskać więcej informacji, zobacz Udostępnianie dublowanej bazy danych i zarządzanie uprawnieniami.
Zapytania obejmujące wiele baz danych
Dzięki danych z dublowanej bazy danych przechowywanej w usłudze OneLake można zapisywać zapytania obejmujące wiele baz danych, łącząc dane z dublowanych baz danych, magazynów i punktów końcowych analizy SQL usługi Lakehouse w jednym zapytaniu T-SQL. Aby uzyskać więcej informacji, zobacz Pisanie zapytania obejmującego wiele baz danych.
Można na przykład odwołać się do tabeli z zreplikowanych baz danych i magazynów przy użyciu trzyczęściowego nazewnictwa. W poniższym przykładzie użyj trzyczęściowej nazwy, aby odwołać się do ContosoSalesTable
w magazynie ContosoWarehouse
. Z innych baz danych lub magazynów pierwsza część standardowej trójczęściowej konwencji nazewnictwa SQL to nazwa dublowanej bazy danych.
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
Koszt dublowania
W przypadku mirroringu bazy danych oraz otwartego mirroringu, zasoby obliczeniowe platformy Fabric i przechowywanie OneLake do limitu opartego na pojemności są bezpłatne.
- Przechowywanie replik jest bezpłatne do limitu zależnego od rozmiaru. Dublowanie oferuje bezpłatny terabajt magazynu dublowania dla każdej zakupionej jednostki pojemności (CU). Jeśli na przykład zakupisz pojemność F64, otrzymasz 64 bezpłatne terabajty pamięci masowej, używane wyłącznie do dublowania. Opłata za magazyn OneLake jest naliczana, jeśli przekroczony zostanie bezpłatny limit magazynu mirrorowania lub gdy pojemność jest wstrzymana. Aby uzyskać więcej informacji, zobacz Cennik usługi Microsoft Fabric.
- Zasoby obliczeniowe używane do replikowania danych do usługi Fabric OneLake są bezpłatne i nie zużywają zasobów. Żądania do usługi OneLake w trakcie procesu dublowania zużywają zasoby tak samo, jak normalne użycie mocy obliczeniowej w OneLake. Obliczenia związane z wykonywaniem zapytań danych przy użyciu języka SQL, usługi Power BI lub platformy Spark są naliczane według regularnych stawek.
Inżynieria danych z odbitych danych bazy danych
Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić, że twoje dane są łatwo dostępne, dobrze zorganizowane i wysokiej jakości. Z poziomu Fabric Inżynieria Danych możesz:
- Twórz i zarządzaj swoimi danymi jako Spark za pomocą Lakehouse
- Projektowanie potoków w celu skopiowania danych do usługi Lakehouse
- Użyj definicji zadań Spark do składania zadań wsadowych lub strumieniowych do klastra Spark
- Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych
Nauka o danych z odwzorowanymi danymi bazy danych
Usługa Microsoft Fabric oferuje Fabric Data Science, aby umożliwić użytkownikom kompleksowe przepływy pracy w zakresie nauki o danych na potrzeby wzbogacania danych i wniosków biznesowych. Możesz ukończyć szeroką gamę działań w całym procesie nauki o danych, od eksploracji danych, przygotowywania i czyszczenia po eksperymenty, modelowanie, ocenianie modeli i obsługę analiz predykcyjnych do raportów analizy biznesowej.
Użytkownicy usługi Microsoft Fabric mogą uzyskiwać dostęp do obciążeń nauki o danych. Z tego miejsca mogą odnajdywać różne odpowiednie zasoby i uzyskiwać do nich dostęp. Mogą na przykład tworzyć eksperymenty, modele i notesy uczenia maszynowego. Mogą również importować istniejące notesy na stronie głównej Data Science.
Baza danych SQL w systemie Fabric
Możesz również bezpośrednio utworzyć bazę danych SQL i zarządzać nią w portalu Microsoft Fabric (wersja zapoznawcza). W oparciu o usługę Azure SQL Database baza danych SQL w Fabric jest automatycznie dublowana do celów analitycznych i umożliwia łatwe tworzenie operacyjnej bazy danych w ramach Fabric. Baza danych SQL jest miejscem dla obciążeń OLTP w Fabric i może być zintegrowana z integracją kontroli wersji Fabric.