Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)
Replikacja w Microsoft Fabric zapewnia płynne doświadczenie bez ETL, umożliwiające zintegrowanie istniejących danych z Azure Cosmos DB z pozostałymi danymi w Microsoft Fabric. Dane w Azure Cosmos DB są stale replikowane bezpośrednio do usługi Fabric OneLake niemal w czasie rzeczywistym, bez wpływu na wydajność obciążeń transakcyjnych ani zużycia jednostek żądań (RU).
Dane w usłudze OneLake są przechowywane w formacie open-source delta i automatycznie udostępniane wszystkim aparatom analitycznym na platformie Fabric.
Wbudowane funkcje usługi Power BI umożliwiają uzyskiwanie dostępu do danych w usłudze OneLake w trybie DirectLake. Dzięki Copilot ulepszeniom w usłudze Fabric możesz użyć możliwości generowania sztucznej inteligencji, aby uzyskać kluczowe szczegółowe informacje na temat danych biznesowych. Oprócz usługi Power BI można używać języka T-SQL do uruchamiania złożonych zagregowanych zapytań lub używania platformy Spark do eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach i używać nauki o danych do tworzenia modeli uczenia maszynowego.
Ważne
Odwzorowywanie dla usługi Azure Cosmos DB jest obecnie dostępne w wersji zapoznawczej. Obciążenia produkcyjne nie są obsługiwane w wersji zapoznawczej. Obecnie obsługiwane są tylko konta usługi Azure Cosmos DB for NoSQL.
Dlaczego warto używać mirroringu w sieci Fabric?
Przy użyciu Mirroring w Fabric, nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany, aby uprościć potrzeby analizy i zbudowany z myślą o otwartości.
Jeśli szukasz raportów analizy biznesowej lub analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:
- Brak ETL, kosztowo efektywny, prawie w czasie rzeczywistym dostęp do danych Azure Cosmos DB bez wpływu na zużycie jednostek żądania
- Łatwość noszenia danych między różnymi źródłami w usłudze Fabric OneLake
- Optymalizacje tabeli delta z porządkiem V dla błyskawicznego odczytu
- Integracja jednym kliknięciem z Power BI za pomocą Direct Lake i Copilot
- Rozbudowane szczegółowe informacje biznesowe dzięki dołączaniu danych do różnych źródeł
- Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków
Dane usługi OneLake są przechowywane w formacie usługi Delta Lake typu open source, co umożliwia używanie ich z różnymi rozwiązaniami w firmie Microsoft i poza nią. Ten format danych ułatwia tworzenie pojedynczego majątku danych dla potrzeb analitycznych.
Jakie rozwiązania analityczne są wbudowane?
Zmirorowane bazy danych są elementem w Fabric Data Warehousing, odrębnym od magazynu i punktu końcowego analiz SQL.
Każda lustrzana baza danych Azure Cosmos DB ma trzy elementy, z którymi można wchodzić w interakcję w obszarze roboczym Fabric.
- Element zmirrorowanej bazy danych. Odwzorowywanie zarządza replikacją danych do OneLake i konwersją na Parquet w formacie gotowym do analiz. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
- Punkt końcowy analizy SQL, który jest generowany automatycznie
- Domyślny model semantyczny, który jest generowany automatycznie
Dublowana baza danych
Dublowana baza danych pokazuje stan replikacji oraz kontrolki, które mają zatrzymać lub uruchomić replikację w usłudze Fabric OneLake. Możesz również wyświetlić źródłową bazę danych w trybie tylko do odczytu przy użyciu Eksploratora danych usługi Azure Cosmos DB. Za pomocą Eksploratora danych możesz wyświetlać kontenery w źródłowej bazie danych usługi Azure Cosmos DB i wykonywać względem nich zapytania. Te operacje zużywają jednostki żądań (RU) z konta usługi Azure Cosmos DB. Wszelkie zmiany źródłowej bazy danych są natychmiast odzwierciedlane w widoku źródłowej bazy danych w Fabric. Zapisywanie w źródłowej bazie danych nie jest dozwolone z poziomu Fabric, ponieważ można jedynie przeglądać dane.
Punkt końcowy analizy SQL
Każda zreplikowana baza danych ma automatycznie wygenerowany punkt analiz SQL, który zapewnia bogate środowisko analityczne oparte na tabelach Delta OneLake utworzonych przez proces replikacji. Masz dostęp do znanych poleceń języka T-SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi z punktu końcowego analizy SQL, ponieważ jest to kopia tylko do odczytu.
Następujące akcje można wykonać w punkcie końcowym analizy SQL:
- Eksplorowanie tabel usługi Delta Lake przy użyciu języka T-SQL. Każda tabela jest mapowana na kontener z bazy danych usługi Azure Cosmos DB.
- Tworzenie zapytań i widoków bez kodu oraz eksplorowanie ich wizualnie bez konieczności pisania wiersza kodu.
- Dołączaj i przesyłaj zapytania dotyczące danych w innych lustrzanych bazach danych, magazynach danych i Lakehouse'ach w tym samym obszarze roboczym.
- Raporty analizy biznesowej można łatwo wizualizować i tworzyć na podstawie zapytań LUB widoków SQL.
Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi. Te narzędzia obejmują rozszerzenie mssql z programem Visual Studio Code, programem SQL Server Management Studio (SSMS), a nawet usługą GitHub Copilot. Możesz wzmocnić analizę i generowanie wniosków z wybranego narzędzia.
Model semantyczny
Domyślny model semantyczny to automatycznie aprowizowany model semantyczny usługi Power BI. Ta funkcja umożliwia tworzenie, udostępnianie i ponowne używanie metryk biznesowych. Aby uzyskać więcej informacji, zobacz semantyczne modele.
Jak działa replikacja niemal w czasie rzeczywistym?
Gdy włączysz dublowanie w bazie danych Azure Cosmos DB, operacje wstawiania, aktualizowania i usuwania danych przetwarzania transakcji online (OLTP) są ciągle replikowane do usługi Fabric OneLake na potrzeby analizy.
Funkcja ciągłej kopii zapasowej jest wymaganiem wstępnym do dublowania. Możesz włączyć 7-dniową lub 30-dniową ciągłą kopię zapasową na koncie usługi Azure Cosmos DB. Jeśli włączasz ciągłą kopię zapasową specjalnie na potrzeby dublowania, zalecane jest wykonywanie 7-dniowej ciągłej kopii zapasowej, ponieważ jest to bezpłatne.
Uwaga
Dublowanie nie używa magazynu analitycznego ani zestawienia zmian usługi Azure Cosmos DB jako źródła przechwytywania danych zmian. Możesz dalej używać tych funkcji niezależnie, wraz z mirrorowaniem.
Replikacja danych usługi Azure Cosmos DB do usługi Fabric OneLake może potrwać kilka minut. W zależności od początkowej migawki danych lub częstotliwości aktualizacji/usuwania replikacja może również trwać dłużej w niektórych przypadkach. Replikacja nie ma wpływu na jednostki zapytań przydzielone dla obciążeń transakcyjnych.
Czego można oczekiwać od dublowania
Przed replikacją należy wziąć pod uwagę kilka zagadnień i obsługiwanych scenariuszy.
Zagadnienia dotyczące konfiguracji
Aby zdublować bazę danych, należy ją już aprowizować na platformie Azure. Musisz włączyć ciągłą kopię zapasową na koncie jako wymaganie wstępne.
- W danym momencie można lustrzać każdą bazę danych tylko pojedynczo. Możesz wybrać bazę danych do dublowania.
- Tę samą bazę danych można dublować wiele razy w tym samym obszarze roboczym. Najlepszym rozwiązaniem jest ponowne użycie pojedynczej kopii bazy danych w magazynach typu lakehouse, magazynach lub innych dublowanych bazach danych. Nie powinno się konfigurować wielu luster do tej samej bazy danych.
- Tę samą bazę danych można również replikować między różnymi obszarami roboczymi lub dzierżawami Fabric.
- Zmiany w kontenerach usługi Azure Cosmos DB, takie jak dodawanie nowych kontenerów i usuwanie istniejących, są bezproblemowo replikowane do sieci szkieletowej. Możesz rozpocząć dublowanie pustej bazy danych bez kontenerów, na przykład, a dublowanie bezproblemowo pobiera kontenery dodane w późniejszym punkcie w czasie.
Obsługa zagnieżdżonych danych
Zagnieżdżone dane są wyświetlane jako ciąg JSON w tabelach punktów końcowych analizy SQL. Do selektywnego rozszerzania tych danych można używać OPENJSON
, CROSS APPLY
i OUTER APPLY
w zapytaniach lub widokach języka T-SQL. Jeśli używasz dodatku Power Query, możesz również zastosować funkcję ToJson
w celu rozwinięcia tych danych.
Uwaga
Warstwa ma ograniczenie dotyczące kolumn tekstowych o rozmiarze 8 KB. Aby uzyskać więcej informacji, zobacz Ograniczenia magazynu danych.
Obsługa zmian schematu
Odwzorowanie automatycznie replikuje właściwości w poprzek elementów usługi Azure Cosmos DB, łącznie ze zmianami schematu. Wszystkie nowe właściwości odnalezione w elemencie są wyświetlane jako nowe kolumny, a brakujące właściwości , jeśli istnieją, są reprezentowane jako null w sieci szkieletowej.
Jeśli zmienisz nazwę właściwości w elemencie, tabele Fabric zachowają zarówno stare, jak i nowe kolumny. Stara kolumna będzie zawierać wartość null, a nowa będzie zawierać najnowszą wartość dla wszystkich elementów replikowanych po operacji zmiany nazwy.
W przypadku zmiany typu danych właściwości w elementach usługi Azure Cosmos DB zmiany są obsługiwane w przypadku zgodnych typów danych, które można przekonwertować. Jeśli typy danych nie są zgodne z konwersją w funkcji Delta, są one reprezentowane jako wartości null.
Punkty końcowe SQL Analytics konwertują typy danych Delta na typy danych T-SQL.
Zduplikowane nazwy kolumn
Usługa Azure Cosmos DB obsługuje nazwy kolumn bez uwzględniania wielkości liter na podstawie standardu JSON. Funkcja odzwierciedlania obsługuje te zduplikowane nazwy kolumn, dodając _n
do nazwy kolumny, gdzie n
jest wartością liczbową.
Na przykład, jeśli element usługi Azure Cosmos DB ma addressName
i AddressName
jako unikatowe właściwości, tabele mają odpowiednie kolumny addressName
i AddressName_1
. Aby uzyskać więcej informacji, zobacz Ograniczenia replikacji.
Zabezpieczenia
Połączenia ze źródłową bazą danych są oparte na kluczach kont usługi Azure Cosmos DB. W przypadku rotacji lub ponownego generowania kluczy należy zaktualizować połączenia, aby upewnić się, że replikacja działa. Aby uzyskać więcej informacji, zobacz połączenia.
Klucze konta nie są bezpośrednio widoczne dla innych użytkowników sieci Szkieletowej po skonfigurowaniu połączenia. Możesz ograniczyć, kto ma dostęp do połączeń utworzonych w usłudze Fabric. Zapisy nie są dozwolone w bazie danych usługi Azure Cosmos DB z eksploratora danych lub punktu końcowego analizy w dublowanej bazie danych.
Dublowanie nie obsługuje obecnie uwierzytelniania przy użyciu kluczy kont tylko do odczytu, logowania jednokrotnego (SSO) z identyfikatorami Firmy Microsoft Entra i kontrolą dostępu opartą na rolach lub tożsamościami zarządzanymi.
Gdy dane są replikowane do usługi Fabric OneLake, musisz zabezpieczyć dostęp do tych danych.
Funkcje ochrony danych
Szczegółowe zabezpieczenia można skonfigurować w dublowanej bazie danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz szczegółowe uprawnienia w usłudze Microsoft Fabric.
Filtry kolumn oraz filtry wierszy oparte na predykatach można przypisać do ról i użytkowników w usłudze Microsoft Fabric.
- Zabezpieczenia na poziomie wiersza w Fabric data warehousing
- Zabezpieczenia na poziomie kolumny w magazynowaniu danych Fabric
Możesz również maskować poufne dane od użytkowników niebędących administratorami przy użyciu dynamicznego maskowania danych:
Bezpieczeństwo sieci
Obecnie dublowanie nie obsługuje prywatnych punktów końcowych ani kluczy zarządzanych przez klienta (CMK) w usłudze OneLake. Dublowanie nie jest obsługiwane w przypadku kont usługi Azure Cosmos DB z konfiguracjami zabezpieczeń sieci mniej permissywnymi niż wszystkie sieci, przy użyciu punktów końcowych usługi, używania prywatnych punktów końcowych, adresów IP ani innych ustawień, które mogą ograniczyć dostęp do sieci publicznej do konta. Konta usługi Azure Cosmos DB powinny być otwarte dla wszystkich sieci do pracy z dublowaniem.
Odzyskiwanie po awarii i opóźnienie replikacji
W Fabric można wdrożyć zawartość w centrach danych w obrębie regionów innych niż region macierzysty dzierżawy. Aby uzyskać więcej informacji, zobacz Obsługa wielu regionów geograficznych.
W przypadku konta usługi Azure Cosmos DB z podstawowym regionem zapisu i wieloma regionami odczytu funkcja mirroringu wybiera region odczytu usługi Azure Cosmos DB najbliżej regionu, w którym skonfigurowano pojemność Fabric. Ten wybór pomaga zapewnić replikację o małych opóźnieniach na potrzeby dublowania.
Po przełączeniu konta usługi Azure Cosmos DB do regionu odzyskiwania funkcja dublowania automatycznie wybiera najbliższy region usługi Azure Cosmos DB ponownie.
Uwaga
Dublowanie nie obsługuje kont z wieloma regionami zapisu.
Dane usługi Cosmos DB replikowane do usługi OneLake muszą być skonfigurowane do obsługi awarii w całym regionie. Aby uzyskać więcej informacji, zobacz Odzyskiwanie po awarii w usłudze OneLake.
Eksplorowanie danych za pomocą dublowania
Zmirrorowane dane można wyświetlać bezpośrednio i uzyskiwać dostęp do nich w usłudze OneLake. Możesz również bezproblemowo uzyskiwać dostęp do zmirrorowanych danych bez dalszego przenoszenia danych.
Dowiedz się więcej na temat uzyskiwania dostępu do usługi OneLake przy użyciu interfejsów API lub zestawu SDK usługi ADLS Gen2, Eksploratora plików usługi OneLake i Eksploratora usługi Azure Storage.
Możesz nawiązać połączenie z punktem końcowym analizy SQL za pomocą narzędzi, takich jak SQL Server Management Studio (SSMS) lub używając sterowników, takich jak Microsoft Open Database Connectivity (ODBC) i Java Database Connectivity (JDBC). Aby uzyskać więcej informacji, zobacz Łączność punktów końcowych analizy SQL.
Dostęp do danych dublowanych można również uzyskać za pomocą usług, takich jak:
- Usługi platformy Azure, takie jak Azure Databricks, Azure HDInsight lub Azure Synapse Analytics
- Korzystanie z Fabric Lakehouse przy użyciu skrótów w scenariuszach inżynierii danych i nauki o danych
- Inne zreplikowane bazy danych lub magazyny w obszarze roboczym Fabric
Możesz również tworzyć rozwiązania architektury medalionu, czyścić i przekształcać dane przybywające do zreplikowanej bazy danych jako warstwa brązu. Aby uzyskać więcej informacji, zobacz wsparcie dla architektury medalionu w Fabric.
Cennik
Zasoby obliczeniowe sieci szkieletowej używane do replikowania danych usługi Cosmos DB do usługi Fabric OneLake są bezpłatne. Przechowywanie w OneLake jest bezpłatne zależnie od rozmiaru pojemności. Aby uzyskać więcej informacji, zobacz Cennik usługi OneLake na potrzeby dublowania. Użycie zasobów obliczeniowych do wykonywania zapytań dotyczących danych za pośrednictwem usług SQL, Power BI lub Spark jest nadal naliczane na podstawie pojemności sieci szkieletowej.
Jeśli korzystasz z Eksploratora Danych w mirrorowaniu Fabric, typowe koszty są naliczane na podstawie użycia jednostek żądań (RU) podczas eksploracji kontenerów i wykonywania zapytań dotyczących elementów w źródłowej bazie danych Azure Cosmos DB. Funkcja ciągłej kopii zapasowej usługi Azure Cosmos DB jest wymaganiem wstępnym do dublowania: obowiązują standardowe opłaty za ciągłą kopię zapasową. Nie są naliczane dodatkowe opłaty za mirrorowanie w ramach ciągłych rozliczeń kopii zapasowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure Cosmos DB.