Udostępnij za pośrednictwem


Tabele Lakehouse i Delta Lake

Microsoft Fabric Lakehouse to platforma architektury danych do przechowywania danych, zarządzania nimi i analizowania danych ustrukturyzowanych i nieustrukturyzowanych w jednej lokalizacji. Aby zapewnić bezproblemowy dostęp do danych we wszystkich aparatach obliczeniowych w usłudze Microsoft Fabric, usługa Delta Lake jest wybierana jako ujednolicony format tabeli.

Zapisywanie danych w usłudze Lakehouse przy użyciu funkcji takich jak Ładowanie do tabel lub metod opisanych w Opcjach wprowadzenia danych do usługi Fabric Lakehouse, wszystkie dane są zapisywane w formacie Delta.

Aby zapoznać się z bardziej kompleksowym wprowadzeniem do formatu tabeli usługi Delta Lake, skorzystaj z linków w sekcji Następne kroki.

Big data, Apache Spark i starsze formaty tabel

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark używa tej samej podstawy co środowisko uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark, ale zawiera kluczowe różnice w celu zapewnienia bardziej usprawnionego zachowania we wszystkich aparatach w usłudze Microsoft Fabric. W usłudze Microsoft Fabric kluczowe funkcje wydajności są domyślnie włączone. Zaawansowani użytkownicy platformy Apache Spark mogą przywrócić konfiguracje do poprzednich wartości, aby lepiej dopasować je do określonych scenariuszy.

Usługa Microsoft Fabric Lakehouse i silnik Apache Spark obsługują wszystkie typy tabel, zarówno zarządzane, jak i niezarządzane; obejmuje to widoki i zwykłe formaty tabel Hive, inne niż Delta. Tabele zdefiniowane przy użyciu formatu plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z usługą Apache Hive działają zgodnie z oczekiwaniami.

Doświadczenie interfejsu użytkownika eksploratora usługi Lakehouse różni się w zależności od typu tabeli. Obecnie eksplorator lakehouse renderuje tylko obiekty tabeli.

Różnice konfiguracji w usłudze Azure Synapse Analytics

Poniższa tabela zawiera różnice konfiguracji między usługą Azure Synapse Analytics i środowiskiem uruchomieniowym usługi Microsoft Fabric dla platformy Apache Spark.

Konfiguracja platformy Apache Spark Wartość usługi Microsoft Fabric Wartość usługi Azure Synapse Analytics Uwagi
spark.sql.sources.default delta parkiet Domyślny format tabeli
spark.sql.parquet.vorder.default prawda Nie dotyczy Moduł zapisywania zamówień wirtualnych
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Nie dotyczy Limit rozmiaru strony słownika dla V-Order
spark.databricks.delta.optimizeWrite.enabled prawda unset (false) Optymalizowanie zapisu

Automatyczne odnajdywanie tabel

Eksplorator usługi Lakehouse udostępnia widok podobny do drzewa obiektów w elemencie Microsoft Fabric Lakehouse. Ma ona kluczową możliwość odnajdywania i wyświetlania tabel opisanych w repozytorium metadanych i w magazynie OneLake. Odwołania do tabeli są wyświetlane w sekcji Tables interfejsu użytkownika eksploratora Lakehouse. Automatyczne odnajdywanie dotyczy również tabel zdefiniowanych za pomocą skrótów OneLake.

Tabele nad skrótami

Usługa Microsoft Fabric Lakehouse obsługuje tabele zdefiniowane za pośrednictwem skrótów OneLake w celu zapewnienia najwyższej zgodności i braku przenoszenia danych. Poniższa tabela zawiera najlepsze rozwiązania dotyczące scenariusza dla każdego typu elementu podczas korzystania ze skrótów.

Miejsce docelowe skrótu Gdzie utworzyć skrót Najlepsze rozwiązanie
Tabela Delta Lake Tables sekcja Jeśli w miejscu docelowym znajduje się wiele tabel, utwórz jeden skrót dla każdej tabeli.
Foldery z plikami Files sekcja Użyj platformy Apache Spark, aby korzystać z miejsca docelowego bezpośrednio przy użyciu ścieżek względnych. Załaduj dane do natywnych tabel Delta Lakehouse, aby uzyskać maksymalną wydajność.
Starsze tabele Apache Hive Files sekcja Użyj platformy Apache Spark, aby bezpośrednio uzyskać dostęp do celu przy użyciu ścieżek względnych lub utworzyć odwołanie do katalogu metadanych przy użyciu składni CREATE EXTERNAL TABLE. Aby uzyskać maksymalną wydajność, załaduj dane do natywnych tabel Delta w usłudze Lakehouse.

Ładowanie danych do tabel

Usługa Microsoft Fabric Lakehouse udostępnia wygodny i wydajny interfejs użytkownika, aby usprawnić ładowanie danych do tabel delty. Funkcja Załaduj do tabel umożliwia wizualizacjom ładowanie typowych formatów plików do funkcji Delta w celu zwiększenia produktywności analitycznej dla wszystkich osób. Aby dowiedzieć się więcej na temat funkcji "Ładowanie do Tabel", przeczytaj dokumentację referencyjną Ładowanie do Tabel usługi Lakehouse.

Optymalizacja tabeli usługi Delta Lake

Przechowywanie tabel w odpowiedniej formie dla szerokiego zakresu scenariuszy analitycznych nie jest drobnym wyczynem. Usługa Microsoft Fabric Lakehouse aktywnie umożliwia ważne parametry w celu zminimalizowania typowych problemów związanych z tabelami danych big data, takich jak kompaktowanie i małe rozmiary plików oraz maksymalizowanie wydajności zapytań. Mimo to istnieje wiele scenariuszy, w których te parametry wymagają zmian. Artykuł optymalizacja tabel Delta Lake i V-Order obejmuje niektóre kluczowe scenariusze i zawiera szczegółowy przewodnik o tym, jak wydajnie utrzymywać tabele Delta, aby osiągnąć maksymalną wydajność.