Новые и запланированные возможности Инжиниринг данных Fabric в Microsoft Fabric
Внимание
Планы выпуска описывают функциональные возможности, которые могут или не были выпущены. Временная шкала доставки и проецируемые функциональные возможности могут изменяться или не могут отправляться. Дополнительные сведения см. в политике Майкрософт.
Структура Инжиниринг данных позволяет инженерам данных преобразовывать данные в масштабе с помощью Spark и создавать архитектуру lakehouse.
Lakehouse для всех ваших организационных данных: Lakehouse объединяет лучшее из озера данных и хранилища данных в одном интерфейсе. Он позволяет пользователям получать, подготавливать и предоставлять общий доступ к данным организации в открытом формате в озере. Позже вы можете получить доступ к нему с помощью нескольких подсистем, таких как Spark, T-SQL и Power BI. Он предоставляет различные варианты интеграции данных, такие как потоки данных и конвейеры, сочетания клавиш для внешних источников данных и возможности совместного использования продуктов данных.
Подсистема и среда выполнения Spark: проектирование данных Fabric предоставляет клиентам оптимизированную среду выполнения Spark с последними версиями Spark, Delta и Python.. В нем используется Delta Lake в качестве общего формата таблицы для всех обработчиков, что позволяет легко обмениваться данными и создавать отчеты без перемещения данных. Среда выполнения поставляется с оптимизацией Spark, повышая производительность запросов без каких-либо конфигураций. Он также предлагает начальные пулы и режим высокой параллелизма для ускорения и повторного использования сеансов Spark, что позволяет сэкономить время и затраты.
Администраторы Spark и конфигурации. Администраторы рабочих областей с соответствующими разрешениями могут создавать и настраивать настраиваемые пулы для оптимизации производительности и стоимости рабочих нагрузок Spark. Создатели могут настроить среды для установки библиотек, выбрать версию среды выполнения и задать свойства Spark для своих записных книжек и заданий Spark.
Опыт разработчиков. Разработчики могут использовать записные книжки, задания Spark или предпочитаемую интегрированную среду разработки для создания и выполнения кода Spark в Fabric. Они могут получать доступ к данным Lakehouse, совместно работать с другими пользователями, устанавливать библиотеки, отслеживать журналы, выполнять встроенный мониторинг и получать рекомендации от помощника Spark. Они также могут использовать Data Wrangler для легкой подготовки данных с помощью пользовательского интерфейса с низким кодом.
Интеграция платформы. Все элементы проектирования данных Fabric, включая записные книжки, задания Spark, среды и озера, интегрированы глубоко в платформу Fabric (возможности управления корпоративными данными, происхождения, метки конфиденциальности и подтверждения).
Инвестиционные области
Записная книжка Python
Предполагаемая временная шкала выпуска: Q4 2024
Тип выпуска: общедоступная предварительная версия
Записные книжки Fabric поддерживают чистый интерфейс Python. Это новое решение предназначено для разработчиков бизнес-аналитики и Специалист по обработке и анализу данных, работающих с меньшими наборами данных (до нескольких ГБ), а также с помощью Pandas и Python в качестве основного языка. Благодаря этому новому интерфейсу они смогут воспользоваться собственным языком Python и ее собственными функциями и библиотеками из коробки, смогут переключаться с версии Python на другую (первоначально две версии будут поддерживаться) и, наконец, воспользоваться лучшим использованием ресурсов с помощью меньшего компьютера 2VCore.
ArcGIS GeoAnalytics для Microsoft Fabric Spark
Предполагаемая временная шкала выпуска: Q4 2024
Тип выпуска: общедоступная предварительная версия
Корпорация Майкрософт и Esri сотрудничают с целью привлечения пространственной аналитики в Microsoft Fabric. Эта совместная работа представляет новую библиотеку ArcGIS GeoAnalytics для Microsoft Fabric, что обеспечивает широкий набор пространственных аналитических данных прямо в записных книжках Microsoft Fabric Spark и определениях заданий Spark (как в Инжиниринг данных, так и в Обработка и анализ данных взаимодействия или рабочих нагрузок).
Этот интегрированный интерфейс продукта позволяет разработчикам Spark или специалистам по обработке и анализу данных изначально использовать возможности Esri для запуска функций и инструментов ArcGIS GeoAnalytics в Fabric Spark для пространственного преобразования, обогащения и шаблона или анализа тенденций данных ( даже больших данных) в разных вариантах использования без необходимости отдельной установки и настройки.
Установка библиотек из учетной записи хранения ADLS 2-го поколения
Предполагаемая временная шкала выпуска: Q4 2024
Тип выпуска: общедоступная предварительная версия
Поддержка нового источника для пользователей для установки библиотек. С помощью создания пользовательского канала conda/PyPI, размещенного в учетной записи хранения, пользователи могут устанавливать библиотеки из учетной записи хранения в средах Fabric.
Динамическое управление версиями записной книжки
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
При использовании динамического управления версиями Записные книжки Fabric разработчики записных книжек могут отслеживать журнал изменений, внесенных в свои записные книжки, сравнивать различные версии и восстанавливать предыдущие версии при необходимости.
Вспомогательное расширение VSCode для функций пользовательских данных в Fabric
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Расширение VSCode Satellite для функций пользовательских данных обеспечит поддержку разработчика (редактирование, сборка, отладка, публикация) для функций пользовательских данных в Fabric.
Функции пользовательских данных в Fabric
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Функции пользовательских данных предоставляют мощный механизм реализации и повторного использования пользовательской специализированной бизнес-логики в рабочих процессах обработки и анализа данных Fabric, повышения эффективности и гибкости.
Общедоступные API мониторинга
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Функция общедоступного api мониторинга для Fabric Spark предназначена для предоставления API-интерфейсов мониторинга Spark, позволяя пользователям отслеживать ход выполнения задания Spark, просматривать задачи выполнения и получать доступ к журналам программно. Эта функция соответствует стандартам общедоступного API, обеспечивая простой мониторинг приложений Spark.
Метаданные ярлыков Lakehouse в конвейерах git и развертывания
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Для обеспечения убедительных историй управления жизненным циклом приложений отслеживание метаданных объектов в Git и поддержке конвейеров развертывания является обязательным. В модулях Инжиниринг данных, так как рабочие области интегрированы в Git.
В этом первом итерации сочетания клавиш OneLake будут автоматически развертываться на этапах конвейера и рабочих областях. Сочетания клавиш можно перенастраивание между этапами с помощью новой библиотеки переменных Microsoft Fabric, гарантируя правильную изоляцию и ожидаемые клиенты сегментации среды.
Улучшения Delta Lake в интерфейсах Spark
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общая доступность
Наличие надлежащих значений по умолчанию и согласование с последними стандартами является крайне важной важностью для стандартов Delta Lake в Microsoft Fabric. INT64 будет новым типом кодирования по умолчанию для всех значений меток времени. Это переходит от кодировки INT96, которая не рекомендуется использовать Apache Parquet лет назад. Изменения не влияют на возможности чтения, по умолчанию это прозрачно и совместимо, но гарантирует, что все новые файлы parquet в таблице Delta Lake записываются более эффективным и будущим способом подтверждения.
Мы также выпускаем более быструю реализацию команды OPTIMIZE, что позволяет пропустить уже V-Упорядоченные файлы.
Поддержка моментальных снимков заданий записной книжки
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Эта функция позволяет пользователям просматривать моментальный снимок записной книжки во время его выполнения, что важно для мониторинга хода выполнения и устранения проблем с производительностью. Пользователи могут просматривать исходный исходный код, входные параметры и выходные данные ячеек, чтобы лучше понять задание Spark, и они могут отслеживать ход выполнения Spark на уровне ячейки. Пользователи также могут просмотреть выходные данные завершенных ячеек, чтобы проверить точность приложения Spark и оценить оставшуюся работу. Кроме того, отображаются все ошибки или исключения из уже выполненных ячеек, помогающие пользователям выявлять и устранять проблемы рано.
Поддержка RLS/CLS для Spark и Lakehouse
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общедоступная предварительная версия
Эта функция позволяет пользователям реализовывать политики безопасности для доступа к данным в подсистеме Spark. Пользователи могут определять безопасность на уровне объектов, строк или столбцов, обеспечивая защиту данных в соответствии с этими политиками при доступе через Fabric Spark и соответствует инициативе OneSecurity, включенной в Microsoft Fabric.
Соединитель Spark для хранилища данных Fabric — общая доступность
Предполагаемая временная шкала выпуска: Q1 2025
Тип выпуска: общая доступность
Соединитель Spark для хранилища данных Microsoft Fabric позволяет разработчикам Spark и специалистам по обработке и анализу данных получать доступ к данным из хранилища и конечной точки аналитики SQL в лейкхаусе. Он предлагает упрощенный API Spark, абстрагирует базовую сложность и работает только с одной строкой кода, сохраняя модели безопасности, такие как безопасность на уровне объектов (OLS), безопасность на уровне строк (RLS) и безопасность на уровне столбцов (CLS).
Отправленные функции
Возможность сортировки и фильтрации таблиц и папок в Lakehouse
Отправлено (Q4 2024)
Тип выпуска: общая доступность
Эта функция позволяет клиентам сортировать и фильтровать свои таблицы и папки в Lakehouse по нескольким различным методам, включая алфавитно, дату создания и многое другое.
Записные книжки в приложении
Отправлено (Q4 2024)
Тип выпуска: общедоступная предварительная версия
Приложения организации доступны как новый элемент в Fabric, и вы можете включать записные книжки вместе с отчетами и панелями мониторинга Power BI в приложениях Fabric и распространять их для бизнес-пользователей. Потребители приложений могут взаимодействовать с мини-приложениями и визуальными элементами в записной книжке в качестве альтернативного механизма создания отчетов и анализа данных. Это позволяет создавать и делиться богатыми и привлекательными историями с данными.
Расширение VSCode Core для Fabric
Отправлено (Q3 2024)
Тип выпуска: общедоступная предварительная версия
Расширение CORE VSCode для Fabric обеспечивает общую поддержку разработчиков для служб Fabric.
Записная книжка T-SQL
Отправлено (Q3 2024)
Тип выпуска: общедоступная предварительная версия
Записные книжки Fabric поддерживают язык T-SQL для использования данных в хранилище данных. Добавив конечную точку хранилища данных или аналитики SQL в записную книжку, разработчики T-SQL могут выполнять запросы непосредственно в подключенной конечной точке. Аналитики бизнес-аналитики также могут выполнять межбазовые запросы для сбора аналитических сведений из нескольких хранилищ и конечных точек аналитики SQL. Записные книжки T-SQL предлагают отличный вариант разработки существующих средств для пользователей SQL и включают собственные функции Fabric, например совместное использование, интеграцию GIT и совместную работу.
VS Code для Интернета — поддержка отладки
Отправлено (Q3 2024)
Тип выпуска: общедоступная предварительная версия
Visual Studio Code для Интернета в настоящее время поддерживается в предварительной версии для сценариев разработки и выполнения. Мы добавим в список возможностей возможность отладки кода с помощью этого расширения для записной книжки.
Высокая параллелизм в конвейерах
Отправлено (Q3 2024)
Тип выпуска: общая доступность
Помимо высокой параллелизма в записных книжках, мы также включите высокий параллелизм в конвейерах. Эта возможность позволяет запускать несколько записных книжек в конвейере с одним сеансом.
Поддержка схемы и рабочая область в пространстве имен в Lakehouse
Отправлено (Q3 2024)
Тип выпуска: общедоступная предварительная версия
Это позволит упорядочить таблицы с помощью схем и запросов данных в рабочих областях.
Подсистема машинного выполнения Spark
Отправлено (Q2 2024)
Тип выпуска: общедоступная предварительная версия
Собственный механизм выполнения — это улучшение выполнения заданий Apache Spark в Microsoft Fabric. Этот векторизованный механизм оптимизирует производительность и эффективность запросов Spark, выполняя их непосредственно в инфраструктуре Lakehouse. Простая интеграция подсистемы означает, что она не требует изменений кода и избегает блокировки поставщика. Он поддерживает API Apache Spark и совместим с средой выполнения 1.2 (Spark 3.4), а также работает с форматами Parquet и Delta. Независимо от расположения данных в OneLake или при доступе к данным с помощью сочетаний клавиш, собственный механизм выполнения обеспечивает максимальную эффективность и производительность.
Соединитель Spark для хранилища данных Fabric
Отправлено (Q2 2024)
Тип выпуска: общедоступная предварительная версия
Соединитель Spark для DW Fabric (хранилище данных) позволяет разработчику Spark или специалисту по обработке и анализу данных получать доступ к данным из хранилища данных Fabric с упрощенным API Spark, который буквально работает с одной строкой кода. Он предлагает возможность запрашивать данные параллельно из хранилища данных Fabric, чтобы масштабироваться с увеличением объема данных и учитывать модель безопасности (OLS/RLS/CLS), определенную на уровне хранилища данных при доступе к таблице или представлению. Этот первый выпуск будет поддерживать чтение только данных, и поддержка записи данных обратно скоро будет поступать.
API Microsoft Fabric для GraphQL
Отправлено (Q2 2024)
Тип выпуска: общедоступная предварительная версия
API для GraphQL позволит инженерам данных Fabric, ученым, архитекторам решений данных легко предоставлять и интегрировать данные Fabric, чтобы повысить скорость, производительность и широкие аналитические приложения, используя возможности и гибкость GraphQL.
Создание и присоединение сред
Отправлено (Q2 2024)
Тип выпуска: общая доступность
Чтобы настроить возможности Spark на более детальном уровне, можно создавать и присоединять среды к записным книжкам и заданиям Spark. В среде можно установить библиотеки, настроить новый пул, задать свойства Spark и отправить скрипты в файловую систему. Это обеспечивает большую гибкость и контроль над рабочими нагрузками Spark, не затрагивая параметры рабочей области по умолчанию. В рамках общедоступной версии мы делаем различные улучшения сред, включая поддержку API и интеграцию CI/CD.
Очередь заданий для заданий записной книжки
Отправлено (Q2 2024)
Тип выпуска: общая доступность
Эта функция позволяет запланированным записным книжкам Spark помещать в очередь, если использование Spark находится в максимальном количестве заданий, которые могут выполняться параллельно, а затем выполнять после удаления использования ниже максимального числа параллельных заданий, разрешенных.
Оптимистическое прием заданий для Fabric Spark
Отправлено (Q2 2024)
Тип выпуска: общая доступность
При приеме оптимистических заданий Fabric Spark резервирует минимальное количество ядер, которые нужно запустить задание, на основе минимального количества узлов, до которых задание может уменьшиться. Это позволяет принять больше заданий, если достаточно ресурсов для удовлетворения минимальных требований. Если задание должно увеличить масштаб позже, запросы на увеличение масштаба утверждены или отклонены на основе доступных ядер в емкости.
Автозапуск Spark
Отправлено (Q1 2024)
Тип выпуска: общедоступная предварительная версия
Autotune использует машинное обучение для автоматического анализа предыдущих запусков заданий Spark и настройки конфигураций для оптимизации производительности. Он настраивает секционирование, присоединение и чтение данных Spark. Таким образом, это значительно улучшит производительность. Мы видели, как задания клиентов выполняются быстрее с помощью этой возможности.