Поделиться через


Запустите файл на кластере или файл/ноутбук в качестве задания в Azure Databricks, используя расширение Databricks для Visual Studio Code

Расширение Databricks для Visual Studio Code позволяет запускать код на Python в кластере или выполнять код на Python, R, Scala или SQL или записную книжку в качестве задания в среде Azure Databricks.

Эта информация предполагает, что вы уже установили и настроили расширение Databricks для Visual Studio Code. См . раздел "Установка расширения Databricks" для Visual Studio Code.

Запуск файла Python в кластере

Примечание.

Эта функция недоступна при использовании бессерверных вычислений.

Чтобы запустить файл Python на кластере Azure Databricks с использованием расширения Databricks для Visual Studio Code, когда расширение и ваш проект открыты:

  1. Откройте файл Python, который требуется запустить в кластере.

  2. Выполните одно из следующих действий:

    • В строке заголовка редактора файлов щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Отправить и запустить файл".

      Отправка и запуск файла из значка

    • В представлении Проводник (Вид > Проводник) щелкните правой кнопкой мыши файл, а затем выберите Запустить на Databricks>Загрузить и запустить файл в контекстном меню.

      Отправка и запуск файла из контекстного меню

Файл выполняется в кластере и выходные данные доступны в консоли отладки (просмотр > консоли отладки).

Запуск файла Python в качестве задания

Чтобы запустить файл Python в качестве задания Azure Databricks с помощью расширения Databricks для Visual Studio Code, с расширением и открытым проектом:

  1. Откройте файл Python, который вы хотите запустить в качестве задания.

  2. Выполните одно из следующих действий:

    • В строке заголовка редактора файлов щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Запустить файл как рабочий процесс".

      Запуск файла в качестве рабочего процесса из значка

    • В представлении Проводник (Просмотр > Проводник) щелкните правой кнопкой мыши по файлу и выберите Запустить на Databricks>Запустить файл как процесс в контекстном меню.

      Запуск файла в качестве рабочего процесса из контекстного меню

Откроется новая вкладка редактора с названием Databricks Job Run. Файл выполняется как задание в рабочей области, и все выходные данные печатаются в новой области вывода вкладки редактора.

Чтобы просмотреть сведения о выполнении задания, щелкните ссылку Task run ID в новой вкладке редактора выполнения заданий Databricks. Откроется ваша рабочая область, где будут показаны подробности выполнения задания.

Запуск записной книжки Python, R, Scala или SQL в качестве задания

Чтобы запустить записную книжку в качестве задания Azure Databricks с помощью расширения Databricks для Visual Studio Code, с расширением и открытым проектом:

  1. Откройте записную книжку, которую вы хотите запустить в качестве задания.

    Совет

    Чтобы превратить python, R, Scala или SQL-файл в записную книжку Azure Databricks, добавьте комментарий # Databricks notebook source в начало файла и добавьте комментарий # COMMAND ---------- перед каждой ячейкой. Дополнительные сведения см. в статье "Импорт файла" и его преобразование в записную книжку.

    Файл кода Python, форматированный как записная книжка Databricks1

  2. Выполните одно из следующих действий:

    • В строке заголовка редактора записных книжек щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Запустить файл как рабочий процесс".

    Примечание.

    Если Запуск в Databricks как рабочий процесс недоступен, см. Создание настраиваемой конфигурации запуска.

    • В окне Проводник (Вид > Проводник) щелкните правой кнопкой мыши файл записной книжки и выберите Выполнить на Databricks>Запустить файл как рабочий процесс из контекстного меню.

Откроется новая вкладка редактора с названием Databricks Job Run. Блокнот выполняется как задание в рабочей области. Записная книжка и её выходные данные отображаются в новой вкладке редактора в области вывода.

Чтобы просмотреть сведения о выполнении задания, щелкните ссылку идентификатор выполнения задачи на вкладке Databricks Job Run в редакторе. Откроется ваша рабочая область, и в ней будут отображены подробности выполнения задания.

Создание настраиваемой конфигурации запуска

Настраиваемая конфигурация запуска для расширения Databricks для Visual Studio Code позволяет передавать пользовательские аргументы в задание или записную книжку или создавать различные параметры выполнения для разных файлов.

Чтобы создать настраиваемую конфигурацию запуска, нажмите кнопку "Выполнить > добавление конфигурации " в главном меню в Visual Studio Code. Затем выберите Databricks для конфигурации запуска на основе кластера или Databricks: рабочий процесс для конфигурации запуска на основе заданий.

Например, следующая настраиваемая конфигурация выполнения изменяет команду выполнить файл как рабочий процесс, чтобы передать аргумент --prod в задание:

{
  "version": "0.2.0",
  "configurations": [
    {
      "type": "databricks-workflow",
      "request": "launch",
      "name": "Run on Databricks as Workflow",
      "program": "${file}",
      "parameters": {},
      "args": ["--prod"]
    }
  ]
}

Совет

Добавьте "databricks": true в вашу конфигурацию "type": "python", если вы хотите использовать конфигурацию Python и воспользоваться аутентификацией Databricks Connect, которая является частью установки расширения.

С помощью пользовательских конфигураций запуска можно также передать аргументы командной строки и запустить код, просто нажав клавишу F5. Более подробную информацию см. в разделе «Конфигурации запуска» в документации по Visual Studio Code.