Megosztás a következőn keresztül:


Jobs API 2.0

Fontos

Ez a cikk a Jobs API 2.0-s verzióját ismerteti. A Databricks azonban azt javasolja, hogy az új és a már meglévő ügyfelekhez és szkriptekhez a Jobs API 2.2-t használják. A Jobs API 2.2-es verziójának változásairól további információt a Frissítés a Jobs API 2.1-ről 2.2-es verzióracímű témakörben talál.

A Feladatok API-val feladatokat hozhat létre, szerkeszthet és törölhet. A Feladatok API-nak küldött kérések maximális mérete 10 MB.

További információkért a Jobs API újabb verzióinak frissített funkcióiról, lásd a Frissítés a Jobs API 2.0-ról 2.1-re és a Frissítés a Jobs API 2.1-ről 2.2-rerészt.

Figyelmeztetés

A titkokat soha nem szabad kódba égetni, vagy egyszerű szövegben tárolni. A Titkos kódok API-val kezelheti a titkos kulcsokat a Databricks parancssori felületén. A Titkos kulcsok segédprogrammal (dbutils.secrets) jegyzetfüzetekben és feladatokban lévő titkos kulcsokra hivatkozhat.

Feljegyzés

Ha a Jobs API-kérések végrehajtásakor 500-as szintű hibaüzenet jelenik meg, a Databricks azt javasolja, hogy legfeljebb 10 percig próbálkozzon újra a kérelmekkel (az újrapróbálkozások között legalább 30 másodperces időközzel).

Fontos

A Databricks REST API-k eléréséhez hitelesítenie kell.

Hozz létre

Végpont HTTP-metódus
2.0/jobs/create POST

Hozzon létre egy új feladatot.

Példa

Ez a példa létrehoz egy feladatot, amely minden este 10:15-kor jar-feladatot futtat.

Kérés

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .

create-job.json:

{
  "name": "Nightly model training",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "timeout_seconds": 3600,
  "max_retries": 1,
  "schedule": {
    "quartz_cron_expression": "0 15 22 * * ?",
    "timezone_id": "America/Los_Angeles"
  },
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • A(z) create-job.json tartalma a megoldásnak megfelelő mezők.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "job_id": 1
}

Kérelemstruktúra

Fontos

  • Amikor egy feladatot futtat egy új feladatfürtön, a feladatot automatizált feladatként kezelik, ami a Jobs Compute árazás szerint kerül díjazásra.
  • Ha egy feladatot egy meglévő, teljes célú fürtön futtat, a rendszer minden célú számítási (interaktív) számítási feladatként kezeli, amely a teljes célú számítási díjszabás hatálya alá tartozik.
Mező neve Típus Leírás
existing_cluster_id VAGY new_cluster STRING vagy NewCluster Ha van existing_cluster_id, akkor a feladat összes futtatásához használt meglévő fürt ID-je. Ha feladatokat futtat egy meglévő fürtön, előfordulhat, hogy manuálisan kell újraindítania a fürtöt, ha az nem válaszol. Javasoljuk, hogy a nagyobb megbízhatóság érdekében futtasson feladatokat új klasztereken.
Ha van new_cluster, akkor az egyes futtatásokhoz létrehozandó fürt leírása.
PipelineTask megadása esetén ez a mező üres lehet.
notebook_task VAGY spark_jar_task
spark_python_task VAGY spark_submit_task
pipeline_task VAGY run_job_task
NotebookTask VAGY SparkJarTask VAGY SparkPythonTask VAGY SparkSubmitTask VAGY PipelineTask VAGY RunJobTask Ha notebook_task, azt jelzi, hogy ennek a feladatnak jegyzetfüzetet kell futtatnia. Ez a mező nem adható meg a spark_jar_task együtt.
Ha spark_jar_task, azt jelzi, hogy ennek a feladatnak JAR-t kell futtatnia.
Ha spark_python_task, azt jelzi, hogy a feladatnak Python-fájlt kell futtatnia.
Ha spark_submit_task, azt jelzi, hogy ezt a feladatot a spark submit szkriptnek kell elindítania.
Ha pipeline_task, azt jelzi, hogy ennek a feladatnak DLT-folyamatot kell futtatnia.
Ha run_job_task, azt jelzi, hogy ennek a feladatnak egy másik feladatot kell futtatnia.
name STRING Egy nem kötelező név a munka számára. Az alapértelmezett érték Untitled.
libraries Egy tömb a Könyvtár-ból A feladatot végrehajtó fürtre telepíteni kívánt kódtárak választható listája. Az alapértelmezett érték egy üres lista.
email_notifications MunkaEmailÉrtesítések A feladat futtatásakor és befejezésekor, valamint a feladat törlésekor értesített e-mail-címek választható készlete. Az alapértelmezett viselkedés az, hogy nem küld e-maileket.
webhook_notifications WebhookÉrtesítések Választható rendszercélok készlete, amely értesíti, ha a feladat futtatásai elindulnak, befejeződnek vagy sikertelenek lesznek.
notification_settings Állásértesítési beállítások Opcionális értesítési beállítások, amelyeket az email_notifications és webhook_notifications értesítések küldésekor használnak ehhez a feladathoz.
timeout_seconds INT32 Minden egyes futtatáshoz egy opcionális időkorlát van alkalmazva. Az alapértelmezett viselkedés az, hogy nincs időtúllépés.
max_retries INT32 Egy nem kötelezően megadható maximális szám a sikertelen futtatás újrapróbálkozásainak. A futtatás sikertelennek minősül, ha "FAILED result_state"-tel végződik, vagy
INTERNAL_ERROR
life_cycle_state. A -1 érték azt jelenti, hogy határozatlan ideig újra próbálkozik, a 0 érték pedig azt jelenti, hogy soha nem próbálkozik újra. Az alapértelmezett viselkedés az, hogy soha ne próbálkozzon újra.
min_retry_interval_millis INT32 Opcionális minimális intervallum ezredmásodpercben a sikertelen futtatás kezdete és az azt követő újrapróbálkozási futtatás között. Az alapértelmezett viselkedés az, hogy a sikertelen futtatásokat azonnal ismételten futtatják.
retry_on_timeout BOOL Nem kötelező házirend, amely meghatározza, hogy újrapróbálkozjon-e egy feladat, amikor az túllépi az időkorlátot. Az alapértelmezett viselkedés az, hogy ne próbálkozzon újra időtúllépéskor.
schedule CronSchedule Ennek a feladatnak az opcionális időszakos ütemezése. Az alapértelmezett viselkedés az, hogy a feladat akkor fut, amikor a Feladatok felhasználói felületén a Futtatás most gombra kattint, vagy amikor egy API-kérést küldenek a runNow.
max_concurrent_runs INT32 A munka egyidejű futtatásainak opcionális, megengedett maximális száma.
Állítsa be ezt az értéket, ha egyszerre több futtatás is végrehajtható ugyanabból a feladatból. Ez akkor hasznos, ha a feladatot gyakran ütemezve aktiválja, és engedélyezni szeretné, hogy az egymást követő futtatások átfedésben legyenek egymással, vagy ha több, a bemeneti paraméterektől eltérő futtatásokat szeretne aktiválni.
Ez a beállítás csak az új futtatásokat érinti. Tegyük fel például, hogy a feladat párhuzamossága 4-es, és 4 párhuzamos aktív futás zajlik. Ha az egyidejűséget 3-ra állítja, az nem állít le egyetlen aktív feladatot sem. Ettől kezdve azonban az új futtatások kihagyásra kerülnek, hacsak nincs kevesebb mint 3 aktív futtatás.
Ez az érték nem haladhatja meg az 1000-et. Ha ezt az értéket 0 értékre állítja, az összes új futtatást kihagyja. Az alapértelmezett viselkedés az, hogy csak 1 egyidejű futtatás engedélyezett.

Válaszstruktúra

Mező neve Típus Leírás
job_id INT64 Az újonnan létrehozott feladat kanonikus azonosítója.

lista

Végpont HTTP-metódus
2.0/jobs/list GET

Az összes feladat listázása.

Példa

Kérés

curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .

Cserélje le a <databricks-instance> sztringet az Azure Databricks munkaterület példányának nevére, például a adb-1234567890123456.7.azuredatabricks.net.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "jobs": [
    {
      "job_id": 1,
      "settings": {
        "name": "Nightly model training",
        "new_cluster": {
          "spark_version": "7.3.x-scala2.12",
          "node_type_id": "Standard_D3_v2",
          "num_workers": 10
        },
        "libraries": [
          {
            "jar": "dbfs:/my-jar.jar"
          },
          {
            "maven": {
              "coordinates": "org.jsoup:jsoup:1.7.2"
            }
          }
        ],
        "timeout_seconds": 100000000,
        "max_retries": 1,
        "schedule": {
          "quartz_cron_expression": "0 15 22 * * ?",
          "timezone_id": "America/Los_Angeles",
          "pause_status": "UNPAUSED"
        },
        "spark_jar_task": {
          "main_class_name": "com.databricks.ComputeModels"
        }
      },
      "created_time": 1457570074236
    }
  ]
}

Válaszstruktúra

Mező neve Típus Leírás
jobs Egy Munka tömb A feladatok listája.

Töröl

Végpont HTTP-metódus
2.0/jobs/delete POST

Feladat törlése és e-mail küldése a megadott JobSettings.email_notificationscímekre. Nem történik művelet, ha a feladat már el lett távolítva. A feladat eltávolítása után sem a részletei, sem a futtatási előzményei nem láthatók a Feladatok felhasználói felületén vagy API-jában. A feladat garantáltan el lesz távolítva a kérés befejezésekor. Azonban a kérés beérkezése előtt már aktív folyamatok továbbra is folytatódhatnak. A rendszer aszinkron módon leállítja őket.

Példa

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <job-id> például a feladat 123azonosítójával.

Ez a példa egy .netrc-fájlt használ.

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64 A törölni kívánt feladat kanonikus azonosítója. Ez a mező kötelező.

Letöltése

Végpont HTTP-metódus
2.0/jobs/get GET

Egyetlen munkafeladat adatainak lekérése.

Példa

Kérés

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .

Vagy:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <job-id> például a feladat 123azonosítójával.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "job_id": 1,
  "settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  },
  "created_time": 1457570074236
}

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64 Az a feladat kanonikus azonosítója, amelyről információkat szeretne lekérni. Ez a mező kötelező.

Válaszstruktúra

Mező neve Típus Leírás
job_id INT64 A feladat kanonikus azonosítója.
creator_user_name STRING A létrehozó felhasználóneve. Ez a mező nem fog szerepelni a válaszban, ha a felhasználót törölték.
settings JobSettings A feladathoz és annak összes futtatásához tartozó beállítások. Ezek a beállítások frissíthetők az Alaphelyzetbe állítás vagy Frissítés végpontok használatával.
created_time INT64 A feladat létrehozásának időpontja ezredmásodpercben (ezredmásodpercben, 1970. 01. 01. (UTC) óta).

Alaphelyzetbe állítás

Végpont HTTP-metódus
2.0/jobs/reset POST

Felülírja egy adott feladat összes beállítását. A feladatbeállítások részleges frissítéséhez használja a Update végpontot.

Példa

Ez a példakérés a 2. feladatot azonosvá teszi a létrehozási példában szereplő 1. feladatéval.

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .

reset-job.json:

{
  "job_id": 2,
  "new_settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  }
}

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • A reset-job.json tartalma a megoldásnak megfelelő mezőkkel.

Ez a példa . netrc-fájlt és jq-t használ.

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64 Az alaphelyzetbe állítani kívánt feladat kanonikus azonosítója. Ez a mező kötelező.
new_settings JobSettings A feladat új beállításai. Ezek a beállítások teljesen felülírják a régi beállításokat.
A mező JobSettings.timeout_seconds módosításai aktív futtatásokra lesznek alkalmazva. A többi mező módosításai csak a jövőbeli futtatásokra lesznek alkalmazva.

frissítés

Végpont HTTP-metódus
2.0/jobs/update POST

Meglévő feladat adott beállításainak hozzáadása, módosítása vagy eltávolítása. Az Visszaállítás végpont használatával írja felül az összes feladatbeállítást.

Példa

Ez a példakérés eltávolítja a kódtárakat, és e-mail-értesítési beállításokat ad hozzá a létrehozási példában definiált 1. feladathoz.

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .

update-job.json:

{
  "job_id": 1,
  "new_settings": {
    "existing_cluster_id": "1201-my-cluster",
    "email_notifications": {
      "on_start": ["someone@example.com"],
      "on_success": [],
      "on_failure": []
    }
  },
  "fields_to_remove": ["libraries"]
}

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • Az update-job.json tartalma, amely tartalmazza a megoldásodnak megfelelő mezőket.

Ez a példa . netrc-fájlt és jq-t használ.

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64 A frissítendő feladat kanonikus azonosítója. Ez a mező kötelező.
new_settings JobSettings A feladat új beállításai.
A tömbök kivételével a legfelső new_settingsszintű mezők teljesen lecserélődnek. A tömbök egyesítése a megfelelő kulcsmezők, például task_key, alapján történik.
job_cluster_key, és az azonos kulccsal rendelkező tömbbejegyzések teljes mértékben lecserélődnek. A tömbegyesítés kivételével a beágyazott mezők részleges frissítése nem támogatott.
A mező JobSettings.timeout_seconds módosításai aktív futtatásokra lesznek alkalmazva. A többi mező módosításai csak a jövőbeli futtatásokra lesznek alkalmazva.
fields_to_remove Egy tömb STRING Távolítsa el a felső szintű mezőket a feladatbeállítások között. A beágyazott mezők eltávolítása nem támogatott, kivéve a tasks és job_clusters tömbök bejegyzéseit. Például a következő argumentum érvényes a mezőhöz:
["libraries", "schedule", "tasks/task_1", "job_clusters/Default"]
A mező nem kötelező.

Indíts most

Fontos

  • Egy munkaterület legfeljebb 1000 egyidejű tevékenységfuttatásra korlátozódik. 429 Too Many Requests válasz jelenik meg, ha olyan futtatást kér, amelyet a rendszer nem tud azonnal elindítani.
  • Egy munkaterület által egy óra alatt létrehozható feladatok száma legfeljebb 10,000 (beleértve a 'futtatások elküldését'). Ez a korlát a REST API és a jegyzetfüzet munkafolyamatai által létrehozott feladatokat is érinti.
  • Egy munkaterület legfeljebb 12000 mentett feladatot tartalmazhat.
  • Egy feladat legfeljebb 100 tevékenységet tartalmazhat.
Végpont HTTP-metódus
2.0/jobs/run-now POST

Futtasson most egy feladatot, és adja vissza a lefuttatott feladat run_id-jét.

Tipp.

Ha használja a Create és Run nowfunkciókat együtt, akkor használhatja a Futtatások küldése végpontot, amely lehetővé teszi a számítási feladat közvetlen elküldését anélkül, hogy feladatot kellene létrehoznia.

Példa

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .

run-job.json:

Egy példa egy jegyzetfüzet-feladatra:

{
  "job_id": 1,
  "notebook_params": {
    "name": "john doe",
    "age": "35"
  }
}

Egy JAR-feladatra vonatkozó példakérés:

{
  "job_id": 2,
  "jar_params": ["john doe", "35"]
}

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • A run-job.json tartalma a megoldásnak megfelelő mezőkkel.

Ez a példa . netrc-fájlt és jq-t használ.

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64
jar_params Egy tömb STRING Jar-feladatokkal rendelkező feladatok paramétereinek listája, például "jar_params": ["john doe", "35"]. A paraméterek a Spark JAR-feladatban megadott főosztály fő függvényének meghívására szolgálnak. Ha nincs megadva run-now, akkor az alapértelmezés szerint üres lista lesz. A jar_params nem adhatók meg a notebook_params-szal együtt. A mező JSON-ábrázolása (azaz {"jar_params":["john doe","35"]}) nem haladhatja meg a 10 000 bájtot.
notebook_params ParamPair térképe Térkép a kulcsoktól az értékekig a jegyzetfüzet-feladattal rendelkező feladatokhoz, például:
"notebook_params": {"name": "john doe", "age": "35"}. A térképet a program átadja a jegyzetfüzetnek, és a dbutils.widgets.get függvényen keresztül érhető el.
Ha nincs megadva run-now, az aktivált futtatás a feladat alapparamétereit használja.
Nem adhatja meg a notebook_params-t a jar_params-szal együtt.
A mező JSON-reprezentációja (azaz
{"notebook_params":{"name":"john doe","age":"35"}}) nem haladhatja meg a 10 000 bájtot.
python_params Egy tömb STRING A Python-feladatokat tartalmazó feladatok paramétereinek listája, például "python_params": ["john doe", "35"]. A paraméterek parancssori paraméterekként lesznek átadva a Python-fájlnak. Ha run-nowvan megadva, felülírja a feladatbeállításban megadott paramétereket. A mező JSON-ábrázolása (azaz {"python_params":["john doe","35"]}) nem haladhatja meg a 10 000 bájtot.
spark_submit_params Egy tömb STRING A Spark-küldési tevékenységgel rendelkező feladatok paramétereinek listája, például:
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. A paraméterek parancssori paraméterekként lesznek átadva a spark-submit szkriptnek. Ha run-nowvan megadva, felülírja a feladatbeállításban megadott paramétereket. A mező JSON-ábrázolása nem haladhatja meg a 10 000 bájtot.
idempotency_token STRING Opcionális token az idempotens feladatindítási kérelmek garantálásához. Ha már létezik futtatás a megadott jogkivonattal, a kérés nem hoz létre új futtatásokat, hanem a meglévő futtatás azonosítóját adja vissza. Ha a megadott jogkivonattal rendelkező futtatás törlődik, a rendszer hibát ad vissza.
Ha megadja az idempotencia-kulcsot, kudarc esetén ismét próbálkozhat, amíg a kérés sikerrel nem jár. Az Azure Databricks garantálja, hogy pontosan egy futtatás indul el ezzel az idempotencia-jogkivonattal.
Ez a token legfeljebb 64 karakter hosszú lehet.
További információ: A feladatok idempotensségének biztosítása.

Válaszstruktúra

Mező neve Típus Leírás
run_id INT64 Az újonnan aktivált futtatás globálisan egyedi azonosítója.
number_in_job INT64 A futtatás sorrendje a feladat összes futtatása között.

Futtatások beküldése

Fontos

  • Egy munkaterület legfeljebb 1000 egyidejű tevékenységfuttatásra korlátozódik. 429 Too Many Requests válasz jelenik meg, ha olyan futtatást kér, amelyet a rendszer nem tud azonnal elindítani.
  • A munkaterület egy órán belül létrehozható feladatainak száma legfeljebb 10000 lehet (beleértve a "futtatások elküldését"). Ez a korlát a REST API és a jegyzetfüzet munkafolyamatai által létrehozott feladatokat is érinti.
  • Egy munkaterület legfeljebb 12000 mentett feladatot tartalmazhat.
  • Egy feladat legfeljebb 100 tevékenységet tartalmazhat.
Végpont HTTP-metódus
2.0/jobs/runs/submit POST

Egyszeri futtatás benyújtása. Ez a végpont lehetővé teszi, hogy közvetlenül, feladat létrehozása nélkül küldje el a számítási feladatokat. jobs/runs/get Az API használatával ellenőrizze a futtatási állapotot a feladat elküldése után.

Példa

Kérés

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .

submit-job.json:

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • A megoldásnak megfelelő mezőket tartalmazó submit-job.json tartalma.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "run_id": 123
}

Kérelemstruktúra

Fontos

  • Amikor egy feladatot egy új feladatfürtön futtat, a feladatot automatizált Jobs Compute munkaterhelésként kezelik, amely a Jobs Compute díjszabás alá tartozik.
  • Ha egy feladatot egy meglévő, teljes célú fürtön futtat, a rendszer minden célú számítási (interaktív) számítási feladatként kezeli, amely a teljes célú számítási díjszabás hatálya alá tartozik.
Mező neve Típus Leírás
existing_cluster_id VAGY new_cluster STRING VAGY NewCluster Ha létezik existing_cluster_id, akkor a meglévő fürt ID-je, amelyet a feladat összes futtatásához használunk. Ha feladatokat futtat egy meglévő fürtön, előfordulhat, hogy manuálisan kell újraindítania a fürtöt, ha az nem válaszol. Javasoljuk, hogy a nagyobb megbízhatóság érdekében új fürtökön futtassa a feladatokat.
Ha van new_cluster, akkor az egyes futtatásokhoz létrehozandó fürt leírása.
PipelineTask megadása esetén ez a mező üres lehet.
notebook_task VAGY spark_jar_task
spark_python_task VAGY spark_submit_task
pipeline_task VAGY run_job_task
NotebookTask VAGY SparkJarTask VAGY SparkPythonTask VAGY SparkSubmitTask VAGY PipelineTask VAGY RunJobTask Ha notebook_task, azt jelzi, hogy ennek a feladatnak jegyzetfüzetet kell futtatnia. Ez a mező nem adható meg a spark_jar_task együtt.
Ha spark_jar_task, azt jelzi, hogy ennek a feladatnak JAR-t kell futtatnia.
Ha spark_python_task, azt jelzi, hogy a feladatnak Python-fájlt kell futtatnia.
Ha spark_submit_task, azt jelzi, hogy ezt a feladatot a spark submit szkriptnek kell elindítania.
Ha pipeline_task, azt jelzi, hogy ennek a feladatnak DLT-folyamatot kell futtatnia.
Ha run_job_task, azt jelzi, hogy ennek a feladatnak egy másik feladatot kell futtatnia.
run_name STRING A futtatás neve (választható). Az alapértelmezett érték Untitled.
webhook_notifications WebhookÉrtesítések Választható rendszercélok készlete, amely értesíti, ha a feladat futtatásai elindulnak, befejeződnek vagy sikertelenek lesznek.
notification_settings Állásértesítési beállítások Opcionális értesítési beállítások, amelyeket az egyes webhook_notifications értesítések küldésénél használunk ezen futtatás során.
libraries Egy tömb a Könyvtár-ból Azoknak a könyvtáraknak az opcionális listája, amelyeket a feladatot végrehajtó fürtre szeretnénk telepíteni. Az alapértelmezett érték egy üres lista.
timeout_seconds INT32 Minden egyes feladat futtatásához alkalmazható opcionális időkorlát. Az alapértelmezett viselkedés az, hogy nincs időtúllépés.
idempotency_token STRING Opcionális token az idempotencia biztosítását szolgáló feladatindítási kérelmek garantálásához. Ha már létezik futtatás a megadott jogkivonattal, a kérés nem hoz létre új futtatásokat, hanem a meglévő futtatás azonosítóját adja vissza. Ha a megadott jogkivonattal rendelkező futtatás törlődik, a rendszer hibát ad vissza.
Ha megadja az idempotencia tokent, kudarc esetén újrapróbálkozhat, amíg a kérés sikerrel nem jár. Az Azure Databricks garantálja, hogy pontosan egy futtatás indul el ezzel az idempotencia-jogkivonattal.
Ennek a tokennek legfeljebb 64 karakter hosszúságúnak kell lennie.
További információ: A feladatok idempotensségének biztosítása.

Válaszstruktúra

Mező neve Típus Leírás
run_id INT64 Az újonnan beküldött futtatás kanonikus azonosítója.

futtatások listája

Végpont HTTP-metódus
2.0/jobs/runs/list GET

A lista a kezdési időpont szerint csökkenő sorrendben fut.

Megjegyzés

A futtatások 60 nap után automatikusan törlődnek. Ha 60 nap elteltével is hivatkozni szeretne rájuk, mentse el a régi futási eredményeket, mielőtt lejárnának. A felhasználói felülettel való exportáláshoz lásd : Feladatfuttatási eredmények exportálása. A Jobs API használatával történő exportáláshoz lásd Export futtatások.

Példa

Kérés

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

Vagy:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

Csere:

  • <databricks-instance>az Azure Databricks munkaterületpéldány nevével, például adb-1234567890123456.7.azuredatabricks.net.
  • <job-id> például a feladat 123azonosítójával.
  • "<true-false> vagy true vagy false".
  • <offset> az offset értékkel.
  • <limit> az limit értékkel.
  • <run-type> az run_type értékkel.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "runs": [
    {
      "job_id": 1,
      "run_id": 452,
      "number_in_job": 5,
      "state": {
        "life_cycle_state": "RUNNING",
        "state_message": "Performing action"
      },
      "task": {
        "notebook_task": {
          "notebook_path": "/Users/donald@duck.com/my-notebook"
        }
      },
      "cluster_spec": {
        "existing_cluster_id": "1201-my-cluster"
      },
      "cluster_instance": {
        "cluster_id": "1201-my-cluster",
        "spark_context_id": "1102398-spark-context-id"
      },
      "overriding_parameters": {
        "jar_params": ["param1", "param2"]
      },
      "start_time": 1457570074236,
      "end_time": 1457570075149,
      "setup_duration": 259754,
      "execution_duration": 3589020,
      "cleanup_duration": 31038,
      "run_duration": 3879812,
      "trigger": "PERIODIC"
    }
  ],
  "has_more": true
}

Kérelemstruktúra

Mező neve Típus Leírás
active_only VAGY completed_only BOOL VAGY BOOL Ha active_only van true, csak az aktív futtatások szerepelnek az eredmények között, ellenkező esetben az aktív és a befejezett futtatások is szerepelnek. Az aktív futtatás egy futtatás a PENDING, RUNNING, vagy TERMINATINGRunLifecycleState állapotban. Ez a mező nem lehet true, ha a completed_only true van beállítva.
Ha completed_only van true, csak a befejezett futtatások szerepelnek az eredményekben, ellenkező esetben az aktív és a befejezett futtatások is szerepelnek. Ez a mező nem lehet true akkor, ha active_only van true.
job_id INT64 Az a feladat, amelyhez a futásokat listázni kell. Ha nincs megadva, a Feladatkezelő szolgáltatás minden munkamenetből listázni fogja a futtatásokat.
offset INT32 Az első visszatérési futtatás eltolása a legutóbbi futtatáshoz képest.
limit INT32 A visszaadandó futtatások száma. Ennek az értéknek 0-nál nagyobbnak és 1000-nél kisebbnek kell lennie. Az alapértelmezett érték 20. Ha egy kérelem 0-s korlátot ad meg, a szolgáltatás ehelyett a maximális korlátot fogja használni.
run_type STRING A visszaadandó futások típusa. A futtatási típusok leírását a Futtatás című témakörben találhatja meg.

Válaszstruktúra

Mező neve Típus Leírás
runs Egy tömb Run A futtatások listája az utoljára elkezdettől a legkorábban elkezdettig.
has_more BOOL Ha igaz, további eredmények, amelyek megfelelnek a megadott szűrőnek, elérhetők a listázáshoz.

Futtatások indítása

Végpont HTTP-metódus
2.0/jobs/runs/get GET

Lekérheti egy futtatás metaadatait.

Megjegyzés

A futtatások 60 nap után automatikusan törlődnek. Ha 60 napnál tovább szeretne rájuk hivatkozni, mentse el korábbi futtatási eredményeket, mielőtt lejárnak. A felhasználói felülettel való exportáláshoz lásd : Feladatfuttatási eredmények exportálása. A Jobs API használatával történő exportáláshoz lásd Futtatások exportálása.

Példa

Kérés

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .

Vagy:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .

Csere:

  • <databricks-instance> az Azure Databricks munkaterület példa neve szerint, például adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> a futtatás azonosítójával, például 123.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "job_id": 1,
  "run_id": 452,
  "number_in_job": 5,
  "state": {
    "life_cycle_state": "RUNNING",
    "state_message": "Performing action"
  },
  "task": {
    "notebook_task": {
      "notebook_path": "/Users/someone@example.com/my-notebook"
    }
  },
  "cluster_spec": {
    "existing_cluster_id": "1201-my-cluster"
  },
  "cluster_instance": {
    "cluster_id": "1201-my-cluster",
    "spark_context_id": "1102398-spark-context-id"
  },
  "overriding_parameters": {
    "jar_params": ["param1", "param2"]
  },
  "start_time": 1457570074236,
  "end_time": 1457570075149,
  "setup_duration": 259754,
  "execution_duration": 3589020,
  "cleanup_duration": 31038,
  "run_duration": 3879812,
  "trigger": "PERIODIC"
}

Kérelemstruktúra

Mező neve Típus Leírás
run_id INT64 Az a futtatás kanonikus azonosítója, amelynek a metaadatait le szeretné kérni. Ez a mező kötelező.

Válaszstruktúra

Mező neve Típus Leírás
job_id INT64 A futtatást tartalmazó feladat kanonikus azonosítója.
run_id INT64 A futtatás kanonikus azonosítója. Ez az azonosító az összes feladat összes futtatása során egyedi.
number_in_job INT64 A futtatás sorrendje a feladat összes futtatása között. Ez az érték 1-nél kezdődik.
original_attempt_run_id INT64 Ha ez a futtatás egy korábbi futtatási kísérlet újrapróbálkozása, akkor ez a mező az eredeti kísérlet run_id tartalmazza; ellenkező esetben ugyanaz, mint a run_id.
state RunState A futtatás eredménye és életciklus-állapotai.
schedule CronSchedule A futást aktiváló cron-ütemezés, ha azt a rendszeres ütemező aktiválta.
task JobTask A futtatás által végrehajtott feladat, ha van ilyen.
cluster_spec ClusterSpec Pillanatkép a feladat klaszter specifikációjáról a futtatás létrehozásának időpontjában.
cluster_instance ClusterInstance A futtatáshoz használt klaszter. Ha a futtatás új fürt használatát igényli, akkor ez a mező akkor kerül beállításra, amikor a Jobs szolgáltatás már kért egy fürtöt a futtatáshoz.
overriding_parameters RunParameters A futtatáshoz használt paraméterek.
start_time INT64 A futás kezdetének időpontja ezredmásodpercben (ezredmásodperc 1970. 01. 01. (UTC) óta). Lehet, hogy nem ez az az időpont, amikor a feladat végrehajtása elkezdődik, például ha a feladat egy új fürtre van ütemezve, akkor ebben az időben kerül sor a fürtlétrehozási hívásra.
end_time INT64 Az időpont, amikor ez a futtatás az időtartam szerinti ezredmásodpercben végződött (1970. 01. 01. (UTC) óta eltelt ezredmásodpercek). Ez a mező 0 értékre lesz állítva, ha a feladat még fut.
setup_duration INT64 A klaszter beállításához szükséges idő ezredmásodpercben. Az új fürtökön futó feladatok esetében ez a fürtlétrehozási idő, a meglévő fürtökön futó feladatok esetében ez az idő nagyon rövid. A futtatás teljes időtartama az setup_duration összege.
execution_duration és a cleanup_duration. A setup_duration mező 0 értékre van állítva többfeladatos feladatok futtatása esetén. A többfeladatos feladatfuttatás teljes időtartama a
run_duration mező.
execution_duration INT64 Az ezredmásodpercben mért idő, amely alatt a JAR-ban vagy a jegyzetfüzetben lévő parancsok végrehajtódtak, befejeződtek, meghiúsultak, időtúllépést szenvedtek el, megszakításra kerültek, vagy váratlan hibába ütköztek. A futtatás teljes időtartama az setup_duration, execution_duration és a összege.
cleanup_duration. A execution_duration mező 0 értékre van állítva többfeladatos feladatok futtatása esetén. A többfeladatos feladatfuttatás teljes időtartama a run_duration mező értéke.
cleanup_duration INT64 Az az idő ezredmásodpercben, amely a fürt leállításához és a hozzá kapcsolódó artefaktumok eltávolításához szükséges volt. A futtatás teljes időtartama a setup_duration, a execution_duration, és a cleanup_duration összege. A cleanup_duration mező 0 értékre van állítva többfeladatos feladatok futtatása esetén. A többfeladatos feladatfuttatás teljes időtartama a run_duration mező értéke.
run_duration INT64 Az idő ezredmásodpercben, amely alatt a feladat és az összes javítás befejeződött. Ez a mező csak többfeladatos munkafuttatásokhoz van beállítva, nem pedig egyszerű feladatfuttatásokhoz. A feladat futásának teljes időtartama az összeg.
setup_duration, execution_duration és a cleanup_duration.
trigger TriggerType A futtatás indítását kiváltó eseményindító típusa.
creator_user_name STRING A létrehozó felhasználóneve. Ez a mező nem fog szerepelni a válaszban, ha a felhasználót törölték
run_page_url STRING A futtatás részletező oldalának URL-je.

Exportálás futtatása

Végpont HTTP-metódus
2.0/jobs/runs/export GET

A feladatfuttatási munkamenet exportálása és visszakeresése.

Feljegyzés

Csak a jegyzetfüzet-futtatások exportálhatók HTML formátumban. Más típusú futtatások exportálása sikertelen lesz.

Példa

Kérés

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .

Vagy:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <run-id> a futtatás azonosítójával, például 123 .

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "views": [
    {
      "content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
      "name": "my-notebook",
      "type": "NOTEBOOK"
    }
  ]
}

A HTML-jegyzetfüzet JSON-válaszból való kinyeréséhez töltse le és futtassa ezt a Python-szkriptet.

Feljegyzés

A jegyzetfüzettörzs az __DATABRICKS_NOTEBOOK_MODEL objektumban kódolva van.

Kérelemstruktúra

Mező neve Típus Leírás
run_id INT64 A futtatás kanonikus azonosítója. Ez a mező kötelező.
views_to_export Exportálandó nézetek Mely nézeteket szeretne exportálni (CODE, DASHBOARDS vagy ALL). Alapértelmezés szerint Code.

Válaszstruktúra

Mező neve Típus Leírás
views A ViewItem tömbje Az exportált tartalom HTML formátumban (minden nézetelemhez egyet).

Futtatások megszakítása

Végpont HTTP-metódus
2.0/jobs/runs/cancel POST

Feladatfuttatás megszakítása. Mivel a futtatás aszinkron módon van megszakítva, előfordulhat, hogy a futtatás a kérés befejeződésekor is fut. A futtatás hamarosan befejeződik. Ha a futtatás már egy terminálban life_cycle_state van, ez a módszer nem hajt végre műveletet.

Ez a végpont ellenőrzi, hogy a run_id paraméter érvényes-e, és érvénytelen paraméterek esetén a 400-ás HTTP-állapotkódot adja vissza.

Példa

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <run-id> a futtatás azonosítójával, például 123.

Ez a példa egy .netrc-fájlt használ.

Kérelemstruktúra

Mező neve Típus Leírás
run_id INT64 A megszakítandó futtatás kanonikus azonosítója. Ez a mező kötelező.

Az összes futtatás megszakítása

Végpont HTTP-metódus
2.0/jobs/runs/cancel-all POST

Egy feladat összes aktív munkamenetének megszakítása. Mivel a futtatás aszinkron módon van megszakítva, nem akadályozza meg az új futtatások indítását.

Ez a végpont ellenőrzi, hogy a job_id paraméter érvényes-e, és érvénytelen paraméterek esetén a 400-ás HTTP-állapotkódot adja vissza.

Példa

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <job-id> például a feladat 123azonosítójával.

Ez a példa egy .netrc-fájlt használ.

Kérelemstruktúra

Mező neve Típus Leírás
job_id INT64 A feladat összes futtatásának leállításához szükséges kanonikus azonosító. Ez a mező kötelező.

Futtatások kimenete jelenik meg

Végpont HTTP-metódus
2.0/jobs/runs/get-output GET

Egyetlen feladatfuttatás kimenetének és metaadatainak lekérése. Ha egy jegyzetfüzet-feladat egy értéket a dbutils.notebook.exit() híváson keresztül ad vissza, ezzel a végpont használatával lekérheti ezt az értéket. Az Azure Databricks korlátozza ezt az API-t, hogy a kimenet első 5 MB-ját adja vissza. Nagyobb eredmény visszaadása esetén a feladateredményeket egy felhőalapú tárolási szolgáltatásban tárolhatja.

Ez a végpont ellenőrzi, hogy a run_id paraméter érvényes-e, és érvénytelen paraméterek esetén a 400-ás HTTP-állapotkódot adja vissza.

A futtatások 60 nap után automatikusan törlődnek. Ha 60 napnál tovább szeretne hivatkozni rájuk, mentse a régi futtatási eredményeket, mielőtt lejárnának. A felhasználói felülettel való exportáláshoz lásd : Feladatfuttatási eredmények exportálása. A Jobs API használatával történő exportáláshoz lásd Futtatások exportálása.

Példa

Kérés

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .

Vagy:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <run-id> a futtatás azonosítójával, például 123.

Ez a példa . netrc-fájlt és jq-t használ.

Válasz

{
  "metadata": {
    "job_id": 1,
    "run_id": 452,
    "number_in_job": 5,
    "state": {
      "life_cycle_state": "TERMINATED",
      "result_state": "SUCCESS",
      "state_message": ""
    },
    "task": {
      "notebook_task": {
        "notebook_path": "/Users/someone@example.com/my-notebook"
      }
    },
    "cluster_spec": {
      "existing_cluster_id": "1201-my-cluster"
    },
    "cluster_instance": {
      "cluster_id": "1201-my-cluster",
      "spark_context_id": "1102398-spark-context-id"
    },
    "overriding_parameters": {
      "jar_params": ["param1", "param2"]
    },
    "start_time": 1457570074236,
    "setup_duration": 259754,
    "execution_duration": 3589020,
    "cleanup_duration": 31038,
    "run_duration": 3879812,
    "trigger": "PERIODIC"
  },
  "notebook_output": {
    "result": "the maybe truncated string passed to dbutils.notebook.exit()"
  }
}

Kérelemstruktúra

Mező neve Típus Leírás
run_id INT64 A futtatás kanonikus azonosítója. Több feladatból álló munkánál ez egy feladat végrehajtásának run_id. Lásd: A futtatások eredményeijelennek meg. Ez a mező kötelező.

Válaszstruktúra

Mező neve Típus Leírás
notebook_output VAGY error NotebookOutput VAGY STRING Ha notebook_output, egy jegyzetfüzet-feladat kimenete, ha elérhető. Olyan jegyzetfüzet-feladat, amely hívás nélkül leáll (sikeresen vagy sikertelenül)
dbutils.notebook.exit() üres kimenetnek minősül. Ez a mező be lesz állítva, de az eredmény értéke üres lesz.
Hiba esetén hibaüzenet jelzi, hogy miért nem érhető el a kimenet. Az üzenet strukturálatlan, és pontos formátuma változhat.
metadata Fut A futtatás minden részlete, kivéve a kimenetét.

Futtatások törlése

Végpont HTTP-metódus
2.0/jobs/runs/delete POST

Inaktív futás törlése. Hibát jelez, ha a folyamat aktív.

Példa

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'

Csere:

  • <databricks-instance>például az Azure Databricks-munkaterület nevéveladb-1234567890123456.7.azuredatabricks.net.
  • <run-id> a futtatás azonosítójával, például 123.

Ez a példa egy .netrc-fájlt használ.

Kérelemstruktúra

Mező neve Típus Leírás
run_id INT64 Az a futtatás kanonikus azonosítója, amelynek a metaadatait le szeretné kérni.

Adatstruktúrák

Ebben a szakaszban:

ABFSSStorageInfo

Az Azure Data Lake Storage (ADLS) tárolási adatai.

Mező neve Típus Leírás
destination STRING Fájl célhelye. Példa: abfss://...

Automatikus skálázás

A fürtmunkások minimális és maximális számát meghatározó tartomány.

Mező neve Típus Leírás
min_workers INT32 A munkavállalók minimális száma, amire a klaszter alulhasznált állapotában lecsökkenthető. A fürtnek a létrehozása után is ez lesz a kezdő munkavállalói létszáma.
max_workers INT32 A munkavállalók maximális száma, amennyire a klaszter felskálázható, amikor túl van terhelve. max_workers szigorúan nagyobbnak kell lennie, mint min_workers.

AzureAttributes

Az Azure-hoz kapcsolódó fürtlétrehozás során beállított attribútumok.

Mező neve Típus Leírás
first_on_demand INT32 A fürt first_on_demand első csomópontjai igény szerint azonnali példányokra kerülnek. Ha ez az érték nem nagyobb 0-nál, a fürtlétrehozás érvényesítése meghiúsul. Ha ez az érték nagyobb vagy egyenlő az aktuális fürtméretnél, az összes csomópont igény szerinti példányokon lesz elhelyezve. Ha ez az érték kisebb, mint az aktuális fürtméret, first_on_demand a csomópontok igény szerinti példányokra kerülnek, a többi pedig rendelkezésre állási példányokra lesz helyezve. Ez az érték nem befolyásolja a fürt méretét, és nem mutálható a fürt élettartama alatt.
availability AzureAvailability Az összes további csomóponthoz használt rendelkezésre állási típus a first_on_demand korábbiakon kívül.
spot_bid_max_price DOUBLE Az Azure spot példányokhoz használt maximum ajánlati ár. Ezt a jelenlegi azonnali árnál nagyobbra vagy egyenlőre állíthatja be. Ezt beállíthatja -1 értékre is, ami az alapérték, és meghatározza, hogy a példány nem távolítható el az ár alapján. A példány ára az azonnali példányok aktuális ára vagy egy standard példány ára lesz. Az azure portalon megtekintheti az előzményárakat és a kiürítési díjakat.

AzureAvailability

Az Azure-példány rendelkezésre állási típusának viselkedése.

Típus Leírás
SPOT_AZURE Használjon előre nem lefoglalt példányokat.
ON_DEMAND_AZURE Használjon igény szerinti példányokat.
SPOT_WITH_FALLBACK_AZURE Lehetőleg használjon spot példányokat, de ha ezek nem szerezhetők be (például ha az Azure spot árai túl magasak vagy kvótán kívüliek), térjen vissza az igény szerinti példányokra. Nem vonatkozik a készlet rendelkezésre állására.

ClusterInstance

A futtatáshoz használt fürt- és Spark-környezet azonosítói. Ez a két érték együttesen azonosítja a végrehajtási környezetet minden alkalommal.

Mező neve Típus Leírás
cluster_id STRING A futtatáshoz használt klaszter kanonikus azonosítója. Ez a mező mindig elérhető a meglévő fürtökön való futtatáshoz. Új fürtökön végzett futtatások esetén a fürt létrehozása után válik elérhetővé. Ez az érték a naplók megtekintéséhez használható a következőre való navigálással /#setting/sparkui/$cluster_id/driver-logs. A naplók a futtatás befejezése után is elérhetők lesznek.
A válasz nem tartalmazza ezt a mezőt, ha az azonosító még nem érhető el.
spark_context_id STRING A futtatás során használt Spark-környezet kanonikus azonosítója. Ez a mező a futtatás megkezdése után lesz kitöltve. Ez az érték használható a Spark felhasználói felületének megtekintéséhez, ha megnyitja a következőt: /#setting/sparkui/$cluster_id/$spark_context_id. A Spark felhasználói felülete a futtatás befejezése után is elérhető lesz.
A válasz nem tartalmazza ezt a mezőt, ha az azonosító még nem érhető el.

ClusterLogConf

A klaszter naplófájl elérési útja.

Mező neve Típus Leírás
dbfs A klaszter napló DBFS-helye. Meg kell adni a célhelyet. Például: { "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

ClusterSpec

Fontos

  • Amikor egy feladatot egy új feladatfürtön futtat, a feladatot a Jobs Compute (automatizált) munkaterheléseként kezelik, amely a Jobs Compute árazás alá tartozik.
  • Ha egy feladatot egy meglévő, teljes célú fürtön futtat, a rendszer minden célú számítási (interaktív) számítási feladatként kezeli, amely a teljes célú számítási díjszabás hatálya alá tartozik.
Mező neve Típus Leírás
existing_cluster_id VAGY new_cluster STRING VAGY NewCluster Ha van existing_cluster_id, akkor ez egy meglévő fürt ID-jére utal, amelyet a feladat összes futtatásához használnak. Ha feladatokat futtat egy meglévő fürtön, előfordulhat, hogy manuálisan kell újraindítania a fürtöt, ha az nem válaszol. Javasoljuk, hogy a nagyobb megbízhatóság érdekében futtasson feladatokat új fürtökön.
Ha van egy új fürt (new_cluster), akkor egy leírás arról a fürtről, amelyet az egyes futtatásokhoz hoznak létre.
PipelineTask megadása esetén ez a mező üres lehet.
libraries Egy sor a Könyvtár-ból A feladatot végrehajtó fürtre telepítendő könyvtárak választható listája. Az alapértelmezett érték egy üres lista.

Fürtcímke

A fürtcímke definíciója

Típus Leírás
STRING A címke kulcsa. A kulcsnak a következőnek kell lennie:
  • 1 és 512 karakter közötti hosszúságú
  • A <>%*&+?\\/ egyik karaktert sem tartalmazza
  • Ne kezdődjön azure, microsoftvagy windows-vel
STRING A címke értéke. Az értékhossznak 256 UTF-8 karakternél kisebbnek vagy egyenlőnek kell lennie.

CronSchedule

Mező neve Típus Leírás
quartz_cron_expression STRING Cron-kifejezés kvarcszintaxissal, amely egy feladat ütemezését írja le. Részletekért lásd a Cron Triggert . Ez a mező kötelező.
timezone_id STRING Java-időzón-azonosító. A feladat ütemezése az adott időzónához fog igazodni. Részletekért lásd Java TimeZone. Ez a mező kötelező.
pause_status STRING Jelezze, hogy az ütemezés szüneteltetve van-e. "PAUSED" vagy "UNPAUSED".

DbfsStorageInfo

A DBFS tárolási adatai.

Mező neve Típus Leírás
destination STRING DBFS-célhely. Példa: dbfs:/my/path

FájltárolásiInformáció

Fájltárolási információk.

Feljegyzés

Ez a helytípus csak a Databricks Container Services segítségével beállított fürtöknél érhető el.

Mező neve Típus Leírás
destination STRING Fájl célhelye. Példa: file:/my/file.sh

InitScriptInfo

Init-szkript elérési útja.

Az init-szkriptek Databricks Container Services szolgáltatással való használatára vonatkozó utasításokért lásd: Init-szkript használata.

Feljegyzés

A fájltároló típusa (mezőnév: file) csak a Databricks Container Services használatával beállított fürtök esetében érhető el. Lásd: FileStorageInfo.

Mező neve Típus Leírás
workspace VAGY dbfs (elavultnak minősített)
VAGY abfss
WorkspaceStorageInfo
DbfsStorageInfo (elavult)
ABFSSStorageInfo
Az init-szkript munkaterületi helye. Meg kell adni a célhelyet. Például,
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }
(Elavult) Az init szkript DBFS-helye. Meg kell adni a célhelyet. Például,
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }
Az init script Azure Data Lake Storage (ADLS) helye. Meg kell adni a célhelyet. Például: { "abfss": { "destination" : "abfss://..." } }

Foglalkozás

Mező neve Típus Leírás
job_id INT64 A feladat kanonikus azonosítója.
creator_user_name STRING A létrehozó felhasználóneve. Ez a mező nem lesz belefoglalva a válaszba, ha a felhasználót már törölték.
run_as STRING Az a felhasználónév, amely alatt a feladat futni fog. run_as az aktuális feladatbeállításokon alapul, és a feladat létrehozójára van beállítva, ha a feladathozzáférés-vezérlés le van tiltva, vagy a is_owner engedély van beállítva, ha a hozzáférés-vezérlés engedélyezve van.
settings JobSettings A feladathoz és annak összes futtatásához tartozó beállítások. Ezek a beállítások a resetJob módszerrel frissíthetők.
created_time INT64 A feladat létrehozásának időpontja ezredmásodpercben (ezredmásodpercben, 1970. 01. 01. (UTC) óta).

Állás-email értesítések

Fontos

A on_start, on_success és on_failure mezők csak latin karaktereket fogadnak el (ASCII-karakterkészlet). Ha nem ASCII-karaktereket használ, hibaüzenet jelenik meg. Érvénytelen, nem ASCII-karakterek például a kínai, a japán kanji és az emoji.

Mező neve Típus Leírás
on_start Egy tömb objektum STRING A futtatás kezdetekor értesítendő e-mail-címek listája. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket.
on_success Egy tömb STRING A futtatás sikeres befejezésekor értesítendő e-mail-címek listája. A futtatás sikeresnek minősül, ha egy TERMINATEDlife_cycle_state és egy SUCCESSFULresult_state végződéssel fejeződik be. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket.
on_failure Egy tömb STRING Azoknak az e-mail-címeknek a listája, amelyeket értesíteni kell, amikor egy futtatás sikertelenül befejeződik. A futtatás sikertelennek minősül, ha egy INTERNAL_ERROR-val végződik.
life_cycle_state vagy egy SKIPPED, FAILED, vagy TIMED_OUT eredmény_állapot. Ha ez nincs megadva a feladat létrehozásakor, a lista alaphelyzetbe állítása vagy frissítése üres, és a rendszer nem küld értesítéseket.
on_duration_warning_threshold_exceeded Egy tömb STRING Azoknak az e-mail-címeknek a listája, amelyről értesítést kell kapni, ha a futtatás időtartama meghaladja a RUN_DURATION_SECONDS metrikához megadott küszöbértéket a health mezőben. Ha a RUN_DURATION_SECONDS feladat mezőjében health nincs megadva a metrikára vonatkozó szabály, a rendszer nem küld értesítéseket.
no_alert_for_skipped_runs BOOL Ha igaz, ne küldjön e-mailt a on_failure-ban megadott címzetteknek, ha a futtatási folyamat kimarad.
Mező neve Típus Leírás
on_start Egy Webhook tömb A futtatás indításakor értesítendő rendszercélok választható listája. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_start legfeljebb 3 célhely adható meg.
on_success Egy Webhook tömb A futtatás sikeres befejezésekor értesítendő rendszercélok opcionális listája. A futtatás sikeresnek minősül, ha egy TERMINATEDlife_cycle_state és egy SUCCESSFULresult_state végződéssel fejeződik be. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_success legfeljebb 3 célhely adható meg.
on_failure Egy Webhook tömb A rendszercímzettek opcionális listája, akiket értesíteni kell, amikor a futtatás sikertelenül fejeződik be. A futtatás sikertelennek minősül, ha INTERNAL_ERROR-vel ér véget.
life_cycle_state vagy egy SKIPPED, FAILED, vagy TIMED_OUT eredmény_állapot. Ha ez nincs megadva a feladat létrehozásakor, a lista alaphelyzetbe állítása vagy frissítése üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_failure legfeljebb 3 célhely adható meg.
on_duration_warning_threshold_exceeded Egy Webhook tömb Választható rendszercélok listája, amelyről értesítést kaphat, ha a futtatás időtartama meghaladja a RUN_DURATION_SECONDS mezőben megadott health metrika küszöbértékét. A tulajdonsághoz on_duration_warning_threshold_exceeded legfeljebb 3 célhely adható meg.

Munkaértesítési Beállítások

Mező neve Típus Leírás
no_alert_for_skipped_runs BOOL Amennyiben igaz, ne küldjön értesítéseket a on_failure megadott címzetteknek, ha a futtatás kihagyásra kerül.
no_alert_for_canceled_runs BOOL Ha igaz, ne küldjön értesítéseket a on_failure megadott címzetteknek, ha a futtatás megszakadt.
alert_on_last_attempt BOOL Ha igaz, ne küldjön értesítéseket a on_start megadott címzetteknek az újrapróbálkozott futtatásokról, és ne küldjön értesítéseket a on_failure megadott címzetteknek a futtatás utolsó újrapróbálkozásáig.

Feladatbeállítások

Fontos

  • Amikor egy feladatot egy új feladatfürtön futtat, a feladatot a Jobs Compute (automatizált) munkaterheléseként kezelik, amely a Jobs Compute árazás alá tartozik.
  • Ha egy feladatot egy meglévő, teljes célú fürtön futtat, a rendszer minden célú számítási (interaktív) számítási feladatként kezeli, amely a teljes célú számítási díjszabás hatálya alá tartozik.

Munka beállításai. Ezek a beállítások a resetJob módszerrel frissíthetők.

Mező neve Típus Leírás
existing_cluster_id VAGY new_cluster STRING VAGY NewCluster Ha van existing_cluster_id, akkor a feladat összes futtatásához használt meglévő fürt ID-je. Ha feladatokat futtat egy meglévő fürtön, előfordulhat, hogy manuálisan kell újraindítania a fürtöt, ha az nem válaszol. Javasoljuk, hogy a nagyobb megbízhatóság érdekében futtasson feladatokat új fürtökön.
Amennyiben van new_cluster, akkor az egyes futtatások során létrehozandó fürt leírása.
PipelineTask megadása esetén ez a mező üres lehet.
notebook_task VAGY spark_jar_task
spark_python_task VAGY spark_submit_task
pipeline_task VAGY run_job_task
NotebookTask VAGY SparkJarTask VAGY SparkPythonTask VAGY SparkSubmitTask VAGY PipelineTask VAGY RunJobTask Ha notebook_task, azt jelzi, hogy ennek a feladatnak jegyzetfüzetet kell futtatnia. Ez a mező nem adható meg a spark_jar_task együtt.
Ha spark_jar_task, azt jelzi, hogy ennek a feladatnak JAR-t kell futtatnia.
Ha spark_python_task, azt jelzi, hogy a feladatnak Python-fájlt kell futtatnia.
Ha spark_submit_task, azt jelzi, hogy ezt a feladatot a spark submit szkriptnek kell elindítania.
Ha pipeline_task, azt jelzi, hogy ennek a feladatnak DLT-folyamatot kell futtatnia.
Ha run_job_task, azt jelzi, hogy ennek a feladatnak egy másik feladatot kell futtatnia.
name STRING Egy nem kötelező név a munka számára. Az alapértelmezett érték Untitled.
libraries Egy tömb a Könyvtár-ból A feladatot végrehajtó fürtön telepítendő könyvtárak választható listája. Az alapértelmezett érték egy üres lista.
email_notifications MunkaEmailÉrtesítések Választható e-mail-címkészlet, amely a feladat futtatásakor vagy befejezésekor, valamint a feladat törlésekor értesítést kap. Az alapértelmezett viselkedés az, hogy nem küld e-maileket.
webhook_notifications WebhookÉrtesítések Választható rendszercélok készlete, amely értesíti, ha a feladat futtatásai elindulnak, befejeződnek vagy sikertelenek lesznek.
notification_settings Állásértesítési beállítások Opcionális értesítési beállítások, amelyeket az email_notifications és webhook_notifications értesítések küldésekor használnak ehhez a feladathoz.
timeout_seconds INT32 Opcionális időkorlát, amely minden egyes futtatáshoz alkalmazva van. Az alapértelmezett viselkedés az, hogy nincs időtúllépés.
max_retries INT32 Egy opcionálisan megadható maximális próbálkozási szám sikertelen futások újrapróbálásakor. A futtatás sikertelennek minősül, ha a FAILED result_state eredménnyel fejeződik be vagy egyéb hibás állapot következik be.
INTERNAL_ERROR
life_cycle_state. A -1 érték azt jelenti, hogy határozatlan ideig újra próbálkozik, a 0 érték pedig azt jelenti, hogy soha nem próbálkozik újra. Az alapértelmezett viselkedés az, hogy soha ne próbálkozzon újra.
min_retry_interval_millis INT32 Nem kötelező minimális intervallum ezredmásodpercben a kísérletek között. Az alapértelmezett viselkedés az, hogy a sikertelen futtatásokat azonnal ismételten futtatják.
retry_on_timeout BOOL Nem kötelező házirend, amely meghatározza, hogy újrapróbálkozjon-e egy feladat, amikor az túllépi az időkorlátot. Az alapértelmezett viselkedés az, hogy ne próbálkozzon újra időtúllépéskor.
schedule CronSchedule Ennek a feladatnak az opcionális időszakos ütemezése. Az alapértelmezett viselkedés az, hogy a feladat csak akkor fut, ha a Feladat felhasználói felületén a "Futtatás most" gombra kattint, vagy egy API-kérést küld a következő címre:
runNow.
max_concurrent_runs INT32 A munka egyidejű futtatásainak opcionális, megengedett maximális száma.
Állítsa be ezt az értéket, ha egyszerre több futtatás is végrehajtható ugyanabból a feladatból. Ez akkor hasznos, ha a feladatot gyakran ütemezve aktiválja, és engedélyezni szeretné, hogy az egymást követő futtatások átfedésben legyenek egymással, vagy ha több, a bemeneti paraméterektől eltérő futtatásokat szeretne aktiválni.
Ez a beállítás csak az új futtatásokat érinti. Tegyük fel például, hogy a feladat párhuzamossága 4, és 4 párhuzamos aktív futás van. Azután, ha az egyidejűséget 3-ra állítja, az nem állítja le az aktív futásokat. Ettől kezdve azonban az új futtatások kimaradnak, kivéve, ha 3-nál kevesebb aktív futtatás van.
Ez az érték nem haladhatja meg az 1000-et. Ha ezt az értéket 0 értékre állítja, az összes új futtatást kihagyja. Az alapértelmezett viselkedés az, hogy csak 1 egyidejű futtatás engedélyezett.
health Munkaegészségügyi Szabályok A feladathoz definiált opcionális egészségügyi szabályok.

Munkafeladat

Mező neve Típus Leírás
notebook_task VAGY spark_jar_task
spark_python_task VAGY spark_submit_task
pipeline_task VAGY run_job_task
NotebookTask VAGY SparkJarTask VAGY SparkPythonTask VAGY SparkSubmitTask VAGY PipelineTask VAGY RunJobTask Ha notebook_task, azt jelzi, hogy ennek a feladatnak jegyzetfüzetet kell futtatnia. Ez a mező nem adható meg a spark_jar_task együtt.
Ha spark_jar_task, azt jelzi, hogy ennek a feladatnak JAR-t kell futtatnia.
Ha spark_python_task, azt jelzi, hogy a feladatnak Python-fájlt kell futtatnia.
Ha spark_submit_task, azt jelzi, hogy ezt a feladatot a spark submit szkriptnek kell elindítania.
Ha pipeline_task, azt jelzi, hogy ennek a feladatnak DLT-folyamatot kell futtatnia.
Ha run_job_task, azt jelzi, hogy ennek a feladatnak egy másik feladatot kell futtatnia.

MunkahelyiEgészségSzabály

Mező neve Típus Leírás
metric STRING Egy adott állapotszabályhoz kiértékelt állapotmetrikát adja meg. Az érvényes értékek a következők: RUN_DURATION_SECONDS.
operator STRING Az állapotmetrika értékének a megadott küszöbértékkel való összehasonlításához használt operátort adja meg. Az érvényes értékek a következők: GREATER_THAN.
value INT32 Megadja azt a küszöbértéket, amelynek az állapotmetrikának meg kell felelnie az állapotszabálynak való megfeleléshez.

MunkahelyiEgészségügyiSzabályok

Mező neve Típus Leírás
rules Egy JobsHealthRule tömb A feladathoz definiálható egészségügyi szabályok választható halmaza.

Könyvtár

Mező neve Típus Leírás
jarVAGYeggVAGYwhl
pypiVAGY VAGY mavencran
STRING STRING VAGY STRING PythonPyPiLibraryvagy MavenLibrary vagy RCranLibrary Ha jar, a telepíteni kívánt JAR URI-ja. A DBFS és az ADLS (abfss) URI-k támogatottak. Például: { "jar": "dbfs:/mnt/databricks/library.jar" } vagy
{ "jar": "abfss://<container-path>/library.jar" }. Ha ADLS-t használ, győződjön meg arról, hogy a klaszter olvasási hozzáféréssel rendelkezik a könyvtárban.
Ha tojásról van szó, akkor a telepítendő tojás URI-ja. A DBFS és az ADLS URL-címek támogatottak. Például: { "egg": "dbfs:/my/egg" } vagy
{ "egg": "abfss://<container-path>/egg" }.
Ha whl, a wheel vagy a tömörített wheels URI-ját kell telepíteni. A DBFS és az ADLS URL-címek támogatottak. Például: { "whl": "dbfs:/my/whl" } vagy
{ "whl": "abfss://<container-path>/whl" }. Ha ADLS-t használ, győződjön meg arról, hogy a klaszter olvasási hozzáféréssel rendelkezik a könyvtárban. wheel A fájlnévnek is a megfelelő konvenciót kell használnia. Ha tömörített wheels fájlt szeretne telepíteni, a fájlnév utótagjának kell lennie .wheelhouse.zip.
Ha pypi, a telepíteni kívánt PyPI-kódtár specifikációja. repo A mező megadása nem kötelező, és ha nincs megadva, a rendszer az alapértelmezett pipindexet használja. Példa:
{ "package": "simplejson", "repo": "https://my-repo.com" }
Ha maven, a telepíteni kívánt Maven-kódtár specifikációja. Példa:
{ "coordinates": "org.jsoup:jsoup:1.7.2" }
Cran esetén a telepíteni kívánt CRAN-kódtár specifikációja.

MavenLibrary

Mező neve Típus Leírás
coordinates STRING Gradle-stílusú Maven koordináták. Például: org.jsoup:jsoup:1.7.2 Ez a mező kötelező.
repo STRING Maven-adattár a Maven-csomag telepítéséhez. Ha nincs megadva, a Rendszer mind a Maven Central-adattárban, mind a Spark Packagesben keres.
exclusions Egy tömb STRING Kizárandó függőségek listája. Például: ["slf4j:slf4j", "*:hadoop-client"]
Maven-függőségi kizárások: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

ÚjKlaszter

Mező neve Típus Leírás
num_workers VAGY autoscale INT32 VAGY automatikus skálázás Ha a num_workers, akkor a klaszterhez tartozó munkavégző csomópontok száma. A fürt egy Spark-illesztőprogramot és num_workers végrehajtót tartalmaz, összesen num_workers + 1 Spark-csomóponttal.
Megjegyzés: Egy fürt tulajdonságainak olvasásakor ez a mező a kívánt munkavállalók számát tükrözi, nem pedig a tényleges jelenlegi munkavállalók számát. Ha például egy klasztert 5-ről 10 számítási egységre méreteznek át, ez a mező azonnal frissül, hogy tükrözze a 10 számítási egység célméretét, míg a spark_info-ban felsorolt számítási egységek fokozatosan nőnek 5-ről 10-re, ahogy az új csomópontok kiépülnek.
Automatikus skálázás esetén a fürtök terhelés alapján történő automatikus fel- és leskálázásához szükséges paraméterek.
spark_version STRING A fürt Spark verziója. Az elérhető Spark-verziók listája a GET 2.0/clusters/spark-versions hívással kérhető le. Ez a mező kötelező.
spark_conf SparkConfPair Nem kötelező, felhasználó által megadott Spark-konfigurációs kulcs-érték párokat tartalmazó objektum. További JVM-beállítások karakterláncát is átadhatja az illesztőprogramnak és a végrehajtóknak.
spark.driver.extraJavaOptions és spark.executor.extraJavaOptions illetve.
Példa Spark konfigurációk:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} vagy
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Ez a mező egyetlen értéken keresztül kódolja a fürtben lévő Spark-csomópontok számára elérhető erőforrásokat. A Spark-csomópontok például kiépíthetik és optimalizálhatók memória- vagy számítási feladatokhoz. Az elérhető csomóponttípusok listája lekérhető a GET 2.0/clusters/list-node típusú hívással. Ez a mező, a instance_pool_id mező vagy egy fürtzabályzat szükséges, amely egy csomóponttípus-azonosítót vagy egy példánykészlet-azonosítót határoz meg.
driver_node_type_id STRING A Spark-illesztőprogram csomóponttípusa. Ez a mező nem kötelező; ha nincs megadva, az illesztőcsomópont típusa ugyanazzal az értékkel van beállítva, mint node_type_id fent definiált.
custom_tags Fürtcímke A klaszter erőforrásainak címkéit tartalmazó objektum. A Databricks az alapértelmezett címkék mellett az összes fürterőforrást (például a virtuális gépeket) is címkézi.
Megjegyzés:
  • A címkék nem támogatottak az olyan régi csomóponttípusokon, mint a számításra optimalizált és a memóriaoptimalizált
  • A Databricks legfeljebb 45 egyéni címkét engedélyez
cluster_log_conf ClusterLogConf A Spark-naplók hosszú távú tárolási célhelyre történő kézbesítésének konfigurációja. Egyetlen fürtre csak egy célt lehet megadni. Ha a konfiguráció meg van adva, a naplók minden 5 mins időközönként a célhelyre kerülnek. Az illesztőprogram-naplók célhelye <destination>/<cluster-id>/driver, míg a végrehajtói naplók célhelye <destination>/<cluster-id>/executor.
init_scripts Az InitScriptInfo tömbök egyike Init-szkriptek tárolásának konfigurációja. Tetszőleges számú szkript adható meg. A szkriptek egymás után, a megadott sorrendben lesznek végrehajtva. Ha cluster_log_conf meg van adva, a rendszer init szkriptnaplókat küld a következő címre:
<destination>/<cluster-id>/init_scripts.
spark_env_vars SparkEnvPair Nem kötelező, felhasználó által megadott környezeti változókulcs-érték párokat tartalmazó objektum. Az űrlap kulcs-érték párja (X,Y) exportálása a következőképpen történik (pl.
export X='Y'), miközben elindítja a vezetőt és a dolgozókat.
A további SPARK_DAEMON_JAVA_OPTS-k megadásához javasoljuk, hogy azokat az alábbi példában látható módon illessze a $SPARK_DAEMON_JAVA_OPTS-hez. Ez biztosítja, hogy az összes alapértelmezett databricks által felügyelt környezeti változó is szerepel benne.
Példa Spark-környezeti változókra:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} vagy
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
enable_elastic_disk BOOL Helyi tároló automatikus méretezése: ha engedélyezve van, ez a fürt dinamikusan további lemezterületet szerez be, ha a Spark-feldolgozók kevés lemezterületen futnak. A részletekért tekintse meg a helyi tároló automatikus skálázásának engedélyezését ismertető cikket.
driver_instance_pool_id STRING Az illesztőprogram-csomóponthoz használandó példánykészlet opcionális azonosítója. Meg kell adnia azt is instance_pool_id. Részletekért tekintse meg a Példánykészletek API-t .
instance_pool_id STRING A fürtcsomópontokhoz használandó példánykészlet opcionális azonosítója. Ha driver_instance_pool_id jelen van,
instance_pool_id csak feldolgozó csomópontokhoz használható. Ellenkező esetben az illesztőprogram-csomóponthoz és a feldolgozó csomópontokhoz is használható. Részletekért tekintse meg a Példánykészletek API-t .

Jegyzetfüzet Kimenet

Mező neve Típus Leírás
result STRING A dbutils.notebook.exit()-nek átadott érték. Az Azure Databricks korlátozza ezt az API-t, hogy az első 1 MB értéket adja vissza. Nagyobb eredmény érdekében a feladat egy felhőalapú tárolási szolgáltatásban tárolhatja az eredményeket. Ez a mező nem jelenik meg, ha dbutils.notebook.exit() soha nem lett meghívva.
truncated BOOLEAN Azt jelzi, hogy csonkolták-e az eredményt vagy sem.

NotebookTask

Az összes kimeneti cella mérete 8 MB. Ha egy cella kimenete nagyobb méretű, a futtatás többi része megszakad, és a futtatás sikertelenként lesz megjelölve. Ebben az esetben előfordulhat, hogy a többi cella tartalomkimenete is hiányzik.

Ha segítségre van szüksége a korláton túli cella megkereséséhez, futtassa a jegyzetfüzetet egy teljes célú fürtön, és használja ezt a jegyzetfüzet automatikus mentési technikáját.

Mező neve Típus Leírás
notebook_path STRING Az Azure Databricks-munkaterületen futtatandó jegyzetfüzet abszolút elérési útja. Ennek az elérési útnak perjellel kell kezdődnie. Ez a mező kötelező.
revision_timestamp LONG A jegyzetfüzet felülvizsgálatának időbélyege.
base_parameters ParamPair térképe A feladat minden egyes futtatásához használandó alapparaméterek. Ha a futtatás a megadott paraméterekkel rendelkező run-now hívásával indul el, a rendszer egyesíti a két paramétertérképet. Ha ugyanaz a kulcs van megadva base_parameters és run-now esetén, az run-now értéket fogják használni.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.
Ha a jegyzetfüzet olyan paramétert használ, amely nincs megadva a feladat base_parameters vagy a run-now felülbírálási paraméterekben, a rendszer a jegyzetfüzet alapértelmezett értékét használja.
Kérje le ezeket a paramétereket egy jegyzetfüzetben a dbutils.widgets.gethasználatával.

ParamPair

A jegyzetfüzet-feladatokat futtató feladatok névalapú paraméterei.

Fontos

Az adatstruktúra mezői csak latin karaktereket fogadnak el (ASCII-karakterkészlet). Ha nem ASCII-karaktereket használ, hibaüzenet jelenik meg. Érvénytelen, nem ASCII-karakterek például a kínai, a japán kanji és az emoji.

Típus Leírás
STRING Paraméter neve. Használja a dbutils.widgets.get függvényt az érték lekérésére.
STRING Paraméterérték.

PipelineTask

Mező neve Típus Leírás
pipeline_id STRING A végrehajtandó DLT-folyamatfeladat teljes neve.

PythonPyPiLibrary

Mező neve Típus Leírás
package STRING A telepíteni kívánt PyPI-csomag neve. A választható pontos verziós specifikáció is támogatott. Példák: simplejson és simplejson==3.8.0. Ez a mező kötelező.
repo STRING Az az adattár, ahol a csomag megtalálható. Ha nincs megadva, a rendszer az alapértelmezett pipindexet használja.

RCranLibrary

Mező neve Típus Leírás
package STRING A telepíteni kívánt CRAN-csomag neve. Ez a mező kötelező.
repo STRING Az az adattár, ahol a csomag megtalálható. Ha nincs megadva, a rendszer az alapértelmezett CRAN-adattárat használja.

Fut

A futtatás minden információja, kivéve a kimenetét. A kimenet a metódussal getRunOutput külön kérhető le.

Mező neve Típus Leírás
job_id INT64 A futtatást tartalmazó feladat szabványos azonosítója.
run_id INT64 A futtatás kanonikus azonosítója. Ez az azonosító az összes feladat összes végrehajtása során egyedi.
creator_user_name STRING A létrehozó felhasználóneve. Ez a mező nem lesz belefoglalva a válaszba, ha a felhasználót már törölték.
number_in_job INT64 Ennek a futásnak a sorszáma a feladat összes futása között. Ez az érték 1-nél kezdődik.
original_attempt_run_id INT64 Ha ez a futtatás egy korábbi futtatási kísérlet újrapróbálkozása, akkor ez a mező az eredeti kísérlet run_id tartalmazza; ellenkező esetben ugyanaz, mint a run_id.
state RunState A futtatás eredménye és életciklus-állapotai.
schedule CronSchedule A futást aktiváló cron-ütemezés, amennyiben azt az időszakos ütemező indította el.
task JobTask A futtatás által végrehajtott feladat, ha van ilyen.
cluster_spec ClusterSpec Pillanatkép a feladat fürtspecifikációjáról a futtatás létrehozásakor.
cluster_instance ClusterInstance A futtatáshoz használt klaszter. Ha a futtatás új fürt használatát igényli, akkor ez a mező akkor kerül beállításra, amikor a Jobs szolgáltatás már kért egy fürtöt a futtatáshoz.
overriding_parameters RunParameters A futtatáshoz használt paraméterek.
start_time INT64 A futás kezdetének időpontja ezredmásodpercben (ezredmásodperc 1970. 01. 01. (UTC) óta). Lehet, hogy nem ez az az időpont, amikor a feladat végrehajtása elkezdődik, például ha a feladat egy új fürtre van ütemezve, akkor ebben az időben kerül sor a fürtlétrehozási hívásra.
setup_duration INT64 A fürt felállítása idejének mérése ezredmásodpercekben történt. Az új fürtökön futó feladatok esetében ez a fürtlétrehozási idő, a meglévő fürtökön futó feladatok esetében ez az idő nagyon rövid.
execution_duration INT64 Az ezredmásodpercben mért idő, amely alatt a JAR-ban vagy a jegyzetfüzetben lévő parancsok végrehajtódtak, befejeződtek, meghiúsultak, időtúllépést szenvedtek el, megszakításra kerültek, vagy váratlan hibába ütköztek.
cleanup_duration INT64 Az az időtartam ezredmásodpercben, amelybe telt a fürt leállítása és a kapcsolódó artefaktumok eltávolítása. A futtatás teljes időtartama a setup_duration, a execution_duration és a cleanup_duration összege.
end_time INT64 Az időpont, amikor ez a futtatás az időtartam szerinti ezredmásodpercben végződött (1970. 01. 01. (UTC) óta eltelt ezredmásodpercek). Ez a mező 0 értékre lesz állítva, ha a feladat még fut.
trigger TriggerType A futtatás indítását kiváltó eseményindító típusa.
run_name STRING A futtatás opcionális neve. Az alapértelmezett érték Untitled. A maximális megengedett hossz 4096 bájt UTF-8 kódolásban.
run_page_url STRING A futtatás részleteinek oldalára mutató URL.
run_type STRING A futtatás típusa.
  • JOB_RUN – Normál munkamenet. A Run now funkcióval létrehozott futtatás.
  • WORKFLOW_RUN – Munkafolyamat futtatása. A dbutils.notebook.run használatával létrehozott futtatás.
  • SUBMIT_RUN – Futtatás elküldése. Egy futtatás a Futtatás most parancs használatával jött létre.
attempt_number INT32 A futtatási kísérlet sorszáma egy aktivált feladat futtatásakor. A futtatás kezdeti kísérlete egy "kísérletszám" értékkel rendelkezik, amely 0. Ha a kezdeti futtatási kísérlet meghiúsul, és a feladat újrapróbálkozási szabályzattalmax_retries> (0) rendelkezik, a rendszer az ezt követő futtatásokat az eredeti kísérlet azonosítójával és egy növekvő művelettel original_attempt_run_idattempt_numberhozza létre. A futtatások csak addig próbálkoznak újra, amíg sikeresek nem lesznek, és a maximális érték attempt_number megegyezik a max_retries művelet értékével.

RunJobTask

Mező neve Típus Leírás
job_id INT32 A futtatni kívánt feladat egyedi azonosítója. Ez a mező kötelező.

RunLifeCycleState

Futtatás életciklus-állapota. Az engedélyezett állapotáttűnések a következők:

  • QUEUED ->PENDING
  • PENDING- ->RUNNING ->TERMINATING>TERMINATED
  • PENDING ->SKIPPED
  • PENDING ->INTERNAL_ERROR
  • RUNNING ->INTERNAL_ERROR
  • TERMINATING ->INTERNAL_ERROR
Állapot Leírás
QUEUED A futtatás aktiválva lett, de várólistára lett helyezve, mert elérte az alábbi korlátok egyikét:
  • A munkaterületen az egyidejűleg aktívan futtatott folyamatok maximális száma.
  • Az egyidejű Run Job feladatok maximális száma a munkaterületen.
  • A feladat maximális egyidejű futásainak száma.

A feladat vagy a futtatás esetén a sorba állítást engedélyezni kell, mielőtt elérhetné ezt az állapotot.
PENDING A futás elindult. Ha a feladat konfigurált maximális egyidejű futtatása már el van érve, a futtatás azonnal átáll az SKIPPED állapotra erőforrások előkészítése nélkül. Egyébként a klaszter előkészítése és a végrehajtás folyamatban van.
RUNNING A feladat végrehajtása folyamatban van.
TERMINATING A futtatás feladata befejeződött, és a klaszter és a végrehajtási környezet tisztítása folyamatban van.
TERMINATED A futtatás feladata befejeződött, és a cluster és a végrehajtási környezet megtisztításra került. Ez az állapot végstádiumú.
SKIPPED A munkamenetet megszakították, mert ugyanannak a feladatnak egy korábbi munkamenete már aktív volt. Ez az állapot végstádiumú.
INTERNAL_ERROR Kivételes állapot, amely a Feladatok szolgáltatás meghibásodását jelzi, például hosszú ideig tartó hálózati meghibásodást. Ha egy új klaszteren végrehajtott futtatás INTERNAL_ERROR állapotban ér véget, a Feladatok szolgáltatás a lehető leghamarabb leállítja a klasztert. Ez az állapot végstádiumú.

RunParameters

A futtatás paraméterei. A kérelemben, a feladat típusától függően, csak az egyik paramétert kell megadni a run-now mezőben: jar_params, python_params vagy notebook_params. A Spark JAR- vagy Python-feladattal rendelkező feladatok a pozícióalapú paraméterek listáját veszik fel, a jegyzetfüzet-feladatokkal végzett feladatok pedig egy kulcsérték-leképezést vesznek fel.

Mező neve Típus Leírás
jar_params Egy tömb STRING A Spark JAR-feladatokkal rendelkező feladatok paramétereinek listája, például "jar_params": ["john doe", "35"]. A paraméterek a Spark JAR-feladatban megadott főosztály fő függvényének meghívására szolgálnak. Ha nincs megadva run-now, akkor az alapértelmezés szerint üres lista lesz. A jar_params nem adhatók meg a notebook_params-szal együtt. A mező JSON-ábrázolása (azaz {"jar_params":["john doe","35"]}) nem haladhatja meg a 10 000 bájtot.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.
notebook_params ParamPair térképe Térkép a kulcsoktól az értékekig a jegyzetfüzet-feladattal rendelkező feladatokhoz, például:
"notebook_params": {"name": "john doe", "age": "35"}. A térképet a program átadja a jegyzetfüzetnek, és a dbutils.widgets.get függvényen keresztül érhető el.
Ha nincs megadva run-now, az aktivált futtatás a feladat alapparamétereit használja.
notebook_params nem adható meg jar_params együtt.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.
A mező JSON-reprezentációja (azaz
{"notebook_params":{"name":"john doe","age":"35"}}) nem haladhatja meg a 10 000 bájtot.
python_params Egy tömb STRING A Python-feladatokat tartalmazó feladatok paramétereinek listája, például "python_params": ["john doe", "35"]. A paraméterek parancssori paraméterekként lesznek átadva a Python-fájlnak. Ha run-nowvan megadva, felülírja a feladatbeállításban megadott paramétereket. A mező JSON-ábrázolása (azaz {"python_params":["john doe","35"]}) nem haladhatja meg a 10 000 bájtot.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.
Ezek a paraméterek csak latin karaktereket fogadnak el (ASCII-karakterkészlet). Ha nem ASCII-karaktereket használ, hibaüzenet jelenik meg. Érvénytelen, nem ASCII-karakterek például a kínai, a japán kanji és az emoji.
spark_submit_params Egy tömb STRING A Spark-küldési tevékenységgel rendelkező feladatok paramétereinek listája, például:
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. A paraméterek parancssori paraméterekként lesznek átadva a spark-submit szkriptnek. Ha run-nowvan megadva, felülírja a feladatbeállításban megadott paramétereket. A mező JSON-ábrázolása (azaz {"python_params":["john doe","35"]}) nem haladhatja meg a 10 000 bájtot.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.
Ezek a paraméterek csak latin karaktereket fogadnak el (ASCII-karakterkészlet). Ha nem ASCII-karaktereket használ, hibaüzenet jelenik meg. Érvénytelen, nem ASCII-karakterek például a kínai, a japán kanji és az emoji.

FutásiEredményÁllapot

Futtatás eredményállapota.

  • Ha life_cycle_state = TERMINATED: ha a futtatásnak volt egy feladata, az eredmény garantáltan elérhető lesz, és a tevékenység eredményét jelzi.
  • Ha life_cycle_state = PENDING, RUNNING vagy SKIPPED, akkor az eredmény állapota nem érhető el.
  • If life_cycle_state = TERMINATING vagy lifecyclestate = INTERNAL_ERROR: az eredményállapot akkor érhető el, ha a futtatásnak volt egy feladata, és sikerült elindítani.

Ha elérhető, az eredmény állapota soha nem változik.

Állapot Leírás
SUCCESS A feladat sikeresen befejeződött.
FAILED A feladat hibával fejeződött be.
TIMEDOUT A futtatást időtúllépést követően megállították.
CANCELED A futtatás a felhasználó kérésére megszakadt.

RunState

Mező neve Típus Leírás
life_cycle_state RunLifeCycleState A futtatás jelenlegi helyzetének leírása a futtatás életciklusában. Ez a mező mindig elérhető a válaszban.
result_state RunResultState Futtatás eredményállapota. Ha nem érhető el, a válasz nem fogja tartalmazni ezt a mezőt. A result_state elérhetőségéről a RunResultState című témakörben olvashat.
user_cancelled_or_timedout BOOLEAN Azt jelzi, hogy a futtatásokat manuálisan megszakította-e egy felhasználó vagy az ütemező, mert a futtatás időtúllépés miatt megszakadt.
state_message STRING Az aktuális állapot leíró üzenete. Ez a mező strukturálatlan, és pontos formátuma változhat.

SparkConfPair

Spark konfigurációs kulcs-érték párok.

Típus Leírás
STRING Konfigurációs tulajdonság neve.
STRING A konfigurációs tulajdonság értéke.

SparkEnvPair

Spark környezeti változó kulcs-érték párok.

Fontos

Ha környezeti változókat ad meg egy feladatfürtben, az adatstruktúra mezői csak latin karaktereket fogadnak el (ASCII-karakterkészlet). Ha nem ASCII-karaktereket használ, hibaüzenet jelenik meg. Érvénytelen, nem ASCII-karakterek például a kínai, a japán kanji és az emoji.

Típus Leírás
STRING Környezeti változó neve.
STRING A környezeti változó értéke.

SparkJarTask

Mező neve Típus Leírás
jar_uri STRING 2016. 04. óta elavult. Inkább nyújtson be egy jar a libraries mezőn keresztül. Példa: Létrehozás.
main_class_name STRING A végrehajtandó fő metódust tartalmazó osztály teljes neve. Ezt az osztályt egy kódtárként megadott JAR-ben kell tárolni.
A kódnak Spark-környezet beszerzésére kell használnia SparkContext.getOrCreate , ellenkező esetben a feladat futtatása sikertelen lesz.
parameters Egy tömb STRING A fő metódusnak átadott paraméterek.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.

SparkPythonTask

Mező neve Típus Leírás
python_file STRING A végrehajtandó Python-fájl URI-ja. A DBFS-útvonalak támogatottak. Ez a mező kötelező.
parameters Egy tömb STRING A Python-fájlnak átadott parancssori paraméterek.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.

SparkBeküldésiFeladat

Fontos

  • A Spark-küldési feladatokat csak új fürtökön hívhatja meg.
  • A new_cluster specifikációban librariesspark_conf nem támogatott. Ehelyett --jars és --py-files használatával vegyen fel Java- és Python-kódtárakat, és --conf állítsa be a Spark-konfigurációt.
  • master, deploy-mode, és executor-cores szintén az Azure Databricks által automatikusan van konfigurálva; nem adhatja meg őket paraméterekben.
  • A Spark-küldési feladat alapértelmezés szerint az összes rendelkezésre álló memóriát használja (kivéve az Azure Databricks-szolgáltatások fenntartott memóriáját). Beállíthatja --driver-memoryés --executor-memory kisebb értékre, hogy helyet hagyjon a halmon kívüli használatnak.
  • A --jars, --py-filesargumentumok --files támogatják a DBFS-elérési utakat.

Tegyük fel például, hogy a JAR feltöltve van a DBFS-be, a következő paraméterek beállításával futtathatja a SparkPi.

{
  "parameters": ["--class", "org.apache.spark.examples.SparkPi", "dbfs:/path/to/examples.jar", "10"]
}
Mező neve Típus Leírás
parameters Egy tömb STRING A spark-submit-nek átadott parancssori paraméterek.
Használja a Mi a dinamikus értékhivatkozás? arra, hogy beállítsa a paramétereket, amelyek információkat tartalmaznak a feladatfuttatásokról.

Trigger típus

Ezek azok a triggerek, amelyek elindíthatnak egy futtatási folyamatot.

Típus Leírás
PERIODIC Időszakosan aktiválódó ütemezések, például egy cron ütemező.
ONE_TIME Egyszeri eseményindítók, amelyek egyetlen futtatásra aktiválnak. Ez akkor fordul elő, ha igény szerint egyetlen futtatást kezdeményezett a felhasználói felületen vagy az API-n keresztül.
RETRY Egy olyan futtatás, amely egy korábban sikertelen futtatás újrapróbálkozásaként van indítva. Ez akkor fordul elő, ha hiba esetén a feladat újrafuttatását kéri.

Elem megtekintése

Az exportált tartalom HTML formátumban van. Például, ha az exportálásra kerülő nézet irányítópultokat tartalmaz, minden irányítópulthoz visszaadódik egy HTML-sztring.

Mező neve Típus Leírás
content STRING A nézet tartalma.
name STRING A nézetelem neve. Kódnézet esetén a jegyzetfüzet neve. Irányítópult-nézet esetén az irányítópult neve.
type ViewType A nézetelem típusa.

Nézettípus

Típus Leírás
NOTEBOOK Jegyzetfüzet nézet elem.
DASHBOARD Irányítópult nézeti elem.

Exportálandó nézetek

Exportálandó nézet: kód, összes irányítópult vagy az összes.

Típus Leírás
CODE A jegyzetfüzet kódnézete.
DASHBOARDS A jegyzetfüzet irányítópultjának összes nézete.
ALL A jegyzetfüzet összes nézete.

Webhook

Mező neve Típus Leírás
id STRING Rendszerértesítési célhelyre hivatkozó azonosító. Ez a mező kötelező.

WebhookÉrtesítések

Mező neve Típus Leírás
on_start Webhook-ek tömbje A futtatás indításakor értesítendő rendszercélok választható listája. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_start legfeljebb 3 célhely adható meg.
on_success Egy Webhook tömb A futtatás sikeres befejezésekor értesítendő rendszercélok opcionális listája. A futtatás sikeresnek minősül, ha egy TERMINATEDlife_cycle_state és egy SUCCESSFULresult_state végződéssel fejeződik be. Ha nincs megadva a feladat létrehozása, alaphelyzetbe állítása vagy frissítése során, a lista üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_success legfeljebb 3 célhely adható meg.
on_failure Egy Webhook tömb A rendszercímzettek opcionális listája, akiket értesíteni kell, amikor a futtatás sikertelenül fejeződik be. A futtatás sikertelennek minősül, ha INTERNAL_ERROR-vel ér véget.
life_cycle_state vagy egy SKIPPED, FAILEDvagy TIMED_OUTresult_state. Ha ez nincs megadva a feladat létrehozásakor, a lista alaphelyzetbe állítása vagy frissítése üres, és a rendszer nem küld értesítéseket. A tulajdonsághoz on_failure legfeljebb 3 célhely adható meg.
on_duration_warning_threshold_exceeded Egy Webhook tömb Választható rendszercélok listája, amelyről értesítést kaphat, ha a futtatás időtartama meghaladja a RUN_DURATION_SECONDS mezőben megadott health metrika küszöbértékét. A tulajdonsághoz on_duration_warning_threshold_exceeded legfeljebb 3 célhely adható meg.

MunkaterületTárolásiInformáció

Munkaterület tárolási adatai.

Mező neve Típus Leírás
destination STRING Fájl célhelye. Példa: /Users/someone@domain.com/init_script.sh