Megosztás a következőn keresztül:


Mi az a Photon?

Ez a cikk a számítási feladatok Photon-lekérdezési motoron való futtatásának előnyeit ismerteti.

A Photon egy nagy teljesítményű Azure Databricks-natív vektoros lekérdezési motor, amely gyorsabban futtatja az SQL-számítási feladatokat és a DataFrame API-hívásokat, hogy csökkentse a számítási feladatonkénti teljes költséget. A Photon kompatibilis az Apache Spark API-kkal, így a meglévő kóddal működik.

Photon-funkciók

Az alábbiakban a Photon használatának főbb jellemzői és előnyei szerepelnek.

  • Sql- és egyenértékű DataFrame-műveletek támogatása Delta- és Parquet-táblákkal.
  • Gyorsított lekérdezések, amelyek gyorsabban dolgozzák fel az adatokat, és aggregációkat és illesztéseket tartalmaznak.
  • Gyorsabb teljesítmény, ha az adatok ismételten a lemezgyorsítótárból érhetők el.
  • Robusztus vizsgálati teljesítmény sok oszlopot és sok kis fájlt tartalmazó táblákon.
  • Gyorsabb delta- és parquet-írás UPDATE, DELETE, MERGE INTO, INSERTés CREATE TABLE AS SELECThasználatával, beleértve a több ezer oszlopot tartalmazó széles táblázatokat is.
  • A rendezési egyesítési illesztéseket kivonatos illesztésekre cseréli.
  • Az AI- és ML-számítási feladatok esetében a Photon javítja a Spark SQL, a Spark DataFrames, a funkciófejlesztés, a GraphFrames és az xgboost4j használatát használó alkalmazások teljesítményét.

Foton engedélyezése

A foton engedélyezése számítási típustól függően változik:

  • A photon alapértelmezés szerint fut az SQL-raktárakon és a jegyzetfüzetek és munkafolyamatok kiszolgáló nélküli számításán.

  • A Photon alapértelmezés szerint engedélyezve van a Databricks Runtime 9.1 LTS-t vagy újabb verziót futtató számításnál.

  • A Photon manuálisan engedélyezhető a Databricks Runtime 15.2 for Machine Learning (EoS) vagy újabb verzióját futtató számításon.

Photon-engedélyezés konfigurálása

Ha engedélyezni vagy letiltani szeretné a Photon-t a teljes célú és feladatalapú számításban, jelölje be a Foton-gyorsítás használata jelölőnégyzetet a Számítási felhasználói felület.

A Photon alapértelmezés szerint nincs engedélyezve a Clusters API-val vagy a Jobs API-val létrehozott számításokon. A Photon engedélyezéséhez a runtime_engine attribútumot PHOTONértékre kell állítania.

Támogatott példánytípusok

A Photon számos példánytípust támogat az illesztőprogram és a feldolgozó csomópontokon. A fotonpéldány-típusok a nem Photon-futtató példánytípustól eltérő sebességgel használnak adatbázisokat. A Photon-példányokkal és a DBU-használattal kapcsolatos további információkért tekintse meg az Azure Databricks díjszabási oldalát.

Támogatott operátorok, kifejezések és adattípusok

A Photon által lefedett operátorok, kifejezések és adattípusok a következők.

Operátorok

  • Vizsgálat, szűrés, projekt
  • Hash összesítés/illesztés/keverés
  • Nested-Loop csatlakozás
  • Null-Aware illesztésgátló
  • Union, Expand, ScalarSubquery
  • Delta/Parquet Write Sink
  • Sort
  • Ablakfüggvény

Kifejezések

  • Összehasonlítás / logika
  • Számtani / Matematikai (legtöbb)
  • Feltételes (HA, CASE stb.)
  • Sztring (gyakoriak)
  • Vet
  • Összesítések (leggyakoribbak)
  • Dátum/időbélyeg

Adattípusok

  • Bájt/Rövid/Int/Hosszú
  • Logikai
  • Sztring/bináris
  • Decimális
  • Lebegőpontos/dupla
  • Dátum/időbélyeg
  • Struktúra
  • Tömb
  • Térkép

A Photon-t igénylő funkciók

Az alábbiakban a Photont igénylő funkciók szerepelnek.

Korlátozások

  • Strukturált streamelés: A Photon jelenleg támogatja az állapot nélküli streamelést a Delta, a Parquet, a CSV és a JSON használatával. Az állapot nélküli Kafka és a Kinesis streamelés támogatott, ha Delta- vagy Parquet-fogadóba ír.
  • A Photon nem támogatja az UDF-eket, AZ RDD API-kat és az Adatkészlet API-kat.
  • A Photon nem befolyásolja azokat a lekérdezéseket, amelyek általában két másodperc alatt futnak.

Ha a számítási feladat nem támogatott műveletet ér el, a számítási erőforrás a számítási feladat hátralévő részében a standard futtatókörnyezeti motorra vált.