Zdieľať cez


Fabric Runtime 1.3 (GA)

Služba Fabric runtime ponúka bezproblémovú integráciu so službou Azure. Poskytuje sofistikované prostredie pre projekty dátového inžinierstva aj dátových vied, ktoré používajú Apache Spark. Tento článok poskytuje prehľad základných funkcií a komponentov zariadenia Fabric Runtime 1.3, najnovšieho modulu runtime pre výpočty veľkého objemu údajov.

Microsoft Fabric Runtime 1.3 je najnovšou verziou ga runtime a zahŕňa tieto súčasti a inovácie určené na vylepšenie funkcií spracovania údajov:

  • Apache Spark 3.5
  • Operačný systém: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Jazyk Python: 3.11
  • Delta Lake: 3.2
  • R: 4.4.1

Prepitné

Fabric Runtime 1.3 zahŕňa podporu pre natívny nástroj na spúšťanie, ktorý môže výrazne zvýšiť výkon bez dodatočných nákladov. Ak chcete povoliť natívny nástroj na spúšťanie vo všetkých úlohách a poznámkových blokoch vo vašom prostredí, prejdite do nastavení prostredia, vyberte položku Spark compute (Výpočet služby Spark), prejdite na kartu Acceleration (Zrýchlenie) a začiarknite políčko Enable native execution engine (Povoliť natívny nástroj na spúšťanie). Po uložení a publikovaní sa toto nastavenie použije v celom prostredí, takže všetky nové úlohy a poznámkové bloky automaticky zdedia a budú mať prospech zo vylepšených možností výkonu.

Nasledujúce pokyny môžete použiť na integráciu modulu runtime 1.3 do svojho pracovného priestoru a použite jeho nové funkcie:

  1. Prejdite v pracovnom priestore na kartu Nastavenia pracovného priestoru.
  2. Prejdite na kartu Dátový inžinier ing/veda a vyberte položku Nastavenia spark.
  3. Vyberte kartu Prostredie.
  4. V časti Verzie modulu runtime rozbaľte rozbaľovací zoznam.
  5. Vyberte 1.3 (Spark 3.5, Delta 3.2) a uložte zmeny. Táto akcia nastaví 1,3 ako predvolený modul runtime pre pracovný priestor.

Snímka obrazovky znázorňujúca, kde vybrať verziu modulu runtime.

Teraz môžete začať pracovať s najnovšími vylepšeniami a funkciami, ktoré boli predstavené v službe Fabric runtime 1.3 (Spark 3.5 a Delta Lake 3.2).

Kľúčové zvýraznenia

Apache Spark 3.5

Apache Spark 3.5.0 je šiestou verziou v sérii 3.x. Táto verzia je produktom rozsiahlej spolupráce v rámci open-source komunity, ktorá rieši viac ako 1 300 problémov zaznamenaných v produkte Jira.

V tejto verzii je k dispozícii inovácia v kompatibilite pre štruktúrované streamovanie. Okrem toho toto vydanie rozširuje funkcie v PySparku a SQL. Pridáva funkcie, ako je napríklad klauzula identifikátor SQL, pomenované argumenty vo volaniach funkcie SQL, a zahrnutie funkcií SQL pre približné agregácie HyperLogLog. Medzi ďalšie nové možnosti patria aj funkcie tabuľky definované používateľom jazyka Python, zjednodušenie distribuovaného školenia prostredníctvom deepSpeed a nové štruktúrované možnosti streamovania, ako je šírenie vodoznakov a operácia dropDuplicatesWithinWatermark .

Úplný zoznam a podrobné zmeny môžete skontrolovať tu: https://spark.apache.org/releases/spark-release-3-5-0.html.

Delta Spark

Delta Lake 3.2 znamená kolektívny záväzok robiť Delta Lake interoperabilné naprieč formátmi, ľahšie pracovať s a výkonnejšími. Delta Spark 3.2 je postavená na vrchole Apache Spark™ 3.5. Artefakt Delta Spark maven bol premenovaný z delta-core na delta-spark.

Úplný zoznam a podrobné zmeny môžete skontrolovať tu: https://docs.delta.io/3.2.0/index.html.

Prepitné

Ak chcete získať aktuálne informácie, podrobný zoznam zmien a konkrétne poznámky k vydaniu modulov CLR služby Fabric, skontrolujte a prihláste sa na odber vydaní a aktualizácií služby Spark Runtime.