Květen 2020
Tyto funkce a vylepšení platformy Azure Databricks byly vydány v květnu 2020.
Poznámka:
Verze jsou nasazeny po etapách. Váš účet Azure Databricks se nemusí aktualizovat až do týdne po počátečním datu vydání.
Virtuální počítače řady Easv4 (Beta)
29. května 2020
Azure Databricks teď poskytuje podporu beta verzí pro virtuální počítače řady Easv4, které používají ssd úrovně Premium a můžou dosáhnout vyšší maximální frekvence 3,35 GHz. Tyto typy instancí můžou optimalizovat výkon úloh pro podnikové aplikace náročné na paměť.
Obecná dostupnost Databricks Runtime 6.6 pro genomiku
26. května 2020
Databricks Runtime 6.6 pro Genomics je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Čtenář GFF3
- Podpora vlastních referenčních genomů
- Časové limity potrubí pro jednotlivé vzorky
- Možnost exportu BAM
- Objekty blob manifestu
Databricks Runtime 6.6 ML GA
26. května 2020
Databricks Runtime 6.6 ML je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Aktualizace mlflow: 1.7.0 na 1.8.0
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 ML (EoS ).
Obecná dostupnost Databricks Runtime 6.6
26. května 2020
Databricks Runtime 6.6 přináší mnoho upgradů knihoven a nových funkcí, včetně následujících funkcí Delta Lake:
- Teď můžete pomocí operace
merge
automaticky vyvíjet schéma tabulky. To je užitečné ve scénářích, ve kterých chcete vkládat nebo aktualizovat data o změnách v tabulce a schéma dat se v průběhu času mění. Místo detekce a použití změn schématu před přenesením můžemerge
současně vyvíjet schéma a přenést změny. Viz Automatický vývoj schématu pro slučování Delta Lake. - Výkon operací sloučení, které mají pouze odpovídající klauzule, to znamená, že mají pouze akce
update
adelete
, ale žádné akceinsert
, byl vylepšen. - Tabulky Parquet, na které se odkazuje v metastoru Hive, se nyní konvertují na Delta Lake prostřednictvím identifikátorů tabulky pomocí
CONVERT TO DELTA
.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 (EoS ).
Limit velikosti koncového bodu pro odstranění DBFS rozhraní REST API
21.–28. května 2020: Verze 3.20
Při rekurzivním odstranění velkého počtu souborů pomocí rozhraní DBFS API se operace odstranění provede v přírůstcích. Volání vrátí odpověď po přibližně 45s s chybovou zprávou s výzvou k opětovnému vyvolání operace odstranění, dokud se struktura adresáře plně neodstraní. Příklad:
{
"error_code": "PARTIAL_DELETE",
"message": "The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
Snadné zobrazení velkého počtu registrovaných modelů MLflow
21.–28. května 2020: Verze 3.20
Registr modelů MLflow teď podporuje vyhledávání na straně serveru a stránkování registrovaných modelů, což organizacím s velkým počtem modelů umožňuje efektivně provádět výpis a vyhledávání. Stejně jako předtím můžete hledat modely podle názvu a získávat výsledky seřazené podle názvu nebo času poslední aktualizace. Pokud ale máte velký počet modelů, stránky se načtou mnohem rychleji a hledání načte nejaktuálnější zobrazení modelů.
Knihovny nakonfigurované pro instalaci na všechny clustery se neinstalují v clusterech s Databricks Runtime 7.0 a vyššími verzemi
21.-28. května 2020: Verze 3.20
V Databricks Runtime 7.0 a novějších používá základní verze Apache Sparku Scala 2.12. Vzhledem k tomu, že knihovny kompilované v jazyce Scala 2.11 můžou clustery Databricks Runtime 7.0 zakázat neočekávaným způsobem, clustery se spuštěným modulem Databricks Runtime 7.0 a novějším neinstalují knihovny nakonfigurované tak, aby se nainstalovaly na všechny clustery. Na záložce Knihovny se zobrazuje stav Skipped
a oznámení o ukončení podpory související se změnami ve správě knihoven.
Pokud máte cluster vytvořený ve starší verzi Databricks Runtime před vydáním verze 3.20 do vašeho pracovního prostoru a teď tento cluster upravíte tak, aby používal Databricks Runtime 7.0, všechny knihovny, které byly nakonfigurované tak, aby se nainstalovaly na všechny clustery, se nainstalují do tohoto clusteru. V tomto případě mohou jakékoli nekompatibilní JARy v nainstalovaných knihovnách způsobit zakázání clusteru. Alternativním řešením je klonování clusteru nebo vytvoření nového clusteru.
Databricks Runtime 7.0 pro Genomics (Beta)
21. května 2020
Databricks Runtime 7.0 pro Genomics je postaven na Databricks Runtime 7.0 a obsahuje následující změny knihovny:
- Knihovna ADAM byla aktualizována z verze 0.30.0 na 0.32.0.
- Knihovna Hail není součástí modulu Databricks Runtime 7.0 pro Genomics, protože neexistuje žádná verze založená na Apache Sparku 3.0.
Databricks Runtime 7.0 ML (Beta)
21. května 2020
Databricks Runtime 7.0 ML je postaven na Databricks Runtime 7.0 a obsahuje následující nové funkce:
- Vlastní prostředí a Python knihovny omezené na poznámkové bloky, spravované pomocí příkazů conda a pip.
- Aktualizace hlavních balíčků Pythonu, mezi které patří tensorflow, tensorboard, pytorch, xgboost, sparkdl a hyperopt.
- Nově přidané balíčky Pythonu lightgbm, nltk, petastorm a plotly.
- RStudio Server Open Source verze 1.2.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 7.0 ML (EoS ).
Databricks Runtime 6.6 pro Genomics (Beta)
7. května 2020
Databricks Runtime 6.6 pro Genomics je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Čtenář GFF3
- Podpora vlastních referenčních genomů
- Časové limity zpracovatelského řetězce pro jednotlivé vzorky
- Možnost exportu BAM
- Manifesty blobů
Databricks Runtime 6.6 ML (Beta)
7. května 2020
Databricks Runtime 6.6 ML je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Aktualizováno mlflow: 1.7.0 na 1.8.0
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 ML (EoS ).
Databricks Runtime 6.6 (Beta)
7. května 2020
Databricks Runtime 6.6 (Beta) přináší mnoho upgradů knihoven a nových funkcí, včetně následujících funkcí Delta Lake:
- Teď můžete pomocí operace
merge
automaticky vyvíjet schéma tabulky. To je užitečné ve scénářích, ve kterých chcete vkládat nebo aktualizovat data o změnách v tabulce a schéma dat se v průběhu času mění. Místo detekce a použití změn schématu před přenesením můžemerge
současně vyvíjet schéma a přenést změny. Viz Automatický vývoj schématu pro slučování Delta Lake. - Výkon operací sloučení, které mají pouze odpovídající klauzule, to znamená, že obsahují pouze akce
update
adelete
a žádné akceinsert
, byl vylepšen. - Tabulky Parquet, na které se odkazuje v metastoru Hive, je nyní možné převést na Delta Lake pomocí jejich identifikátorů tabulek použitím
CONVERT TO DELTA
.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 (EoS ).
Klastry úloh jsou nyní označeny názvem a ID úlohy.
5.-12. května 2020: Verze 3.19
Clustery úloh se automaticky označí názvem a ID úlohy. Značky se objeví ve fakturovatelných přehledech využití, abyste mohli snadno přisuzovat využití DBU jednotlivým úlohám a identifikovat anomálie. Značky jsou sanitizované na specifikace značek clusteru, jako jsou povolené znaky, maximální velikost a maximální počet značek. Název úlohy je obsažen ve RunName
značce a ID úlohy je obsaženo ve značce JobId
.
Obnovení odstraněných buněk poznámkového bloku
5.-12. května 2020: Verze 3.19
Odstraněné buňky teď můžete obnovit pomocí klávesové zkratky (Z
) nebo výběrem možnosti Upravit > Odstranit buňky.
Limit fronty čekajících úloh
5.–12. května 2020: Verze 3.19
Pracovní prostor je teď omezen na 1 000 aktivních (běžících a čekajících) úloh. Vzhledem k tomu, že pracovní prostor je omezen na 150 souběžně běžících úloh, může mít pracovní prostor ve frontě čekání až 850 úloh.