2019 年 7 月
這些功能和 Azure Databricks 平台改善功能於 2019 年 7 月發行。
注意
分階段發行。 您的 Azure Databricks 帳戶可能要到初始發行日期後至多一週才會更新。
即將推出:Databricks 6.0 不支援 Python 2
預計在即將到來的 Python 2 生命週期結束之後 (在 2020 年宣告),Databricks Runtime 6.0 將不支援 Python 2。 舊版 Databricks Runtime 將繼續支援 Python 2。 我們預計在 2019 年稍後發行 Databricks Runtime 6.0。
在集區閒置執行個體預先載入 Databricks Runtime 版本
2019 年 7 月 30 日 - 8 月 6 日:版本 2.103
您現在可以透過選取要在集區中閒置執行個體上載入的 Databricks Runtime 版本,來加快集區支援的叢集啟動。 集區 UI 上的欄位稱為預先載入的 Spark 版本。
自訂叢集標籤和集區標籤共同作業效果更佳
2019 年 7 月 30 日 - 8 月 6 日:版本 2.103
本月早些時候,Azure Databricks 引進了集區,這是一組閑置實例,可協助您快速啟動叢集。 在原始版本中,集區支援的叢集繼承了集區組態中的預設和自訂標籤,而且您無法在叢集層級修改這些標籤。 現在,您可以設定特定於集區支援的叢集的自訂標籤,並且該叢集將套用所有自訂標籤,無論這些標籤繼承自集區還是專門指派給該叢集。 您無法新增索引鍵名稱與繼承自集區的自訂標籤的索引鍵名稱相同的叢集特定的自訂標籤 (也就是說,無法覆寫繼承自集區的自訂標籤)。 如需詳細資料,請參閱集區標籤。
MLflow 1.1 帶來數個 UI 和 API 改良
2019 年 7 月 30 日 - 8 月 6 日:版本 2.103
MLflow 1.1 引入了數個新功能來提高 UI 和 API 可用性:
現在,如果執行次數超過 100,「執行瀏覽 UI」可讓您瀏覽多頁的執行資訊。 在第 100 次執行之後,按一下 [載入更多] 按鈕可載入接下來的 100 次執行。
「比較執行 UI」現在提供一個平行座標圖。 繪圖可讓您觀察一組 n 維度參數和計量之間的關聯性。 它會將所有執行可視化為以色彩編碼的行,這些行會根據計量的值進行色彩編碼(例如精確度),並顯示每個執行所採用的參數值。
現在,您可以從執行概觀 UI 中新增和編輯標籤,並在實驗搜尋檢視中檢視標籤。
新的 MLflowContext API 可讓您以類似 Python API 的方式建立和記錄執行。 此 API 不同於現有的低階
MlflowClient
API,後者僅裝合 REST API。您現在可以使用 DeleteTag API,從 MLflow 執行中刪除標籤。
如需詳細資料,請參閱 MLflow 1.1 部落格文章。 如需功能和修正的完整清單,請參閱 MLflow Changelog。
Pandas DataFrame 顯示轉譯的方式與 Jupyter 相同
2019 年 7 月 30 日 - 8 月 6 日:版本 2.103
現在,當您呼叫 pandas DataFrame 時,它的呈現方式將與在 Jupyter 中的呈現方式相同。
新區域
2019 年 7 月 30 日
Azure Databricks 現已可在下列其他區域中使用:
- 南韓中部
- 南非北部
已更新中繼存放區連線限制
2019 年 7 月 16 日至 23 日:版本 2.102
eastus、eastus2、centralus、westus、westus2、westeurope、northeurope 的新 Azure Databricks 工作區將會有更高的中繼存放區連線上限,達到 250 個連線。 現有的工作區會繼續使用目前的中繼存放區,且不會中斷,並繼續有 100 的連線限制。
設定集區的權限 (公開預覽)
2019 年 7 月 16 日至 23 日:版本 2.102
集區 UI 現在支援對可管理集區的人員以及可將叢集連結至集區的人員設定權限。
如需詳細資料,請參閱集區權限。
適用於機器學習的 Databricks Runtime 5.5
2019 年 7 月 15 日
Databricks Runtime 5.5 ML 是以 Databricks Runtime 5.5 LTS (EoS) 為基礎而建置。 其中包含許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch、Keras 和 XGBoost,並使用 Horovod 提供分散式 TensorFlow 訓練。
本版本包含下列新功能和改善功能:
- 新增 MLflow 1.0 Python 套件
- 已升級機器學習程式庫
- TensorFlow 從 1.12.0 升級至 1.13.1
- PyTorch 從 0.4.1 升級至 1.1.0
- scikit-learn 從 0.19.1 升級至 0.20.3
- HorovodRunner 的單節點操作
如需詳細資料,請參閱適用於 ML 的 Databricks Runtime 5.5 LTS (EoS)。
Databricks Runtime 5.5
2019 年 7 月 15 日
Databricks Runtime 5.5 現已推出。 Databricks Runtime 5.5 包括 Apache Spark 2.4.3、已升級的 Python、R、Java 和 Scala 程式庫,以及以下新功能:
- Azure Databricks 上的 Delta Lake 自動優化 GA
- Azure Databricks 上的 Delta Lake 改善了最小值、最大值和計數彙總查詢效能
- 處理速度更快的模型推斷管線以及已改善的二進位檔案資料來源和純量迭代器 pandas UDF (公開預覽)
- R 筆記本中的祕密 API
如需詳細資料,請參閱 Databricks Runtime 5.5 LTS (EoS)。
讓執行個體集區待命,以便叢集快速啟動 (公開預覽)
2019 年 7 月 9 日至 11 日:版本 2.101
為了縮短叢集啟動時間,Azure Databricks 現在支援將叢集連結至閒置執行個體的預定義集區。 連結至集區時,叢集會從集區配置其驅動程式和背景工作角色節點。 如果集區沒有足夠的閒置的執行個體,就會透過從雲端提供者配置新的執行個體來進行擴充。 當連結的叢集終止時,所使用的執行個體會傳回集區,並可由不同的叢集重複使用。
Azure Databricks 不會在集區中的執行個體閒置時向 DBU 收費。 執行個體提供者計費確實適用。 請參閱定價。
如需詳細資料,請參閱集區組態參考。
Ganglia 計量
2019 年 7 月 9 日至 11 日:版本 2.101
Ganglia 是一種可調整分散式監視系統,現已可在 Azure Databricks 叢集上使用。 Ganglia 計量可協助您監視叢集效能和健康情況。 您可以從叢集詳細資料頁面存取 Ganglia 計量:
如需有關使用和設定計量的詳細資料,請參閱 Ganglia 計量。
全域系列色彩
2019 年 7 月 9 日至 11 日:版本 2.101
您現在可以指定某個系列的色彩在筆記本中的所有圖表中應保持一致。 請參閱圖表之間的色彩一致性。