即将推出的功能
了解即将发布的 Azure Databricks 版本中的功能和行为更改。
备注
自动加载程序 cloudFiles.useIncrementalListing
选项已弃用。 尽管此说明讨论了对选项默认值的更改,以及如何在此更改后继续使用它,但 Databricks 建议将此选项的使用替换为 文件通知模式。
在即将发布的 Databricks Runtime 版本中,弃用的自动加载程序 cloudFiles.useIncrementalListing
选项的值将默认设置为 false
。 将此值设置为 false
会导致每次运行时自动加载程序执行完整目录列表。 目前,cloudFiles.useIncrementalListing
选项的默认值为 auto
,指示自动加载程序尽最大努力检测是否可以将增量列表与目录一起使用。
若要继续使用增量列表功能,请将 cloudFiles.useIncrementalListing
选项设置为 true
。 将此值设置为 true
时,自动加载程序将每 7 个增量列表执行一次完整列表。
若要详细了解自动加载程序目录列表选项,请参阅 自动加载程序选项。
从 1 月 21 日开始,Databricks 将开始向启用了预测优化的所有帐户启用统计信息管理。 统计信息管理通过在写入时添加统计信息集合并自动为 Unity 目录托管表运行 ANALYZE
命令来扩展现有的预测优化功能。 有关预测优化的详细信息,请参阅 Unity Catalog 托管表的预测优化。
对无服务器计算的更新将支持使用 Scala SDK 的服务凭据对外部云服务进行 Unity 目录管理的身份验证。 对 Databricks Runtime 16.2 及更高版本中已提供的服务主体身份验证的 Scala 支持增加了对使用 Python SDK 使用服务凭据进行身份验证的支持。 请参阅使用服务凭据管理对外部云服务的访问。
即将发布的增量实时表将在从管道中删除具体化视图或流式处理表时更改行为。 通过此更改,下次管道更新运行时,不会自动删除已移除的具体化视图或流式处理表。 相反,你可以使用 DROP MATERIALIZED VIEW
命令删除具体化视图,或使用 DROP TABLE
命令删除流式处理表。 删除对象后,运行管道更新不会自动恢复该对象。 如果将具有相同定义的具体化视图或流式处理表重新添加到管道,则会创建一个新对象。 但是,可以使用 UNDROP
命令恢复对象。
目前,Databricks 默认以“Databricks 源格式”创建所有新笔记本,仅捕获代码。 2025 年 1 月,新的默认笔记本格式将是 IPYNB(.ipynb
),这一格式还能够捕捉笔记本环境、可视化定义以及笔记本小组件。 可以在工作区用户 设置 窗格中更改此新默认值。 有关笔记本格式的更多详细信息,请参阅 笔记本格式。
Databricks 将在 2025 年 2 月 1 日为所有 Azure Databricks 工作区启用工作区文件。 此更改将阻止工作区用户使用新的工作区文件功能。 2025 年 2 月 1 日之后,你将无法搭配使用 enableWorkspaceFilesystem
属性与用于启用和禁用工作区功能的 Azure Databricks REST API 来禁用工作区文件。 有关工作区文件的更多详细信息,请参阅 什么是工作区文件?。
Databricks 计划更改通过 Delta Sharing 共享的表的默认设置,使其默认包含历史记录。 以前,历史记录共享默认处于禁用状态。 共享表历史记录可提高读取性能,并为高级增量优化提供自动支持。
除了当前支持的自动性能优化之外,对“适用于工作流的无服务器计算”优化功能的增强还使你能够更好地控制工作负载是针对性能还是成本进行优化。 若要了解详细信息,请参阅对适用于笔记本、作业和管道的无服务器计算的成本节省。
Databricks 建议使用 AI/BI 仪表板(以前称为 Lakeview 仪表板)。 早期版本的仪表板(以前称为 Databricks SQL 仪表板)现在称为旧版仪表板。 Databricks 不建议创建新的旧版仪表板。 与旧版相比,AI/BI 仪表板提供了改进的功能,包括 AI 辅助创作、草稿和已发布模式以及交叉筛选。
- 2025 年 4 月 7 日:对旧版仪表板的官方支持将终止。 只会解决严重的安全问题和服务中断。
- 2025 年 11 月 3 日:Databricks 将开始对过去六个月未访问的旧版仪表板进行存档。 存档的仪表板将不再可访问,存档过程将以滚动的方式进行。 对活跃使用的仪表板的访问将保持不变。
Databricks 将与客户合作,在 2025 年 11 月 3 日之后为活动旧版仪表板制定迁移计划。
为了帮助过渡到 AI/BI 仪表板,可以在用户界面和 API 中使用升级工具。 有关如何在 UI 中使用内置迁移工具的说明,请参阅 将旧版仪表板克隆到 AI/BI 仪表板。 有关使用 REST API 创建和管理仪表板的教程,请参阅使用 Azure Databricks API 管理仪表板。
目前,可计费使用系统表可能包括无服务器 SKU 计费记录,其中 run_as
、job_id
、job_run_id
和 notebook_id
为 null 值。 这些记录表示不直接归因于任何特定工作负载的共享资源的相关成本。
为帮助简化成本报告,Databricks 不久后会将这些共享成本归入产生这些成本的特定工作负载名下。 报告中将不再在工作负载标识符字段中显示值为 null 的计费记录。 随着无服务器计算的使用增加以及添加更多的工作负载,帐单上这些共享成本的比例会随着在更多工作负载之间共享而减少。
有关监视无服务器计算成本的详细信息,请参阅监视无服务器计算的成本。
由于 bug,某些授权和身份验证审核日志除了 sourceIPAddress
字段中的 IP(例如,"sourceIPAddress":"10.2.91.100:0"
),还包括端口号。 端口号记录为 0
,不提供任何实际值,并且与 Databricks 审核日志的其余部分不一致。 为了增强审核日志的一致性,Databricks 计划更改这些审核日志事件的 IP 地址格式。 此更改将从 2024 年 8 月初开始逐步推出。
如果审核日志包含 0.0.0.0
的 sourceIpAddress
,Databricks 可能会停止记录它。
当 Spark 4.0 发布时,Azure Databricks 计划通过下一个主要 Databricks Runtime 版本移除 JDK 8 支持。 Azure Databricks 计划通过下一个 LTS 版本的 Databricks Runtime 14.x 移除 JDK 11 支持。
Databricks 已开始为新工作区自动启用 Unity Catalog。 这样就无需帐户管理员在创建工作区后配置 Unity Catalog。 跨帐户逐步推出。
Databricks Runtime 计划在所有 Databricks Runtime 维护版本中将 sqlite-jdbc 版本从 3.8.11.2 升级到 3.42.0.0。 版本为 3.42.0.0 的 API 与 3.8.11.2 不完全兼容。 请确认你的方法和返回类型使用版本 3.42.0.0。
如果在代码中使用 sqlite-jdbc,请检查 sqlite-jdbc 兼容性报告。