¿Qué le pasó a Databricks Repos?
Azure Databricks implementó nuevos elementos de interfaz de usuario que permiten a los usuarios trabajar directamente con carpetas respaldadas por repositorios de Git desde la interfaz de usuario del área de trabajo, reemplazando eficazmente la funcionalidad de características “Repos” anterior y independiente“.
¿Qué significa este cambio para mí?
Si es un usuario de la característica Repositorios de Databricks para el control de código fuente basado en Git co- versionado de los recursos del proyecto, la funcionalidad principal no ha cambiado. La diferencia más notable es que muchas operaciones de interfaz de usuario contextuales ahora hacen referencia a “carpetas” de Git en lugar de “Repos”.
Por ejemplo, se podría crear una carpeta de Databricks respaldada por un repositorio de Git seleccionando Nuevo y, a continuación, Repositorio desde la interfaz de usuario:
Ahora, seleccione Nuevo y elija carpeta Git. ¡Lo mismo, nombre diferente!
Este cambio proporciona algunas mejoras que simplifican el trabajo con carpetas controladas por versiones:
- Mejor organización de carpetas: las carpetas de Git se pueden crear en cualquier nivel del árbol de archivos del área de trabajo, lo que le permite organizar las carpetas de Git de una manera que funcione mejor para el proyecto. Por ejemplo, puede crear carpetas de Git en
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
. Los repositorios solo se pueden crear en un nivel de directorio fijo, como la raíz de la carpeta de usuario repositorios, como/Workspace/Repos/<user email>/<Repo name>
.- Nota: Las carpetas de Git pueden contener o intercalar con otros recursos que actualmente no son admitidos con Repos. Los tipos de recursos no admitidos, como los recursos de DBSQL y los experimentos de MLflow, se pueden mover a carpetas de Git. El soporte con la serialización para recursos adicionales se agregará a lo largo del tiempo.
- Comportamiento simplificado de la interfaz de usuario: este cambio aporta una interacción–común del área de trabajo que trabaja con Git–directamente en el área de trabajo de Databricks y reduce el tiempo dedicado a navegar entre el área de trabajo y las carpetas de Git controladas por versiones.
¿Qué ha cambiado, específicamente?
- Las carpetas de Git se pueden crear fuera del directorio
/Repos
. - Las carpetas de Git se crean seleccionando Nueva>carpeta Git en un área de trabajo de Databricks. Esto crea una nueva carpeta de Git en
/Workspace/Users/<user-email>/
. - Las carpetas de Git se pueden crear en varias profundidades del árbol de archivos del área de trabajo siempre que estén en
/Workspace/Users/<user-email>
. Por ejemplo, puede crear carpetas de Git en/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
. Puede tener varias carpetas de Git en/Workspace/Users/<user-email>
. - Los recursos no admitidos se permiten en carpetas de Git. El soporte de serialización con otros tipos de recursos se agregará a lo largo del tiempo.
- A diferencia de los Repositorios, no se puede crear una nueva carpeta de Git en Databricks sin una dirección URL del repositorio remoto.
¿Qué ocurre con mis repositorios actuales?
Si tiene repositorios definidos para el área de trabajo de Azure Databricks, no se van y no es necesario migrar esos repositorios existentes a carpetas de Git. En su lugar, los repositorios se han integrado en la interfaz de usuario del área de trabajo de Azure Databricks y ya no se presentan como un conjunto independiente de carpetas organizadas en un nodo repo de nivel superior. Ahora se pueden encontrar en la /Workspace
carpeta raíz como /Workspace/Repos
.
- Las referencias existentes
/Repos
seguirán funcionando. Las rutas de acceso que comienzan por/Repos
o/Workspace/Repos
hacen referencia a la misma carpeta y las rutas de acceso declaradas enjobs
,dbutils.notebook.run
y%run
las referencias pueden permanecer sin cambios. - En un caso poco frecuente, debe realizar una modificación única en el área de trabajo para que funcione esta redirección. Para obtener más información sobre esta modificación, consulte Referencias a objetos del área de trabajo.
Databricks recomienda que los usuarios creen nuevas carpetas de Git en lugar de Repositorios si necesitan conectarse al control de código fuente de Git desde el área de trabajo de Databricks. La colocación de repositorios de Git y otros recursos de área de trabajo hace que las carpetas de Git sean más reconocibles y fáciles de administrar que los repositorios.
Permisos de carpeta de Git carpetas de Git tienen los mismos permisos carpeta del área de trabajo que otras carpetas del área de trabajo. Los usuarios deben tener el permiso CAN_MANAGE
para realizar la mayoría de las operaciones de Git.
¿Qué DBR debo usar para ejecutar código en carpetas de Git?
Para una ejecución de código consistente entre carpetas de Git y Repos heredados, Databricks recomienda a los usuarios ejecutar código solo en carpetas de Git con DBR 15+.
Comportamiento actual del directorio de trabajo (CWD)
Databricks Runtime (DBR) versión 14 o superior permite el uso de rutas relativas y proporciona la misma experiencia de directorio de trabajo actual (CWD) para todos los cuadernos, donde se ejecuta el cuaderno desde el directorio de trabajo actual. El comportamiento del directorio de trabajo actual (CWD) puede ser incoherente entre cuadernos en una carpeta de Git y en una carpeta que no sea de Git para versiones antiguas de Databricks Runtime (DBR).
Comportamiento sys.path de Python
Databricks Runtime (DBR) versión 14.3 o posterior proporciona el mismo comportamiento de sys.path
en carpetas de Git que en repositorios heredados. Con versiones anteriores de DBR, el comportamiento de las carpetas de Git difiere de los repositorios heredados, ya que el directorio del repositorio raíz no se agrega automáticamente a sys.path
para las carpetas de Git. Para Python, sys.path
contiene una lista de directorios que el intérprete busca al importar módulos. Si no puede usar DBR 15 o superior, puede anexar manualmente una ruta de acceso de carpeta a sys.path
como solución alternativa.
Para obtener ejemplos sobre cómo agregar directorios a sys.path
mediante rutas de acceso relativas, consulte Importación de módulos de Python y R.
Precedencia de la biblioteca de Python
Databricks Runtime (DBR) versión 14.3 o posterior proporciona la misma prioridad de la biblioteca de Python en carpetas de Git que en repositorios heredados.