Práce se soubory v Azure Databricks

Článek
03/11/2025

Azure Databricks má několik nástrojů a rozhraní API pro interakci se soubory v následujících umístěních:

Svazky katalogu Unity
Soubory pracovního prostoru
Cloudové úložiště objektů
Připojení DBFS a kořen DBFS
Dočasné úložiště připojené k uzlu ovladače clusteru

Tento článek obsahuje příklady pro interakci se soubory v těchto umístěních pro následující nástroje:

Apache Spark
Spark SQL a Databricks SQL
Nástroje systému souborů Databricks (dbutils.fs nebo %fs)
Rozhraní příkazového řádku Databricks
Databricks REST API
Příkazy prostředí Bash (%sh)
Instalace knihovny na úrovni notebooku pomocí %pip
pandas
Nástroje pro správu a zpracování souborů Pythonu v OSS

Důležitý

Operace se soubory vyžadující přístup k datům FUSE nemají přímý přístup ke cloudovému úložišti objektů pomocí identifikátorů URI. Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k těmto umístěním pro FUSE.

Scala podporuje FUSE pro svazky katalogu Unity a soubory pracovních prostorů na výpočetních prostředcích nakonfigurovaných pomocí katalogu Unity a vyhrazeného režimu přístupu (dříve režim sdíleného přístupu). Na výpočtech nakonfigurovaných s vyhrazeným režimem přístupu (dříve režimem přístupu jednoho uživatele) a Modulem Databricks Runtime 14.3 a novějším Scala podporuje FUSE pro svazky katalogu Unity a soubory pracovního prostoru, s výjimkou podprocesů pocházejících ze Scala, jako je například příkaz Scala "cat /Volumes/path/to/file".!!.

Spark a další procesy JVM mají přístup pouze ke svazkům katalogu Unity nebo souborům pracovního prostoru pomocí čtenářů a zapisovačů, které podporují katalog Unity. Například nelze zadat soubor JAR jako závislost v konfiguraci Sparku a nemůžete použít vlastní zdroje dat PySpark. Pokud máte pracovní úlohu v JVM z knihoven, které potřebují přístup k souborům ve svazcích nebo v souborech pracovního prostoru, zkopírujte soubory do místního úložiště na výpočetní jednotce použitím příkazů Pythonu nebo shellu, jako je %sh mv.. Nepoužívejte %fs ani dbutils.fs, které používají JVM. Pokud se soubor musí nacházet při spuštění clusteru, nejprve soubor přesuňte pomocí inicializačního skriptu. Viz Co jsou inicializační skripty?.

Musím pro přístup k datům zadat schéma identifikátoru URI?

Cesty přístupu k datům v Azure Databricks se řídí jedním z následujících standardů:

cesty ve stylu identifikátoru URI zahrnují schéma identifikátoru URI. Pro řešení přístupu k datům nativních pro Databricks jsou schémata identifikátorů URI volitelná pro většinu případů použití. Při přímém přístupu k datům v cloudovém úložišti objektů musíte zadat správné schéma identifikátoru URI pro typ úložiště.
POSIXové cesty poskytují přístup k datům relativně ke kořenovému adresáři ovladače (/). Cesty stylu POSIX nikdy nevyžadují schéma. Svazky katalogu Unity nebo připojovací body DBFS můžete použít k poskytování přístupu ve stylu POSIX k datům v cloudovém úložišti objektů. Mnoho architektur ML a dalších modulů OSS Python vyžaduje FUSE a může používat pouze cesty ve stylu POSIX.

Práce se soubory ve svazcích katalogu Unity

Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k ne tabulkovým datovým souborům uloženým v cloudovém úložišti objektů. Viz Co jsou svazky katalogu Unity?.

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("/Volumes/my_catalog/my_schema/my_volume/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM csv.`/Volumes/my_catalog/my_schema/my_volume/data.csv`; `LIST '/Volumes/my_catalog/my_schema/my_volume/';`
Nástroje systému souborů Databricks	`dbutils.fs.ls("/Volumes/my_catalog/my_schema/my_volume/")` `%fs ls /Volumes/my_catalog/my_schema/my_volume/`
Rozhraní příkazového řádku Databricks (CLI)	`databricks fs cp /path/to/local/file dbfs:/Volumes/my_catalog/my_schema/my_volume/`
Databricks REST API	`POST https://<databricks-instance>/api/2.1/jobs/create` `{"name": "A multitask job", "tasks": [{..."libraries": [{"jar": "/Volumes/dev/environment/libraries/logging/Logging.jar"}],},...]}`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip -o /Volumes/my_catalog/my_schema/my_volume/tmp/text.zip`
Instalace knihoven	`%pip install /Volumes/my_catalog/my_schema/my_volume/my_library.whl`
Pandy	`df = pd.read_csv('/Volumes/my_catalog/my_schema/my_volume/data.csv')`
Open Source Software Python	`os.listdir('/Volumes/my_catalog/my_schema/my_volume/path/to/directory')`

Poznámka

Při práci s rozhraním příkazového řádku Databricks se vyžaduje schéma dbfs:/.

Omezení svazků

Svazky mají následující omezení:

Přímé zápisy nebo nesekvenční (náhodné) zápisy, jako je například zápis souborů Zip a Excel, nejsou podporovány. U úloh přímého připojení nebo náhodného zápisu nejprve proveďte operace na místním disku a pak výsledky zkopírujte do svazků katalogu Unity. Například:

# python
import xlsxwriter
from shutil import copyfile

workbook = xlsxwriter.Workbook('/local_disk0/tmp/excel.xlsx')
worksheet = workbook.add_worksheet()
worksheet.write(0, 0, "Key")
worksheet.write(0, 1, "Value")
workbook.close()

copyfile('/local_disk0/tmp/excel.xlsx', '/Volumes/my_catalog/my_schema/my_volume/excel.xlsx')

Řídké soubory nejsou podporovány. Ke kopírování řídkých souborů použijte cp --sparse=never:

$ cp sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file
error writing '/dbfs/sparse.file': Operation not supported
$ cp --sparse=never sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file

Práce se soubory pracovního prostoru

Soubory pracovního prostoru Databricks jsou soubory v pracovním prostoru, které jsou uloženy v účtu úložiště pracovního prostoru . Soubory pracovního prostoru můžete použít k ukládání a přístupu k souborům, jako jsou poznámkové bloky, soubory zdrojového kódu, datové soubory a další prostředky pracovního prostoru. Vzhledem k tomu, že soubory pracovního prostoru mají omezení velikosti, databricks doporučuje ukládat jenom malé datové soubory, a to především pro vývoj a testování.

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("file:/Workspace/Users/<user-folder>/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM json.`file:/Workspace/Users/<user-folder>/file.json`;
Nástroje systému souborů Databricks	`dbutils.fs.ls("file:/Workspace/Users/<user-folder>/")` `%fs ls file:/Workspace/Users/<user-folder>/`
Rozhraní příkazového řádku Databricks	`databricks workspace list`
Databricks REST API	`POST https://<databricks-instance>/api/2.0/workspace/delete` `{"path": "/Workspace/Shared/code.py", "recursive": "false"}`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip -o /Workspace/Users/<user-folder>/text.zip`
Instalace knihoven	`%pip install /Workspace/Users/<user-folder>/my_library.whl`
Pandy	`df = pd.read_csv('/Workspace/Users/<user-folder>/data.csv')`
Open Source Software Python	`os.listdir('/Workspace/Users/<user-folder>/path/to/directory')`

Poznámka

Při práci s nástroji Databricks, Apache Sparkem nebo SQL se vyžaduje schéma file:/.

Omezení při práci se soubory pracovního prostoru najdete v tématu Omezení.

Kam se ukládají odstraněné soubory pracovního prostoru?

Když odstraníte soubor pracovního prostoru, odešle se do koše. Soubory můžete obnovit nebo trvale odstranit z koše pomocí uživatelského rozhraní.

Viz Odstranění objektu.

Práce se soubory v cloudovém úložišti objektů

Databricks doporučuje používat svazky katalogu Unity ke konfiguraci zabezpečeného přístupu k souborům v cloudovém úložišti objektů. Pokud se rozhodnete přímo přistupovat k datům v cloudovém úložišti objektů pomocí identifikátorů URI, musíte nakonfigurovat oprávnění. Viz Správa externích umístění, externích tabulek a externích svazků.

Následující příklady používají identifikátory URI pro přístup k datům v cloudovém úložišti objektů:

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM csv.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json`; `LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path';`
Nástroje systému souborů Databricks	`dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/")` `%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/`
Rozhraní příkazového řádku Databricks	Nepodporováno
Databricks REST API	Nepodporováno
Příkazy prostředí Bash	Nepodporováno
Instalace knihoven	`%pip install abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl`
Pandy	Nepodporováno
OSS Python	Nepodporováno

Práce se soubory v připojeních DBFS a kořenovém adresáři DBFS

DBFS mounty nelze zabezpečit pomocí katalogu Unity a Databricks je již nedoporučuje. Data uložená v kořenovém adresáři DBFS jsou přístupná všem uživatelům v pracovním prostoru. Databricks nedoporučuje ukládat jakýkoli citlivý nebo produkční kód nebo data do kořene DBFS. Viz Co je DBFS?.

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("/mnt/path/to/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM json.`/mnt/path/to/data.json`;
Nástroje systému souborů Databricks	`dbutils.fs.ls("/mnt/path")` `%fs ls /mnt/path`
Rozhraní příkazového řádku Databricks	`databricks fs cp dbfs:/mnt/path/to/remote/file /path/to/local/file`
Databricks REST API	`POST https://<host>/api/2.0/dbfs/delete --data '{ "path": "/tmp/HelloWorld.txt" }'`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip > /dbfs/mnt/tmp/text.zip`
Instalace knihoven	`%pip install /dbfs/mnt/path/to/my_library.whl`
Pandy	`df = pd.read_csv('/dbfs/mnt/path/to/data.csv')`
Open Source Software Python	`os.listdir('/dbfs/mnt/path/to/directory')`

Poznámka

Při práci s rozhraním příkazového řádku Databricks se vyžaduje schéma dbfs:/.

Práce se soubory v dočasném úložišti připojeném k uzlu ovladače

Dočasné úložiště připojené k uzlu ovladače je blokové úložiště s integrovanou cestou založenou na POSIX. Všechna data uložená v tomto umístění zmizí, když se cluster ukončí nebo restartuje.

Nástroj	Příklad
Apache Spark	Nepodporováno
Spark SQL a Databricks SQL	Nepodporováno
Nástroje systému souborů Databricks	`dbutils.fs.ls("file:/path")` `%fs ls file:/path`
Databricks příkazové rozhraní	Nepodporováno
Databricks REST API	Nepodporováno
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip > /tmp/text.zip`
Instalace knihoven	Nepodporováno
Pandy	`df = pd.read_csv('/path/to/data.csv')`
Software s otevřeným zdrojovým kódem Python	`os.listdir('/path/to/directory')`

Poznámka

Při práci s nástroji Databricks se vyžaduje schéma file:/.

Přesun dat z dočasného úložiště do svazků

Možná budete chtít přistupovat k datům staženým nebo uloženým do dočasného úložiště pomocí Apache Sparku. Vzhledem k tomu, že dočasné úložiště je připojené k ovladači a Spark je distribuovaný modul pro zpracování, ne všechny operace můžou přímo přistupovat k datům. Předpokládejme, že musíte přesunout data ze systému souborů ovladače do svazků katalogu Unity. V takovém případě můžete kopírovat soubory pomocí magic příkazů nebo nástrojů Databricks, jak je znázorněno v následujících příkladech.

dbutils.fs.cp ("file:/<path>", "/Volumes/<catalog>/<schema>/<volume>/<path>")

%sh cp /<path> /Volumes/<catalog>/<schema>/<volume>/<path>

%fs cp file:/<path> /Volumes/<catalog>/<schema>/<volume>/<path>

Další zdroje informací

Informace o nahrávání místních souborů nebo stahování internetových souborů do Azure Databricks najdete v tématu Nahrání souborů do služby Azure Databricks.

Sdílet prostřednictvím

Práce se soubory v Azure Databricks

Musím pro přístup k datům zadat schéma identifikátoru URI?

Práce se soubory ve svazcích katalogu Unity

Omezení svazků

Práce se soubory pracovního prostoru

Kam se ukládají odstraněné soubory pracovního prostoru?

Práce se soubory v cloudovém úložišti objektů

Práce se soubory v připojeních DBFS a kořenovém adresáři DBFS

Práce se soubory v dočasném úložišti připojeném k uzlu ovladače

Přesun dat z dočasného úložiště do svazků

Další zdroje informací

Váš názor

Další materiály