Kolom metadata file

Artikel
01/23/2025

Anda bisa mendapatkan informasi metadata untuk file input dengan kolom _metadata. Kolom adalah kolom yang tersembunyi dan tersedia untuk semua format file input. Untuk menyertakan kolom _metadata dalam DataFrame yang dikembalikan, Anda harus secara eksplisit mereferensikannya dalam kueri Anda.

Jika sumber data berisi kolom bernama _metadata, kueri mengembalikan kolom dari sumber data, dan bukan metadata file.

Peringatan

Bidang baru mungkin ditambahkan ke kolom _metadata dalam rilis mendatang. Untuk mencegah kesalahan evolusi skema jika kolom _metadata diperbarui, Databricks merekomendasikan untuk memilih bidang tertentu dari kolom dalam kueri Anda. Lihat contoh.

Metadata yang didukung

Kolom _metadata adalah STRUCT yang berisi bidang berikut:

Nama	Tipe	Deskripsi	Contoh	Rilis Runtime Databricks Minimum
file_path	`STRING`	Jalur file file input.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nama file input bersama dengan ekstensinya.	`f0.csv`	10.5
file_size	`LONG`	Panjang file input, dalam byte.	628	10.5
file_modification_time	`TIMESTAMP`	Tanda waktu modifikasi terakhir dari file input.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Mulai offset blok yang sedang dibaca, dalam byte.	0	13.0
file_block_length	`LONG`	Panjang blok yang sedang dibaca, dalam byte.	628	13.0

Contoh

Gunakan dalam pembaca sumber data berbasis file dasar

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Pilih bidang tertentu

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Gunakan dalam filter

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Gunakan dalam COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Gunakan di Auto Loader

Catatan

Saat menulis kolom _metadata, kami mengganti namanya menjadi source_metadata. Menulisnya sebagai _metadata akan membuatnya tidak mungkin untuk mengakses kolom metadata dalam tabel target, karena jika sumber data berisi kolom bernama _metadata, kueri akan mengembalikan kolom dari sumber data, dan bukan metadata file.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Bagikan melalui

Kolom metadata file

Metadata yang didukung

Contoh

Gunakan dalam pembaca sumber data berbasis file dasar

Python

Scala

Pilih bidang tertentu

Python

Scala

Gunakan dalam filter

Python

Scala

Gunakan dalam COPY INTO

Gunakan di Auto Loader

Python

Scala

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Kolom metadata file

Metadata yang didukung

Contoh

Gunakan dalam pembaca sumber data berbasis file dasar

Python

Scala

Pilih bidang tertentu

Python

Scala

Gunakan dalam filter

Python

Scala

Gunakan dalam COPY INTO

Gunakan di Auto Loader

Python

Scala

Artikel terkait

Saran dan Komentar

Sumber Daya Tambahan: