Memuat data untuk pembelajaran mesin dan pembelajaran mendalam
Bagian ini mencakup informasi tentang memuat data khusus untuk aplikasi ML dan DL. Untuk informasi umum tentang memuat data, lihat Menyerap data ke dalam databricks lakehouse.
Menyimpan file untuk pemuatan data dan pemeriksaan model
Aplikasi pembelajaran mesin mungkin perlu menggunakan penyimpanan bersama untuk pemuatan data dan pemeriksaan model. Ini sangat penting untuk pembelajaran mendalam terdistribusi.
Azure Databricks menyediakan Unity Catalog, solusi tata kelola terpadu untuk data dan aset AI. Anda dapat menggunakan Unity Catalog untuk mengakses data pada kluster menggunakan API file Spark dan lokal.
Memuat data tabular
Anda dapat memuat data pembelajaran mesin tabular dari tabel atau file (misalnya, lihat Membaca file CSV). Anda dapat mengonversi Apache Spark DataFrames menjadi pandas DataFrames menggunakan metodetoPandas()
PySpark , lalu secara opsional mengonversi ke format NumPy menggunakan metodeto_numpy()
PySpark .
Menyiapkan data untuk menyempurnakan model bahasa besar
Anda dapat menyiapkan data Anda untuk menyempurnakan sumber terbuka model bahasa besar dengan Memeluk Face Transformers dan Memeluk Himpunan Data Wajah.
Menyiapkan data untuk menyempurnakan model Hugging Face
Menyiapkan data untuk pelatihan pembelajaran mendalam terdistribusi
Bagian ini mencakup menyiapkan data untuk pelatihan pembelajaran mendalam terdistribusi menggunakan Mosaic Streaming dan TFRecords.