Memuat data untuk pembelajaran mesin dan pembelajaran mendalam

Artikel
01/23/2025

Bagian ini mencakup informasi tentang memuat data khusus untuk aplikasi ML dan DL. Untuk informasi umum tentang memuat data, lihat Menyerap data ke dalam databricks lakehouse.

Menyimpan file untuk pemuatan data dan pemeriksaan model

Aplikasi pembelajaran mesin mungkin perlu menggunakan penyimpanan bersama untuk pemuatan data dan pemeriksaan model. Ini sangat penting untuk pembelajaran mendalam terdistribusi.

Azure Databricks menyediakan Unity Catalog, solusi tata kelola terpadu untuk data dan aset AI. Anda dapat menggunakan Unity Catalog untuk mengakses data pada kluster menggunakan API file Spark dan lokal.

Memuat data tabular

Anda dapat memuat data pembelajaran mesin tabular dari tabel atau file (misalnya, lihat Membaca file CSV). Anda dapat mengonversi Apache Spark DataFrames menjadi pandas DataFrames menggunakan metodetoPandas()PySpark , lalu secara opsional mengonversi ke format NumPy menggunakan metodeto_numpy()PySpark .

Menyiapkan data untuk menyempurnakan model bahasa besar

Anda dapat menyiapkan data Anda untuk menyempurnakan sumber terbuka model bahasa besar dengan Memeluk Face Transformers dan Memeluk Himpunan Data Wajah.

Menyiapkan data untuk menyempurnakan model Hugging Face

Menyiapkan data untuk pelatihan pembelajaran mendalam terdistribusi

Bagian ini mencakup menyiapkan data untuk pelatihan pembelajaran mendalam terdistribusi menggunakan Mosaic Streaming dan TFRecords.

Bagikan melalui

Memuat data untuk pembelajaran mesin dan pembelajaran mendalam

Menyimpan file untuk pemuatan data dan pemeriksaan model

Memuat data tabular

Menyiapkan data untuk menyempurnakan model bahasa besar

Menyiapkan data untuk pelatihan pembelajaran mendalam terdistribusi

Saran dan Komentar

Sumber Daya Tambahan: