Bagikan melalui


API Panda pada Spark

Catatan

Fitur ini tersedia pada kluster yang menjalankan Databricks Runtime 10.0 (EoS) ke atas. Untuk kluster yang menjalankan Databricks Runtime 9.1 LTS ke bawah, gunakan Koalas sebagai gantinya.

Umumnya digunakan oleh para ilmuwan data, pandas adalah paket Python yang menyediakan struktur data yang praktis dan alat analisis data untuk bahasa pemrograman Python. Namun, panda tidak menskalakan ke data besar. API Pandas di Spark mengisi celah ini dengan menyediakan API setara pandas yang berfungsi pada Apache Spark. API Pandas di Spark tidak hanya berguna untuk pengguna pandas tetapi juga pengguna PySpark, karena API pandas di Spark mendukung banyak tugas yang sulit dilakukan dengan PySpark, misalnya merencanakan data langsung dari PySpark DataFrame.

Persyaratan

PANDAS API di Spark tersedia mulai dari Apache Spark 3.2 (yang disertakan dimulai dalam Databricks Runtime 10.0 (EoS)) dengan menggunakan pernyataan berikut import :

import pyspark.pandas as ps

Notebook

Buku catatan berikut menunjukkan cara bermigrasi dari pandas ke API pandas di Spark.

pandas ke API pandas di buku catatan Spark

Dapatkan buku catatan

Sumber