Koala
Penting
Dokumentasi ini telah dihentikan dan mungkin tidak diperbarui. Produk, layanan, atau teknologi yang disebutkan dalam konten ini tidak lagi didukung. Lihat API Pandas di Spark.
Catatan
Koala tidak digunakan lagi. Jika Anda mencoba menggunakan Koalas pada kluster yang menjalankan Databricks Runtime 10.0 (EoS) ke atas, pesan informasi ditampilkan, merekomendasikan agar Anda menggunakan Pandas API di Spark sebagai gantinya.
Koala menyediakan pengganti drop-in untuk panda. Umumnya digunakan oleh para ilmuwan data, panda adalah paket Python yang menyediakan struktur data dan alat analisis data yang mudah digunakan untuk bahasa pemrograman Python. Namun, panda tidak menskalakan ke data besar. Koala mengisi celah ini dengan menyediakan API setara panda yang bekerja pada Apache Spark. Koala berguna tidak hanya untuk pengguna panda tetapi juga pengguna PySpark, karena Koala mendukung banyak tugas yang sulit dilakukan dengan PySpark, misalnya merencanakan data secara langsung dari DataFrame PySpark.
Persyaratan
- Koala disertakan pada kluster yang menjalankan Databricks Runtime 7.3 hingga 9.1. Untuk kluster yang menjalankan Databricks Runtime 10.0 ke atas, gunakan API Panda di Spark sebagai gantinya.
- Untuk menggunakan Koala pada kluster yang menjalankan Databricks Runtime 7.0 atau di bawahnya, pasang Koala sebagai pustaka PyPI Azure Databricks.
- Untuk menggunakan Koala di IDE, server buku catatan, atau aplikasi kustom lainnya yang terhubung ke kluster Azure Databricks, pasang Databricks Koneksi dan ikuti instruksi pemasangan Koala.
Notebook
Buku catatan berikut menunjukkan cara bermigrasi dari panda ke Koala.