Cara menggunakan Data Wrangler pada Spark DataFrames

Artikel
08/14/2024

Data Wrangler, alat berbasis notebook untuk analisis data eksploratif, sekarang mendukung Spark DataFrames dan pandas DataFrames. Ini menghasilkan kode PySpark, selain kode Python. Untuk gambaran umum Data Wrangler, yang mencakup cara menjelajahi dan mengubah Pandas DataFrames, kunjungi tutorial utama. Tutorial ini menunjukkan cara menggunakan Data Wrangler untuk menjelajahi dan mengubah Spark DataFrames.

Prasyarat

Dapatkan langganan Microsoft Fabric. Atau, daftar untuk uji coba Microsoft Fabric gratis.
Masuk ke Microsoft Fabric.
Gunakan pengalih pengalaman di sisi kiri bawah halaman beranda Anda untuk beralih ke Fabric.

Batasan

Operasi kode kustom saat ini hanya didukung untuk Pandas DataFrames.
Tampilan Data Wrangler berfungsi paling baik pada monitor besar, meskipun Anda dapat meminimalkan atau menyembunyikan bagian antarmuka yang berbeda, untuk mengakomodasi layar yang lebih kecil.

Meluncurkan Data Wrangler dengan Spark DataFrame

Pengguna dapat membuka Spark DataFrames di Data Wrangler langsung dari notebook Microsoft Fabric, dengan menavigasi ke perintah dropdown yang sama tempat Pandas DataFrames ditampilkan. Daftar Spark DataFrames aktif muncul di menu dropdown di bawah daftar variabel panda aktif.

Cuplikan kode ini membuat Spark DataFrame dengan data sampel yang sama yang digunakan dalam tutorial Pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Di tab "Beranda" pita buku catatan, gunakan perintah dropdown Wrangler Data untuk menelusuri DataFrame aktif yang tersedia untuk pengeditan. Pilih yang ingin Anda buka di Data Wrangler.

Tip

Wrangler Data tidak dapat dibuka saat kernel notebook sibuk. Sel yang dieksekusi harus menyelesaikan eksekusinya sebelum Data Wrangler dapat diluncurkan, seperti yang ditunjukkan pada cuplikan layar ini:

Memilih sampel kustom

Data Wrangler secara otomatis mengonversi Spark DataFrames ke sampel panda karena alasan performa. Namun, semua kode yang dihasilkan alat pada akhirnya diterjemahkan ke PySpark ketika diekspor kembali ke notebook. Seperti halnya panda DataFrame apa pun, Anda dapat menyesuaikan sampel default. Untuk membuka sampel kustom DataFrame aktif apa pun dengan Data Wrangler, pilih "Pilih sampel kustom" dari menu dropdown, seperti yang ditunjukkan pada cuplikan layar ini:

Ini meluncurkan pop-up dengan opsi untuk menentukan ukuran sampel yang diinginkan (jumlah baris) dan metode pengambilan sampel (rekaman pertama, rekaman terakhir, atau set acak), seperti yang ditunjukkan pada cuplikan layar ini:

Menampilkan statistik ringkasan

Saat Data Wrangler dimuat, Data Wrangler menampilkan spanduk informasi di atas kisi pratinjau. Spanduk ini menjelaskan bahwa Spark DataFrames untuk sementara dikonversi ke sampel panda, tetapi semua kode yang dihasilkan pada akhirnya dikonversi ke PySpark. Sebelumnya, menggunakan Data Wrangler pada Spark DataFrames tidak berbeda dengan menggunakannya pada Pandas DataFrames. Gambaran umum deskriptif di panel "Ringkasan" menampilkan informasi tentang dimensi sampel, nilai yang hilang, dan banyak lagi. Pemilihan kolom apa pun di kisi Data Wrangler meminta panel "Ringkasan" untuk memperbarui dan menampilkan statistik deskriptif tentang kolom tertentu tersebut. Wawasan cepat tentang setiap kolom juga tersedia di header-nya.

Tip

Statistik dan visual khusus kolom (baik di panel "Ringkasan" maupun di header kolom) bergantung pada jenis data kolom. Misalnya, histogram terikat kolom numerik akan muncul di header kolom hanya jika kolom ditransmisikan sebagai jenis numerik, seperti yang ditunjukkan pada cuplikan layar ini:

Menelusuri operasi pembersihan data

Daftar langkah-langkah pembersihan data yang dapat dicari dapat ditemukan di panel "Operasi". Dari panel "Operasi", pemilihan langkah pembersihan data meminta Anda untuk menyediakan kolom atau kolom target, bersama dengan parameter yang diperlukan untuk menyelesaikan langkah tersebut. Misalnya, perintah untuk menskalakan kolom secara numerik memerlukan rentang nilai baru, seperti yang ditunjukkan pada cuplikan layar ini:

Tip

Anda dapat menerapkan pilihan operasi yang lebih kecil dari menu setiap header kolom, seperti yang ditunjukkan pada cuplikan layar ini:

Mempratinjau dan menerapkan operasi

Kisi tampilan Data Wrangler secara otomatis mempratinjau hasil operasi yang dipilih, dan kode yang sesuai secara otomatis muncul di panel di bawah kisi. Untuk menerapkan kode yang dipratinjau, pilih "Terapkan" di salah satu tempat. Untuk menghapus kode yang dipratinjau dan mencoba operasi baru, pilih "Buang" seperti yang ditunjukkan pada cuplikan layar ini:

Setelah operasi diterapkan, kisi tampilan Data Wrangler dan ringkasan pembaruan statistik untuk mencerminkan hasilnya. Kode muncul dalam daftar operasi yang dijalankan, yang terletak di panel "Langkah-langkah pembersihan", seperti yang ditunjukkan pada cuplikan layar ini:

Tip

Anda selalu dapat membatalkan langkah yang terakhir diterapkan. Di panel "Langkah-langkah pembersihan", ikon tempat sampah akan muncul jika Anda mengarahkan kursor ke langkah yang terakhir diterapkan, seperti yang ditunjukkan pada cuplikan layar ini:

Tabel ini meringkas operasi yang saat ini didukung Oleh Data Wrangler:

Operasi	Keterangan
urutkan	Mengurutkan kolom dalam urutan naik atau turun
Filter	Memfilter baris berdasarkan satu atau beberapa kondisi
Pengodean satu panas	Buat kolom baru untuk setiap nilai unik di kolom yang sudah ada, yang menunjukkan ada atau tidak adanya nilai tersebut per baris
Pengodean satu panas dengan pemisah	Memisahkan dan mengodekan data kategoris satu panas menggunakan pemisah
Ubah tipe kolom	Mengubah tipe data kolom
Jatuhkan kolom	Menghapus satu atau beberapa kolom
Pilih kolom	Pilih satu atau beberapa kolom untuk disimpan, dan hapus kolom lainnya
Ganti nama kolom	Mengganti nama kolom
Hilangkan nilai yang hilang	Menghapus baris dengan nilai yang hilang
Jatuhkan baris duplikat	Letakkan semua baris yang memiliki nilai duplikat dalam satu atau beberapa kolom
Isi nilai yang hilang	Ganti sel dengan nilai yang hilang dengan nilai baru
Temukan dan ganti	Ganti sel dengan pola pencocokan yang tepat
Kelompokkan menurut kolom dan agregat	Mengelompokkan menurut nilai kolom dan hasil agregat
Spasi kosong strip	Menghapus spasi kosong dari awal dan akhir teks
Pisahkan teks	Memisahkan kolom menjadi beberapa kolom berdasarkan pemisah yang ditentukan pengguna
Mengonversi teks menjadi huruf kecil	Mengonversi teks menjadi huruf kecil
Mengonversi teks menjadi huruf besar	Mengonversi teks menjadi HURUF BESAR
Menskalakan nilai min/maks	Menskalakan kolom numerik antara nilai minimum dan maksimum
Isian Flash	Membuat kolom baru secara otomatis berdasarkan contoh yang berasal dari kolom yang sudah ada

Mengubah tampilan Anda

Kapan saja, Anda dapat menyesuaikan antarmuka dengan tab "Tampilan" di toolbar yang terletak di atas kisi tampilan Wrangler Data. Ini dapat menyembunyikan atau menampilkan panel yang berbeda berdasarkan preferensi dan ukuran layar Anda, seperti yang ditunjukkan dalam cuplikan layar ini:

Menyimpan dan mengekspor kode

Toolbar di atas kisi tampilan Data Wrangler menyediakan opsi untuk menyimpan kode yang dihasilkan. Anda bisa menyalin kode ke clipboard, atau mengekspornya ke buku catatan sebagai fungsi. Untuk Spark DataFrames, semua kode yang dihasilkan pada sampel panda diterjemahkan ke PySpark sebelum mendarat kembali di notebook. Sebelum Data Wrangler ditutup, alat ini menampilkan pratinjau kode PySpark yang diterjemahkan, dan menyediakan opsi untuk mengekspor kode panda perantara juga.

Tip

Data Wrangler menghasilkan kode yang diterapkan hanya saat Anda menjalankan sel baru secara manual, dan tidak akan menimpa DataFrame asli Anda, seperti yang ditunjukkan pada cuplikan layar ini:

Kode dikonversi ke PySpark, seperti yang ditunjukkan pada cuplikan layar ini:

Anda kemudian dapat menjalankan kode yang diekspor, seperti yang ditunjukkan dalam cuplikan layar ini:

Untuk gambaran umum Data Wrangler, kunjungi artikel pendamping ini
Untuk mencoba Data Wrangler di Visual Studio Code, buka Data Wrangler di VISUAL Code
Apakah kami melewatkan fitur yang Anda butuhkan? Beri tahu kami! Sarankan di forum Fabric Ideas

Bagikan melalui

Cara menggunakan Data Wrangler pada Spark DataFrames

Prasyarat

Batasan

Meluncurkan Data Wrangler dengan Spark DataFrame

Memilih sampel kustom

Menampilkan statistik ringkasan

Menelusuri operasi pembersihan data

Mempratinjau dan menerapkan operasi

Mengubah tampilan Anda

Menyimpan dan mengekspor kode

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Cara menggunakan Data Wrangler pada Spark DataFrames

Prasyarat

Batasan

Meluncurkan Data Wrangler dengan Spark DataFrame

Memilih sampel kustom

Menampilkan statistik ringkasan

Menelusuri operasi pembersihan data

Mempratinjau dan menerapkan operasi

Mengubah tampilan Anda

Menyimpan dan mengekspor kode

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: