Analisis data eksploratif pada Azure Databricks: Alat dan teknik
Artikel ini menjelaskan alat dan teknik untuk analisis data eksploratif (EDA) di Azure Databricks.
Apa itu EDA dan mengapa itu berguna?
Analisis data eksploratif (EDA) mencakup metode untuk menjelajahi himpunan data untuk meringkas karakteristik utamanya dan mengidentifikasi masalah apa pun dengan data. Dengan menggunakan metode statistik dan visualisasi, Anda dapat mempelajari tentang himpunan data untuk menentukan kesiapannya untuk analisis dan menginformasikan teknik apa yang akan diterapkan untuk persiapan data. EDA juga dapat memengaruhi algoritma mana yang Anda pilih untuk diterapkan untuk melatih model ML.
Apa saja alat EDA di Azure Databricks?
Azure Databricks memiliki alat analisis dan visualisasi bawaan di Databricks SQL dan di Databricks Runtime. Untuk daftar ilustrasi jenis visualisasi yang tersedia di Azure Databricks, lihat Jenis visualisasi.
EDA di Databricks SQL
Berikut adalah beberapa artikel bermanfaat tentang visualisasi data dan alat eksplorasi di Databricks SQL:
EDA di Databricks Runtime
Databricks Runtime menyediakan lingkungan bawaan yang memiliki pustaka eksplorasi data populer yang sudah diinstal. Anda dapat melihat daftar pustaka bawaan dalam catatan rilis .
Selain itu, artikel berikut menunjukkan contoh alat visualisasi di Databricks Runtime:
- Membuat visualisasi data di buku catatan Databricks
- Tutorial : Teknik EDA menggunakan notebook Databricks
Dalam notebook Databricks Python, Anda dapat menggabungkan SQL dan Python untuk menjelajahi data. Saat Anda menjalankan kode dalam sel bahasa SQL di buku catatan Python, hasil tabel secara otomatis tersedia sebagai Python DataFrame. Untuk detailnya, lihat Menjelajahi hasil sel SQL di buku catatan Python.