Mulai cepat: Menganalisis dengan Apache Spark
Dalam tutorial ini, Anda akan mempelajari langkah-langkah dasar untuk memuat dan menganalisis data dengan Apache Spark untuk Azure Synapse.
Prasyarat
Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.
Membuat kumpulan Apache Spark tanpa server
- Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Apache Spark.
- Pilih Baru
- Untuk Nama kumpulan Apache Spark masukkan Spark1.
- Untuk Ukuran node masukkan Kecil.
- Untuk Jumlah node Atur jumlah minimum ke 3 dan maksimum ke 3
- Pilih Tinjau + buat>Buat. Kumpulan Apache Spark Anda akan siap dalam beberapa detik.
Memahami kumpulan Apache Spark tanpa server
Kumpulan Spark tanpa server adalah cara untuk menunjukkan bagaimana pengguna ingin bekerja dengan Spark. Saat Anda mulai menggunakan kumpulan, sesi Spark dibuat jika diperlukan. Kumpulan mengontrol berapa banyak sumber daya Spark yang akan digunakan oleh sesi tersebut dan berapa lama sesi akan berlangsung sebelum dijeda secara otomatis. Anda membayar sumber daya spark yang digunakan selama sesi tersebut dan bukan untuk kumpulan itu sendiri. Dengan cara ini, kumpulan Spark memungkinkan Anda menggunakan Apache Spark tanpa mengelola kluster. Ini mirip dengan cara kerja kumpulan SQL tanpa server.
Analisis data Taksi NYC dengan kumpulan Spark
Catatan
Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.
Di Synapse Studio, buka hub Kembangkan.
Buat notebook baru.
Buat sel kode baru dan tempel kode berikut di sel tersebut:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Ubah URI beban, sehingga referensi file sampel di akun penyimpanan Anda sesuai dengan skema URI abfss.
Di notebook, di menu Lampirkan ke, pilih kumpulan Spark tanpa server Spark1 yang kita buat sebelumnya.
Pilih Jalankan pada sel. Synapse akan memulai sesi Spark baru untuk menjalankan sel ini jika diperlukan. Jika sesi Spark baru diperlukan, awalnya akan memakan waktu sekitar 2 hingga 5 menit untuk dibuat. Setelah sesi dibuat, eksekusi sel akan memakan waktu sekitar 2 detik.
Jika Anda hanya ingin melihat skema dataframe menjalankan sel dengan kode berikut:
%%pyspark df.printSchema()
Muat data Taksi NYC ke database nyctaxi Spark
Data tersedia melalui dataframe bernama df. Muat data tersebut ke dalam database Spark bernama nyctaxi.
Tambahkan sel kode baru ke notebook, lalu masukkan kode berikut ini:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analisis data Taksi NYC menggunakan Spark dan notebook
Buat sel kode baru dan masukkan kode berikut.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Jalankan sel untuk menampilkan data Taksi NYC yang kita muat ke dalam database nyctaxi Spark.
Buat sel kode baru dan masukkan kode berikut. Kami akan menganalisis data ini dan menyimpan hasilnya ke dalam tabel yang disebut nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Dalam hasil sel, pilih Bagan untuk melihat data yang divisualisasikan.