Mulai cepat: Menganalisis dengan Apache Spark

Artikel
12/04/2024

Dalam tutorial ini, Anda akan mempelajari langkah-langkah dasar untuk memuat dan menganalisis data dengan Apache Spark untuk Azure Synapse.

Prasyarat

Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.

Membuat kumpulan Apache Spark tanpa server

Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Apache Spark.
Pilih Baru
Untuk Nama kumpulan Apache Spark masukkan Spark1.
Untuk Ukuran node masukkan Kecil.
Untuk Jumlah node Atur jumlah minimum ke 3 dan maksimum ke 3
Pilih Tinjau + buat>Buat. Kumpulan Apache Spark Anda akan siap dalam beberapa detik.

Memahami kumpulan Apache Spark tanpa server

Kumpulan Spark tanpa server adalah cara untuk menunjukkan bagaimana pengguna ingin bekerja dengan Spark. Saat Anda mulai menggunakan kumpulan, sesi Spark dibuat jika diperlukan. Kumpulan mengontrol berapa banyak sumber daya Spark yang akan digunakan oleh sesi tersebut dan berapa lama sesi akan berlangsung sebelum dijeda secara otomatis. Anda membayar sumber daya spark yang digunakan selama sesi tersebut dan bukan untuk kumpulan itu sendiri. Dengan cara ini, kumpulan Spark memungkinkan Anda menggunakan Apache Spark tanpa mengelola kluster. Ini mirip dengan cara kerja kumpulan SQL tanpa server.

Analisis data Taksi NYC dengan kumpulan Spark

Catatan

Pastikan Anda telah menempatkan data sampel di akun penyimpanan utama.

Di Synapse Studio, buka hub Kembangkan.
Buat notebook baru.

Buat sel kode baru dan tempel kode berikut di sel tersebut:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Ubah URI beban, sehingga referensi file sampel di akun penyimpanan Anda sesuai dengan skema URI abfss.
Di notebook, di menu Lampirkan ke, pilih kumpulan Spark tanpa server Spark1 yang kita buat sebelumnya.
Pilih Jalankan pada sel. Synapse akan memulai sesi Spark baru untuk menjalankan sel ini jika diperlukan. Jika sesi Spark baru diperlukan, awalnya akan memakan waktu sekitar 2 hingga 5 menit untuk dibuat. Setelah sesi dibuat, eksekusi sel akan memakan waktu sekitar 2 detik.
Jika Anda hanya ingin melihat skema dataframe menjalankan sel dengan kode berikut:
```
%%pyspark
df.printSchema()
```

Muat data Taksi NYC ke database nyctaxi Spark

Data tersedia melalui dataframe bernama df. Muat data tersebut ke dalam database Spark bernama nyctaxi.

Tambahkan sel kode baru ke notebook, lalu masukkan kode berikut ini:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Analisis data Taksi NYC menggunakan Spark dan notebook

Buat sel kode baru dan masukkan kode berikut.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Jalankan sel untuk menampilkan data Taksi NYC yang kita muat ke dalam database nyctaxi Spark.

Buat sel kode baru dan masukkan kode berikut. Kami akan menganalisis data ini dan menyimpan hasilnya ke dalam tabel yang disebut nyctaxi.passengercountstats.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Dalam hasil sel, pilih Bagan untuk melihat data yang divisualisasikan.

Langkah selanjutnya

Menganalisis data dengan kumpulan SQL khusus

Bagikan melalui