Hızlı Başlangıç: Apache Spark ile analiz etme

Makale
12/04/2024

Bu öğreticide Azure Synapse için Apache Spark ile veri yükleme ve analiz etme adımlarını öğreneceksiniz.

Önkoşullar

Örnek verileri birincil depolama hesabına yerleştirdiğinizden emin olun.

Sunucusuz Apache Spark havuzu oluşturma

Synapse Studio'da sol taraftaki bölmede Apache Spark havuzlarını yönet'i>seçin.
Yeni'yi seçin
Apache Spark havuzu adı için Spark1 yazın.
Düğüm boyutu alanına Küçük yazın.
Düğüm sayısı için En az 3, en fazla 3 olarak ayarlayın
Gözden geçir ve oluştur>Oluştur'u seçin. Apache Spark havuzunuz birkaç saniye içinde hazır olur.

Sunucusuz Apache Spark havuzlarını anlama

Sunucusuz Spark havuzu, kullanıcının Spark ile nasıl çalışmak istediğini göstermenin bir yoludur. Havuz kullanmaya başladığınızda gerekirse spark oturumu oluşturulur. Havuz, bu oturum tarafından kaç Spark kaynağı kullanılacağını ve oturumun otomatik olarak duraklatılmadan önce ne kadar süreceğini denetler. Havuzun kendisi için değil, bu oturum sırasında kullanılan spark kaynakları için ödeme yapabilirsiniz. Bu şekilde Spark havuzu, kümeleri yönetmeden Apache Spark'ı kullanmanıza olanak tanır. Bu, sunucusuz SQL havuzunun çalışma şekline benzer.

Spark havuzuyla NYC Taxi verilerini analiz etme

Not

Örnek verileri birincil depolama hesabına yerleştirdiğinizden emin olun.

Synapse Studio'da Geliştirme hub'ına gidin.
Yeni bir not defteri oluşturun.

Yeni bir kod hücresi oluşturun ve bu hücreye aşağıdaki kodu yapıştırın:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Yük URI'sini değiştirerek abfss URI şemasına göre depolama hesabınızdaki örnek dosyaya başvurmasını sağlayın.
Not defterinde, Ekle menüsünde daha önce oluşturduğumuz Spark1 sunucusuz Spark havuzunu seçin.
Hücrede Çalıştır'ı seçin. Synapse gerekirse bu hücreyi çalıştırmak için yeni bir Spark oturumu başlatır. Yeni bir Spark oturumu gerekiyorsa, başlangıçta oluşturulması yaklaşık 2-5 dakika sürer. Oturum oluşturulduktan sonra hücrenin yürütülmesi yaklaşık 2 saniye sürer.
Yalnızca veri çerçevesinin şemasını görmek istiyorsanız aşağıdaki koda sahip bir hücre çalıştırın:
```
%%pyspark
df.printSchema()
```

NYC Taxi verilerini Spark nyctaxi veritabanına yükleme

Veriler df adlı veri çerçevesi aracılığıyla kullanılabilir. Nyctaxi adlı bir Spark veritabanına yükleyin.

Not defterine yeni bir kod hücresi ekleyin ve aşağıdaki kodu girin:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Spark ve not defterlerini kullanarak NYC Taxi verilerini analiz etme

Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Nyctaxi Spark veritabanına yüklediğimiz NYC Taxi verilerini göstermek için hücreyi çalıştırın.

Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin. Bu verileri analiz edip sonuçları nyctaxi.passengercountstats adlı bir tabloya kaydedeceğiz.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Verileri görselleştirmek için hücre sonuçlarında Grafik'i seçin.

Sonraki adım

Ayrılmış SQL havuzuyla verileri analiz etme

Aracılığıyla paylaş