Hızlı Başlangıç: Apache Spark ile analiz etme
Bu öğreticide Azure Synapse için Apache Spark ile veri yükleme ve analiz etme adımlarını öğreneceksiniz.
Önkoşullar
Örnek verileri birincil depolama hesabına yerleştirdiğinizden emin olun.
Sunucusuz Apache Spark havuzu oluşturma
- Synapse Studio'da sol taraftaki bölmede Apache Spark havuzlarını yönet'i>seçin.
- Yeni'yi seçin
- Apache Spark havuzu adı için Spark1 yazın.
- Düğüm boyutu alanına Küçük yazın.
- Düğüm sayısı için En az 3, en fazla 3 olarak ayarlayın
- Gözden geçir ve oluştur>Oluştur'u seçin. Apache Spark havuzunuz birkaç saniye içinde hazır olur.
Sunucusuz Apache Spark havuzlarını anlama
Sunucusuz Spark havuzu, kullanıcının Spark ile nasıl çalışmak istediğini göstermenin bir yoludur. Havuz kullanmaya başladığınızda gerekirse spark oturumu oluşturulur. Havuz, bu oturum tarafından kaç Spark kaynağı kullanılacağını ve oturumun otomatik olarak duraklatılmadan önce ne kadar süreceğini denetler. Havuzun kendisi için değil, bu oturum sırasında kullanılan spark kaynakları için ödeme yapabilirsiniz. Bu şekilde Spark havuzu, kümeleri yönetmeden Apache Spark'ı kullanmanıza olanak tanır. Bu, sunucusuz SQL havuzunun çalışma şekline benzer.
Spark havuzuyla NYC Taxi verilerini analiz etme
Not
Örnek verileri birincil depolama hesabına yerleştirdiğinizden emin olun.
Synapse Studio'da Geliştirme hub'ına gidin.
Yeni bir not defteri oluşturun.
Yeni bir kod hücresi oluşturun ve bu hücreye aşağıdaki kodu yapıştırın:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Yük URI'sini değiştirerek abfss URI şemasına göre depolama hesabınızdaki örnek dosyaya başvurmasını sağlayın.
Not defterinde, Ekle menüsünde daha önce oluşturduğumuz Spark1 sunucusuz Spark havuzunu seçin.
Hücrede Çalıştır'ı seçin. Synapse gerekirse bu hücreyi çalıştırmak için yeni bir Spark oturumu başlatır. Yeni bir Spark oturumu gerekiyorsa, başlangıçta oluşturulması yaklaşık 2-5 dakika sürer. Oturum oluşturulduktan sonra hücrenin yürütülmesi yaklaşık 2 saniye sürer.
Yalnızca veri çerçevesinin şemasını görmek istiyorsanız aşağıdaki koda sahip bir hücre çalıştırın:
%%pyspark df.printSchema()
NYC Taxi verilerini Spark nyctaxi veritabanına yükleme
Veriler df adlı veri çerçevesi aracılığıyla kullanılabilir. Nyctaxi adlı bir Spark veritabanına yükleyin.
Not defterine yeni bir kod hücresi ekleyin ve aşağıdaki kodu girin:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Spark ve not defterlerini kullanarak NYC Taxi verilerini analiz etme
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Nyctaxi Spark veritabanına yüklediğimiz NYC Taxi verilerini göstermek için hücreyi çalıştırın.
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin. Bu verileri analiz edip sonuçları nyctaxi.passengercountstats adlı bir tabloya kaydedeceğiz.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Verileri görselleştirmek için hücre sonuçlarında Grafik'i seçin.