Rövid útmutató: Elemzés az Apache Spark használatával

Cikk
12/04/2024

Ebben az oktatóanyagban megismerheti az adatok betöltésének és elemzésének alapvető lépéseit az Azure Synapse-hez készült Apache Spark használatával.

Előfeltételek

Győződjön meg arról, hogy a mintaadatokat az elsődleges tárfiókba helyezte.

Kiszolgáló nélküli Apache Spark-készlet létrehozása

A Synapse Studióban a bal oldali panelen válassza az Apache Spark-készletek kezelése>lehetőséget.
Válassza az Új lehetőséget
Az Apache Spark-készlet neveként adja meg a Spark1 nevet.
Csomópontméret esetén adja meg a Kicsi értéket.
Csomópontok száma esetén Állítsa a minimumot 3-ra, a maximumot pedig 3-ra
Válassza a Felülvizsgálat + létrehozás>Létrehozás lehetőséget. Az Apache Spark-készlet néhány másodperc múlva készen áll.

A kiszolgáló nélküli Apache Spark-készletek ismertetése

A kiszolgáló nélküli Spark-készlet azt jelzi, hogy a felhasználó hogyan szeretné használni a Sparkot. Amikor elkezdi használni a készletet, szükség esetén létrejön egy Spark-munkamenet. A készlet szabályozza, hogy az adott munkamenet hány Spark-erőforrást használ, és hogy a munkamenet mennyi ideig tart, mielőtt automatikusan szünetelteti. Az adott munkamenet során használt Spark-erőforrásokért kell fizetnie, nem magának a készletnek. Így a Spark-készlet lehetővé teszi az Apache Spark használatát fürtök kezelése nélkül. Ez hasonló a kiszolgáló nélküli SQL-készlet működéséhez.

NYC Taxi-adatok elemzése Spark-készlettel

Feljegyzés

Győződjön meg arról, hogy a mintaadatokat az elsődleges tárfiókba helyezte.

A Synapse Studióban nyissa meg a Fejlesztés központot.
Hozzon létre új notebookot.

Hozzon létre egy új kódcellát, és illessze be a következő kódot a cellába:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Módosítsa a betöltési URI-t, így a tárfiókban lévő mintafájlra hivatkozik az abfss URI-séma szerint.
A jegyzetfüzet Csatolás menüjében válassza ki a korábban létrehozott Spark1 kiszolgáló nélküli Spark-készletet.
Válassza a Futtatás a cellán lehetőséget. Ha szükséges, a Synapse elindít egy új Spark-munkamenetet a cella futtatásához. Ha új Spark-munkamenetre van szükség, kezdetben körülbelül 2–5 percet vesz igénybe a létrehozás. A munkamenet létrehozása után a cella végrehajtása körülbelül 2 másodpercet vesz igénybe.
Ha csak az adatkeret sémáját szeretné látni, futtasson egy cellát a következő kóddal:
```
%%pyspark
df.printSchema()
```

Az NYC Taxi adatainak betöltése a Spark nyctaxi adatbázisba

Az adatok a df nevű adatkereten keresztül érhetők el. Töltse be egy nyctaxi nevű Spark-adatbázisba.

Adjon hozzá egy új kódcellát a jegyzetfüzethez, majd írja be a következő kódot:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Az NYC Taxi adatainak elemzése Spark és jegyzetfüzetek használatával

Hozzon létre egy új kódcellát, és írja be a következő kódot.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Futtassa a cellát a nyctaxi Spark-adatbázisba betöltött NYC Taxi-adatok megjelenítéséhez.

Hozzon létre egy új kódcellát, és írja be a következő kódot. Ezeket az adatokat elemezzük, és az eredményeket egy nyctaxi.passengercountstats nevű táblába mentjük.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

A cellaeredményekben válassza a Diagram lehetőséget az adatok vizualizációjának megtekintéséhez.

Következő lépés

Adatok elemzése dedikált SQL-készlettel

Megosztás a következőn keresztül: