Apache Spark API-k referenciája

Cikk
01/21/2025

Az Azure Databricks az Apache Sparkra, a big data és a gépi tanulás egységes elemzési motorjára épül. További információ: Apache Spark az Azure Databricksben.

Az Apache Spark több nyelven is rendelkezik DataFrame API-kkal a nagyméretű adathalmazokon való üzemeltetéshez, amelyek több mint 100 operátort tartalmaznak.

PySpark API-k Python-fejlesztőknek. Lásd az oktatóanyagot: Adatok betöltése és átalakítása Apache Spark DataFrame-ekkel. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja.
- DataFrame – Elnevezett oszlopokba csoportosított elosztott adatgyűjtemény. Lásd: DataFrames és DataFrame-alapú MLlib.
(Elavult) SparkR API-k R-fejlesztők számára. A fő osztályok a következők:
- SparkSession – A SparkSession a SparkR belépési pontja. Lásd : Kezdőpont: SparkSession.
- SparkDataFrame – Elnevezett oszlopokba csoportosított elosztott adatgyűjtemény. Lásd : Adathalmazok és adatkeretek, adatkeretek létrehozása és SparkDataFrame-ek létrehozása.
Scala API-k Scala-fejlesztőknek. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja. Lásd : Kezdőpont: SparkSession.
- Adatkészlet – Tartományspecifikus objektumok erősen gépelt gyűjteménye, amelyek funkcionális vagy relációs műveletek használatával párhuzamosan átalakíthatók. Mindegyikhez Dataset tartozik egy DataFrame nevű nem beírt nézet is, amely egy DatasetSor. Lásd: Adathalmazok és adatkeretek, adathalmazok létrehozása, Adatkeretek létrehozása és DataFrame-függvények.
Java API-k Java-fejlesztőknek. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja. Lásd : Kezdőpont: SparkSession.
- Adatkészlet – Tartományspecifikus objektumok erősen gépelt gyűjteménye, amelyek funkcionális vagy relációs műveletek használatával párhuzamosan átalakíthatók. Mindegyikhez Dataset tartozik egy DataFrame nevű nem beírt nézet is, amely egy DatasetSor. Lásd: Adathalmazok és adatkeretek, adathalmazok létrehozása, Adatkeretek létrehozása és DataFrame-függvények.

Az Apache Spark API-k Azure Databricksen való használatához lásd:

PySpark az Azure Databricksben
Azure Databricks R-fejlesztőknek
Azure Databricks Scala-fejlesztőknek
Java esetén a Java-kódot JAR-feladatként futtathatja.

Megosztás a következőn keresztül:

Apache Spark API-k referenciája

Visszajelzés

További források