Apache Spark API-k referenciája
Az Azure Databricks az Apache Sparkra, a big data és a gépi tanulás egységes elemzési motorjára épül. További információ: Apache Spark az Azure Databricksben.
Az Apache Spark több nyelven is rendelkezik DataFrame API-kkal a nagyméretű adathalmazokon való üzemeltetéshez, amelyek több mint 100 operátort tartalmaznak.
-
PySpark API-k Python-fejlesztőknek. Lásd az oktatóanyagot: Adatok betöltése és átalakítása Apache Spark DataFrame-ekkel. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja.
- DataFrame – Elnevezett oszlopokba csoportosított elosztott adatgyűjtemény. Lásd: DataFrames és DataFrame-alapú MLlib.
- (Elavult) SparkR API-k R-fejlesztők számára. A fő osztályok a következők:
- SparkSession – A SparkSession a SparkR belépési pontja. Lásd : Kezdőpont: SparkSession.
- SparkDataFrame – Elnevezett oszlopokba csoportosított elosztott adatgyűjtemény. Lásd : Adathalmazok és adatkeretek, adatkeretek létrehozása és SparkDataFrame-ek létrehozása.
-
Scala API-k Scala-fejlesztőknek. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja. Lásd : Kezdőpont: SparkSession.
-
Adatkészlet – Tartományspecifikus objektumok erősen gépelt gyűjteménye, amelyek funkcionális vagy relációs műveletek használatával párhuzamosan átalakíthatók. Mindegyikhez
Dataset
tartozik egy DataFrame nevű nem beírt nézet is, amely egyDataset
Sor. Lásd: Adathalmazok és adatkeretek, adathalmazok létrehozása, Adatkeretek létrehozása és DataFrame-függvények.
-
Java API-k Java-fejlesztőknek. A fő osztályok a következők:
- SparkSession – A Spark adatkészlettel és DataFrame API-val való programozásának belépési pontja. Lásd : Kezdőpont: SparkSession.
-
Adatkészlet – Tartományspecifikus objektumok erősen gépelt gyűjteménye, amelyek funkcionális vagy relációs műveletek használatával párhuzamosan átalakíthatók. Mindegyikhez
Dataset
tartozik egy DataFrame nevű nem beírt nézet is, amely egyDataset
Sor. Lásd: Adathalmazok és adatkeretek, adathalmazok létrehozása, Adatkeretek létrehozása és DataFrame-függvények.
Az Apache Spark API-k Azure Databricksen való használatához lásd:
- PySpark az Azure Databricksben
- Azure Databricks R-fejlesztőknek
- Azure Databricks Scala-fejlesztőknek
- Java esetén a Java-kódot JAR-feladatként futtathatja.