SparkR ve sparklyr karşılaştırması

Makale
01/23/2025

Önemli

Databricks'teki SparkR, Databricks Runtime 16.0 ve üzeri sürümlerinde kullanım dışı bırakılmıştır.

R için Apache Spark kullanıcılarına yönelik iki API vardır: SparkR ve sparklyr. Databricks sparkR kullanım dışı bırakıldığı için sparklyrkullanmanızı önerir. Kodunuzu geçirmenize yardımcı olmak için bu makalede bu API'ler karşılaştırabilirsiniz.

API çıkış noktaları

SparkR, Spark topluluğu ve Databricks geliştiricileri tarafından oluşturulur. Bu nedenle SparkR, ve DataFrame APISpark Scala sınıflarını yakından izler.

sparklyr RStudio ile başladı ve o zamandan beri Linux Foundation'a bağışlandı. sparklyr, API birlikte çalışabilirliği aracılığıyla hem dplyrhem de programlama stilinde tidyverse ile sıkı bir şekilde entegre edilmiştir.

SparkR ve sparklyr, R'de büyük verilerle yüksek oranda çalışabilen bir uygulamadır. Son birkaç yıl içinde özellik kümeleri eşliğe yaklaşıyor.

API farklılıkları

Aşağıdaki kod örneğinde, Örnek veri kümelerinden Spark'a csv dosyasını okumak için Azure Databricks not defterinden SparkR ve sparklyr'ın nasıl kullanılacağı gösterilmektedir.

# #############################################################################
# SparkR usage

# Note: To load SparkR into a Databricks notebook, run the following:

# library(SparkR)

# You can then remove "SparkR::" from the following function call.
# #############################################################################

# Use SparkR to read the airlines dataset from 2008.
airlinesDF <- SparkR::read.df(path        = "/databricks-datasets/asa/airlines/2008.csv",
                              source      = "csv",
                              inferSchema = "true",
                              header      = "true")

# Print the loaded dataset's class name.
cat("Class of SparkR object: ", class(airlinesDF), "\n")

# Output:
#
# Class of SparkR object: SparkDataFrame

# #############################################################################
# sparklyr usage

# Note: To install, load, and connect with sparklyr in a Databricks notebook,
# run the following:

# install.packages("sparklyr")
# library(sparklyr)
# sc <- sparklyr::spark_connect(method = "databricks")

# If you run "library(sparklyr)", you can then remove "sparklyr::" from the
# preceding "spark_connect" and from the following function call.
# #############################################################################

# Use sparklyr to read the airlines dataset from 2007.
airlines_sdf <- sparklyr::spark_read_csv(sc   = sc,
                                         name = "airlines",
                                         path = "/databricks-datasets/asa/airlines/2007.csv")

# Print the loaded dataset's class name.
cat("Class of sparklyr object: ", class(airlines_sdf))

# Output:
#
# Class of sparklyr object: tbl_spark tbl_sql tbl_lazy tbl

Ancak SparkR'den bir SparkDataFrame nesnesi üzerinde sparklyr işlevi çalıştırmaya çalışırsanız veya sparklyr'dan bir tbl_spark nesnesi üzerinde SparkR işlevi çalıştırmayı denerseniz, aşağıdaki kod örneğinde gösterildiği gibi çalışmaz.

# Try to call a sparklyr function on a SparkR SparkDataFrame object. It will not work.
sparklyr::sdf_pivot(airlinesDF, DepDelay ~ UniqueCarrier)

# Output:
#
# Error : Unable to retrieve a Spark DataFrame from object of class SparkDataFrame

## Now try to call s Spark R function on a sparklyr tbl_spark object. It also will not work.
SparkR::arrange(airlines_sdf, "DepDelay")

# Output:
#
# Error in (function (classes, fdef, mtable) :
#   unable to find an inherited method for function ‘arrange’ for signature ‘"tbl_spark", "character"’

Bunun nedeni sparklyr'ın arrange gibi dplyr işlevlerini SparkSQL tarafından kullanılan bir SQL sorgu planına çevirmesidir. SparkSQL tabloları ve Spark DataFrame'ler için işlevleri olan SparkR'de durum böyle değildir. Bu davranışlar, Databricks'in SparkR ve sparklyr API'lerini aynı betikte, not defterinde veya işte birleştirmesini önermeme nedenidir.

API birlikte çalışabilirliği

SparkR ve sparklyr API'lerini birleştirmekten kaçınamadığınız nadir durumlarda SparkSQL'i bir köprü türü olarak kullanabilirsiniz. Örneğin, bu makalenin ilk örneğinde Sparklyr, 2007'deki havayolları veri kümesini airlinesadlı bir tabloya yükledi. SparkR sql işlevini kullanarak bu tabloyu sorgulayabilirsiniz, örneğin:

top10delaysDF <- SparkR::sql("SELECT
                               UniqueCarrier,
                               DepDelay,
                               Origin
                             FROM
                               airlines
                             WHERE
                               DepDelay NOT LIKE 'NA'
                             ORDER BY DepDelay
                             DESC LIMIT 10")

# Print the class name of the query result.
cat("Class of top10delaysDF: ", class(top10delaysDF), "\n\n")

# Show the query result.
cat("Top 10 airline delays for 2007:\n\n")
head(top10delaysDF, 10)

# Output:
#
# Class of top10delaysDF: SparkDataFrame
#
# Top 10 airline delays for 2007:
#
#   UniqueCarrier DepDelay Origin
# 1            AA      999    RNO
# 2            NW      999    EWR
# 3            AA      999    PHL
# 4            MQ      998    RST
# 5            9E      997    SWF
# 6            AA      996    DFW
# 7            NW      996    DEN
# 8            MQ      995    IND
# 9            MQ      994    SJT
# 10           AA      993    MSY

Ek örnekler için bkz. R'da DataFrame'lerle ve tablolarla çalışma.

Aracılığıyla paylaş

SparkR ve sparklyr karşılaştırması

API çıkış noktaları

API farklılıkları

API birlikte çalışabilirliği

Geri Bildirim

Ek kaynaklar