Databricks Runtime 7.0 (EoS)

Artikel
09/03/2024

Catatan

Dukungan untuk versi Databricks Runtime ini telah berakhir. Untuk tanggal akhir dukungan, lihat Riwayat akhir dukungan. Untuk semua versi Runtime Databricks yang didukung, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.

Databricks merilis versi ini pada Juni 2020.

Catatan rilis berikut memberikan informasi tentang Databricks Runtime 7.0, didukung oleh Apache Spark 3.0.

Fitur baru

Databricks Runtime 7.0 mencakup fitur-fitur baru berikut:

Scala 2.12

Databricks Runtime 7.0 meningkatkan Scala dari 2.11.12 ke 2.12.10. Daftar perubahan antara Scala 2.12 dan 2.11 ada di catatan rilis Scala 2.12.0.
Auto Loader (Pratinjau Umum), dirilis dalam Databricks Runtime 6.4, telah ditingkatkan di Databricks Runtime 7.0

Auto Loader memberi Anda cara yang lebih efisien untuk memproses file data baru secara bertahap saat tiba di penyimpanan blob cloud selama ETL. Ini adalah peningkatan melalui streaming terstruktur berbasis file, yang mengidentifikasi file baru dengan berulang kali mencantumkan direktori cloud dan melacak file yang telah dilihat, dan bisa sangat tidak efisien seiring dengan pertumbuhan direktori. Auto Loader juga lebih mudah dan efektif daripada streaming terstruktur berbasis pemberitahuan file, yang mengharuskan Anda mengonfigurasi layanan pemberitahuan file secara manual di cloud dan tidak membiarkan Anda mengisi ulang (backfill) file yang ada. Untuk detailnya, lihat Apa itu Pemuat Otomatis?.

Pada Databricks Runtime 7.0 Anda tidak perlu lagi meminta gambar Databricks Runtime kustom untuk menggunakan Auto Loader.
COPY INTO (Pratinjau Umum), yang memungkinkan Anda memuat data ke Delta Lake dengan percobaan ulang idempotent, telah ditingkatkan di Databricks Runtime 7.0

Dirilis sebagai Pratinjau Umum di Databricks Runtime 6.4, perintah SQL COPY INTO memungkinkan Anda memuat data ke Delta Lake dengan percobaan ulang idempotent. Untuk memuat data ke Delta Lake kini Anda harus menggunakan API Apache Spark DataFrame. Jika ada kegagalan selama pemuatan, Anda harus menanganinya secara efektif. Perintah COPY INTO yang baru menyediakan antarmuka deklaratif yang dikenali untuk memuat data dalam SQL. Perintah melacak file yang dimuat sebelumnya dan Anda menjalankannya kembali dengan aman jika terjadi kegagalan. Untuk detailnya, lihat COPY INTO.

Penyempurnaan

Konektor Azure Synapse (sebelumnya SQL Data Warehouse) mendukung pernyataan COPY.

Manfaat utama COPY adalah bahwa pengguna dengan hak istimewa yang lebih rendah dapat menulis data ke Azure Synapse tanpa memerlukan izin CONTROL yang ketat di Azure Synapse.
Perintah sihir %matplotlib inline tidak lagi diperlukan untuk menampilkan objek Matplolib secara inline dalam sel notebook. Ini selalu ditampilkan inline secara default.
Angka matplolib sekarang dirender dengan transparent=False, sehingga latar belakang yang ditentukan pengguna tidak hilang. Perilaku ini dapat ditimpa dengan mengatur konfigurasi Spark spark.databricks.workspace.matplotlib.transparent true.
Saat menjalankan pekerjaan produksi Streaming Terstruktur pada kluster mode Konkurensi Tinggi, memulai kembali pekerjaan terkadang akan gagal, karena pekerjaan yang berjalan sebelumnya tidak dihentikan dengan benar. Databricks Runtime 6.3 memperkenalkan kemampuan untuk mengatur konfigurasi SQL spark.sql.streaming.stopActiveRunOnRestart true pada kluster Anda untuk memastikan bahwa eksekusi sebelumnya berhenti. Konfigurasi ini diatur secara default di Databricks Runtime 7.0.

Perubahan pustaka utama

Paket Python

Paket Phyton Utama meningkatkan:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Paket Python menghapus:

boto (gunakan boto3)
pycurl

Catatan

Lingkungan Python di Databricks Runtime 7.0 menggunakan Python 3.7, yang berbeda dari Phyton sistem Ubuntu yang diinstal: /usr/bin/python dan /usr/bin/python2 terhubung ke Python 2.7 dan /usr/bin/python3 terhubung ke Python 3.6.

Paket R

Paket R yang menambahkan:

broom
highr
isoband
knitr
markdown
modelr
reprex
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

Paket R menghapus:

abind
bitops
car
carData
doMC
gbm
h2o
littler
lme4
mapproj
Peta
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
rio
sp
SparseM
statmod
zip

Pustaka Java dan Scala

Versi Apache Hive digunakan untuk menangani fungsi yang ditentukan pengguna Hive dan Hive SerDes ditingkatkan menjadi 2.3.
Sebelumnya Azure Storage dan jar Key Vault dikemas sebagai bagian dari Databricks Runtime, yang akan mencegah Anda menggunakan berbagai versi pustaka yang dilampirkan ke kluster. Kelas di com.microsoft.azure.storage dan com.microsoft.azure.keyvault tidak lagi berada di jalur kelas dalam Runtime Databricks. Jika Anda bergantung pada salah satu jalur kelas tersebut, Anda sekarang harus melampirkan SDK Azure Storage atau SDK Azure Key Vault ke kluster Anda.

Perubahan perilaku

Bagian ini mencantumkan perubahan perilaku dari Databricks Runtime 6.6 ke Databricks Runtime 7.0. Anda harus menyadari hal ini saat Anda memigrasikan beban kerja dari rilis Runtime Databricks yang lebih rendah ke Databricks Runtime 7.0 dan versi yang lebih baru.

Perubahan perilaku Spark

Karena Databricks Runtime 7.0 adalah Runtime Databricks pertama yang dibuat di Spark 3.0, ada banyak perubahan yang harus Anda ketahui ketika memigrasikan beban kerja dari Databricks Runtime 5.5 LTS atau 6.x, yang dibuat di Spark 2.4. Perubahan ini tercantum di bagian "Perubahan perilaku" dari setiap area fungsional di bagian Apache Spark dari artikel catatan rilis ini:

Perubahan perilaku untuk Spark Core, SQL Spark, dan Streaming Terstruktur
Perubahan perilaku untuk MLlib
Perubahan perilaku untuk SparkR

Perubahan perilaku lainnya

Peningkatan ke Scala 2.12 melibatkan perubahan berikut:
- Serialisasi sel paket ditangani secara berbeda. Contoh berikut menggambarkan perubahan perilaku dan cara menanganinya.
  
  Menjalankan foo.bar.MyObjectInPackageCell.run() seperti yang ditentukan dalam sel paket berikut akan memicu kesalahan java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Untuk mengatasi kesalahan ini, Anda dapat membungkus MyObjectInPackageCell di dalam kelas yang dapat diserialkan.
- Kasus tertentu yang menggunakan DataStreamWriter.foreachBatch akan memerlukan pembaruan kode sumber. Perubahan ini disebabkan oleh fakta bahwa Scala 2.12 memiliki konversi otomatis dari ekspresi lambda ke jenis SAM dan dapat menyebabkan ambiguitas.
  
  Misalnya, kode Scala berikut tidak dapat dikompilasi:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Untuk memperbaiki kesalahan kompilasi, ubah foreachBatch { (df, id) => myFunc(df, id) } ke foreachBatch(myFunc _) atau gunakan API Java secara eksplisit: foreachBatch(new VoidFunction2 ...).
Karena versi Apache Hive yang digunakan untuk menangani fungsi yang ditentukan pengguna Apache Hive dan Apache Hive SerDes ditingkatkan ke 2.3, diperlukan dua perubahan:
- Antarmuka SerDe Apache Hive digantikan oleh kelas abstrak AbstractSerDe. Untuk setiap implementasi SerDe Apache Hive kustom, migrasi ke AbstractSerDe diperlukan.
- Mengatur spark.sql.hive.metastore.jars ke builtin berarti bahwa klien metastore Apache Hive 2.3 akan digunakan untuk mengakses metastore untuk Databricks Runtime 7.0. Jika Anda perlu mengakses metastore eksternal berbasis Apache Hive 1.2, atur spark.sql.hive.metastore.jars ke folder yang berisi jar Apache Hive 1.2.

Penghentian dan penghapusan

Indeks melewatkan data tidak digunakan lagi di Databricks Runtime 4.3 dan dihapus di Databricks Runtime 7.0. Kami menyarankan agar Anda menggunakan tabel Delta sebagai gantinya, yang menawarkan kemampuan melewatkan data yang ditingkatkan.
Dalam Databricks Runtime 7.0, versi Apache Spark yang mendasari menggunakan Scala 2.12. Karena pustaka yang dikompilasi terhadap Scala 2.11 dapat menonaktifkan kluster Databricks Runtime 7.0 dengan cara yang tidak terduga, kluster yang menjalankan Databricks Runtime 7.0 dan versi yang lebih baru tidak menginstal pustaka yang dikonfigurasi untuk dipasang pada semua kluster. Tab pustaka kluster menampilkan status Skipped dan pesan penghentian yang menjelaskan perubahan dalam penanganan pustaka. Namun, jika Anda memiliki kluster yang dibuat pada versi Databricks Runtime yang lebih lama sebelum platform Azure Databricks versi 3.20 dirilis ke ruang kerja Anda, dan Anda sekarang mengedit kluster tersebut untuk menggunakan Databricks Runtime 7.0, pustaka apa pun yang dikonfigurasi untuk diinstal pada semua kluster akan diinstal pada kluster tersebut. Dalam hal ini, setiap JAR yang tidak kompatibel di pustaka yang diinstal dapat menyebabkan kluster dinonaktifkan. Solusinya adalah mengkloning kluster atau membuat kluster baru.

Apache Spark

Databricks Runtime 7.0 menyertakan Apache Spark 3.0.

Core, SQL Spark, Streaming Terstruktur

Sorotan

Scheduler Sadar Akselerator (Project Hydrogen) (SPARK-24615)
Eksekusi Kueri Adaptif (SPARK-31412)
Pemangkasan Partisi Dinamis (SPARK-11150)
Pandas API UDF yang didesain ulang dengan petunjuk jenis (SPARK-28264)
UI Streaming Terstruktur (SPARK-29543)
Plugin API katalog (SPARK-31121)
Kompatibilitas SQL ANSI yang lebih baik

peningkatan performa

Eksekusi Kueri Adaptif (SPARK-31412)
- Kerangka kerja dasar (SPARK-23128)
- Penyesuaian nomor partisi setelah pengacakan (SPARK-28177)
- Penggunaan kembali subkueri dinamis (SPARK-28753)
- Pembaca acak lokal (SPARK-28560)
- Pengoptimalan gabungan condong (SPARK-29544)
- Optimalkan membaca blok acak yang berdampingan (SPARK-9853)
Pemangkasan Partisi Dinamis (SPARK-11150)
Aturan pengoptimal lainnya
- Aturan Rule ReuseSubquery (SPARK-27279)
- Aturan PushDownLeftsemiAntiJoin (SPARK-19712)
- Aturan PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Aturan ReplaceNullWithFalse (SPARK-25860)
- Aturan Hilangkan pengurutan tanpa batas dalam subkueri Gabungan/Agregasi (SPARK-29343)
- Aturan PruneHiveTablePartitions (SPARK-15616)
- Memangkas bidang bertingkat yang tidak perlu dari Generate (SPARK-27707)
- Aturan RewriteNonCorrelatedExists (SPARK-29800)
Minimalkan biaya sinkronisasi cache tabel (SPARK-26917), (SPARK-26617), (SPARK-26548)
Pemisahan kode agregasi menjadi fungsi kecil (SPARK-21870)
Tambahkan batching dalam perintah ADD INSERT dan ALTER TABLEPARTITION (SPARK-29938)

Peningkatan ekstentibilitas

API plugin katalog (SPARK-31121)
Refactoring API Sumber data V2 (SPARK-25390)
Dukungan metastore Apache Hive 3.0 dan 3.1 (SPARK-27970),(SPARK-24360)
Perluasan antarmuka plugin Spark ke driver (SPARK-29396)
Perluasan sistem metrik Spark dengan metrik yang ditentukan pengguna menggunakan plugin eksekutor (SPARK-28091)
API Pengembang untuk Dukungan Pemrosesan Kolumnar yang diperluas (SPARK-27396)
Migrasi sumber bawaan menggunakan DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Izinkan FunctionInjection di SparkExtensions (SPARK-25560)
Izinkan Agregator agar terdaftar sebagai UDAF (SPARK-27296)

Peningkatan konektor

Pemangkasan kolom melalui ekspresi nondeterministik (SPARK-29768)
Mendukung spark.sql.statistics.fallBackToHdfs dalam tabel sumber data (SPARK-25474)
Izinkan pemangkasan partisi dengan filter subkueri pada sumber file (SPARK-26893)
Hindari pushdown subkueri dalam filter sumber data (SPARK-25482)
Pemuatan data rekursif dari sumber file (SPARK-27990)
Parquet/ORC
- Pushdown predikat disjunktif (SPARK-27699)
- Menggeneralisasi Pemangkasan Kolom Bersarang (SPARK-25603) dan diaktifkan secara default (SPARK-29805)
- Parquet saja
  - Pushdown predikat parquet untuk bidang berlapis (SPARK-17636)
- ORC saja
  - Mendukung skema penggabungan untuk ORC (SPARK-11412)
  - Pemangkasan skema berlapis untuk ORC (SPARK-27034)
  - Pengurangan kompleksitas konversi predikat untuk ORC (SPARK-27105, SPARK-28108)
  - Peningkatan Orc Apache ke 1.5.9 (SPARK-30695)
CSV
- Dukungan pushdown filter di sumber data CSV (SPARK-30323)
Hive SerDe
- Tidak ada inferensi skema saat membaca tabel serde Apache Hive dengan sumber data asli (SPARK-27119)
- Perintah Apache Hive CTAS harus menggunakan sumber data jika dapat dikonversi (SPARK-25271)
- Gunakan sumber data asli untuk mengoptimalkan penyisipan tabel Apache Hive yang dipartisi (SPARK-28573)
Apache Kafka
- Penambahan dukungan untuk header Kafka (SPARK-23539)
- Penambahan dukungan token delegasi Kafka (SPARK-25501)
- Memperkenalkan opsi baru ke sumber Kafka: offset menurut tanda waktu (awal/akhir) (SPARK-26848)
- Dukungan opsi minPartitions dalam sumber batch Kafka dan sumber streaming v1 (SPARK-30656)
- Peningkatan Kafka ke 2.4.1 (SPARK-31126)
Sumber data bawaan baru
- Sumber data file biner bawaan baru (SPARK-25348)
- Sumber data batch no-op baru (SPARK-26550) dan sink streaming no-op (SPARK-26649)

Penyempurnaan fitur

Scheduler Sadar Akselerator [Hydrogen] (SPARK-24615)
Memperkenalkan serangkaian Petunjuk Gabungan lengkap (SPARK-27225)
Menambahkan petunjuk PARTITION BY untuk kueri SQL (SPARK-28746)
Penanganan Metadata di Thrift Server (SPARK-28426)
Penambaha fungsi urutan yang lebih tinggi ke API scala (SPARK-27297)
Dukungan sederhana pengumpulan semua dalam konteks tugas penghalang (SPARK-30667)
Apache Hive UDF mendukung jenis UDT (SPARK-28158)
Dukungan untuk Operator DELETE/UPDATE/MERGE di Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Penerapan DataFrame.tail (SPARK-30185)
Fungsi bawaan baru
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
Penyempurnaan pada fungsi bawaan yang ada
- Peningkatan fungsi/operasi tanggal-waktu bawaan (SPARK-31415)
- Dukungan mode FAILFAST untuk from_json (SPARK-25243)
- array_sort menambahkan parameter pembanding baru (SPARK-29020)
- Filter kini dapat mengambil indeks sebagai input serta elemen (SPARK-28962)

Peningkatan kompatibilitas SQL

Beralih ke kalender Gregorian Proleptik (SPARK-26651)
Pembuatan definisi pola datetime Spark sendiri (SPARK-31408)
Memperkenalkan kebijakan penetapan penyimpanan ANSI untuk penyisipan tabel (SPARK-28495)
Ikuti aturan penetapan penyimpanan ANSI dalam penyisipan tabel secara default (SPARK-28885)
Penambahan SQLConf spark.sql.ansi.enabled (SPARK-28989)
Dukungan klausul filter SQL ANSI untuk ekspresi agregat (SPARK-27986)
Mendukung fungsi OVERLAY SQL ANSI (SPARK-28077)
Mendukung komentar bertanda kurung dan berlapis ANSI (SPARK-28880)
Pelemparan pengecualian pada luapan untuk bilangan bulat (SPARK-26218)
Pemeriksaan luapan untuk operasi aritmatika interval (SPARK-30341)
Pelemparan Pengecualian saat string tidak valid ditransmisikan ke jenis numerik (SPARK-30292)
Membuat perilaku luapan pembagian dan perkalian interval konsisten dengan operasi lain (SPARK-30919)
Penambahan alias jenis ANSI untuk char dan desimal (SPARK-29941)
SQL Parser menentukan kata kunci yang dicadangankan yang sesuai dengan ANSI (SPARK-26215)
Melarang kata kunci yang dicadangkan sebagai pengidentifikasi saat mode ANSI aktif (SPARK-26976)
Dukungan sintaks LIKE ... ESCAPE SQL ANSI (SPARK-28083)
Dukungan sintaks Predikat Boolean SQL ANSI (SPARK-27924)
Dukungan yang lebih baik untuk pemrosesan subkueri berkorelasi (SPARK-18455)

Peningkatan pemantauan dan kemampuan debug

UI Streaming Terstruktur Baru (SPARK-29543)
SHS: Izinkan log peristiwa untuk menjalankan aplikasi streaming untuk rollover (SPARK-28594)
Penambahan API yang memungkinkan pengguna untuk menentukan dan mengamati metrik arbitrer pada kueri batch dan streaming (SPARK-29345)
Instrumentasi untuk melacak waktu perencanaan per kueri (SPARK-26129)
Peletakan metrik acak dasar di operator pertukaran SQL (SPARK-26139)
Pernyataan SQL ditampilkan di Tab SQL, bukan callsite (SPARK-27045)
Penambahan tooltip ke SparkUI (SPARK-29449)
Meningkatkan kinerja bersamaan dari History Server (SPARK-29043)
Perintah EXPLAIN FORMATTED (SPARK-27395)
Mendukung rencana terpotong Dumping dan kode yang dihasilkan ke file (SPARK-26023)
Peningkatan kerangka kerja gambar untuk menggambarkan output kueri (SPARK-26982)
Penambahan perintah SHOW VIEWS (SPARK-31113)
Memperbaiki pesan kesalahan SQL parser (SPARK-27901)
Mendukung pemantauan Prometheus secara native (SPARK-29429)

Peningkatan PySpark

Pandas UDF yang didesain ulang dengan petunjuk jenis (SPARK-28264)
Alur Pandas UDF (SPARK-26412)
Mendukung StructType sebagai argumen dan jenis pengembalian untuk Scalar Pandas UDF (SPARK-27240 )
Mendukung Dataframe Cogroup melalui PANDAS UDF (SPARK-27463)
Tambahkan mapInPandas untuk memungkinkan iterator DataFrames (SPARK-28198)
Fungsi SQL tertentu juga harus mengambil nama kolom (SPARK-26979)
Menjadikan pengecualian PySpark SQL lebih Pythonic (SPARK-31849)

Peningkatan cakupan pengujian dan dokumentasi

Membuat Referensi SQL (SPARK-28588)
Membuat panduan pengguna untuk WebUI (SPARK-28372)
Membuat halaman untuk dokumentasi konfigurasi SQL (SPARK-30510)
Menambahkan informasi versi untuk konfigurasi Spark (SPARK-30839)
Uji regresi port dari PostgreSQL (SPARK-27763)
Cakupan uji Thrift-server (SPARK-28608)
Cakupan uji UDF (python UDF, pandas UDF, scala UDF) (SPARK-27921)

Perubahan penting lainnya

Peningkatan eksekusi Apache Hive bawaan dari 1.2.1 ke 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Penggunaan dependensi Apache Hive 2.3 secara default (SPARK-30034)
GA Scala 2.12 dan hapus 2.11 (SPARK-26132)
Meningkatkan logika untuk mengatur waktu eksekutor dalam alokasi dinamis (SPARK-20286)
Blok RDD yang dipertahakan Disk dilayani oleh layanan acak dan diabaikan untuk Alokasi Dinamis (SPARK-27677)
Mendapatkan eksekutor baru untuk menghindari hang karena blocklisting (SPARK-22148)
Mengizinkan berbagi alokator kumpulan memori Netty (SPARK-24920)
Memperbaiki kebuntuan antara TaskMemoryManager dan UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Memperkenalkan API AdmissionControl untuk StructuredStreaming (SPARK-30669)
Peningkatan performa halaman Utama Riwayat Spark (SPARK-25973)
Mempercepat dan menurunkan agregasi metrik di pendengar SQL (SPARK-29562)
Menghindari jaringan saat blok acak diambil dari host yang sama (SPARK-27651)
Meningkatkan daftar file untuk DistributedFileSystem (SPARK-27801)

Perubahan perilaku untuk Spark Core, SQL Spark, dan Streaming Terstruktur

Panduan migrasi berikut mencantumkan perubahan perilaku antara Apache Spark 2.4 dan 3.0. Perubahan ini mungkin memerlukan pembaruan untuk pekerjaan yang telah Anda jalankan pada versi Databricks Runtime yang lebih rendah:

Perubahan perilaku berikut tidak tercakup dalam panduan migrasi ini:

Di Spark 3.0, kelas org.apache.spark.sql.streaming.ProcessingTime yang tidak digunakan lagi telah dihapus. Gunakan org.apache.spark.sql.streaming.Trigger.ProcessingTime sebagai gantinya. Demikian juga, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger telah dihapus demi Trigger.Continuous, dan org.apache.spark.sql.execution.streaming.OneTimeTrigger telah disembunyikan demi Trigger.Once. (SPARK-28199)
Di Databricks Runtime 7.0, saat membaca tabel Apache Hive SerDe, secara default Spark melarang membaca file di bawah subdirektori yang bukan partisi tabel. Untuk mengaktifkannya, atur konfigurasi spark.databricks.io.hive.scanNonpartitionedDirectory.enabled sebagai true. Ini tidak memengaruhi pembaca tabel asli Spark dan pembaca file.

MLlib

Sorotan

Dukungan beberapa kolom ditambahkan ke Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) dan PySpark QuantileDiscretizer (SPARK-22796)
Mendukung transformasi fitur berbasis pohon (SPARK-13677)
Dua evaluator baru MultilabelClassificationEvaluator (SPARK-16692) dan RankingEvaluator (SPARK-28045) ditambahkan
Dukungan bobot sampel ditambahkan di DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) dan GaussianMixture (SPARK-30102)
API R untuk PowerIterationClustering ditambahkan (SPARK-19827)
Menambahkan pendengar Spark ML untuk melacak status alur ML (SPARK-23674)
Kecocokan dengan set validasi ditambahkan ke Gradient Boosted Trees di Python (SPARK-24333)
Transformator RobustScaler ditambahkan (SPARK-28399)
Pengklasifikasi dan regresi Mesin Faktorisasi ditambahkan (SPARK-29224)
Gaussian Naive Bayes (SPARK-16872) dan Complement Naive Bayes (SPARK-29942) ditambahkan
Paritas fungsi ML antara Scala dan Python (SPARK-28958)
predictRaw dipublikasikan di semua model Klasifikasi. PredictProbability dipublikasikan di semua model Klasifikasi kecuali LinearSVCModel (SPARK-30358)

Perubahan perilaku untuk MLlib

Panduan Migrasi: MLlib (Pembelajaran Mesin)

Perubahan perilaku berikut tidak tercakup dalam panduan migrasi ini:

Di Spark 3.0, regresi logistik multikelas di Pyspark sekarang akan (dengan benar) mengembalikan LogisticRegressionSummary, bukan subkelas BinaryLogisticRegressionSummary. Metode tambahan yang diekspos oleh BinaryLogisticRegressionSummary tidak akan bekerja dalam kasus ini pula. (SPARK-31681)
Di Spark 3.0, mixins pyspark.ml.param.shared.Has* tidak menyediakan metode setter set*(self, value) lagi, gunakan masing-masing self.set(self.*, value) sebagai gantinya. Lihat SPARK-29093 untuk detailnya. (SPARK-29093)

SparkR

Pengoptimalan panah dalam interoperabilitas SparkR (SPARK-26759)
Peningkatan performa melalui vectorized R gapply(), dapply(), createDataFrame, collect()
"Eager execution" untuk R shell, IDE (SPARK-24572)
API R untuk Pengklusteran Iterasi Daya (SPARK-19827)

Perubahan perilaku untuk SparkR

Panduan Migrasi: SparkR (R on Spark)

Penghentian

Menghentikan dukungan Python 2 (SPARK-27884)
Menghentikan dukungan R < 3.4 (SPARK-26014)

Masalah umum

Penguraan hari dalam setahun menggunakan huruf pola 'D' mengembalikan hasil yang salah jika bidang tahun hilang. Ini dapat terjadi dalam fungsi SQL, contohnya to_timestamp, yang memproses string tanggalwaktu menjadi nilai tanggalwaktu menggunakan string pola. (SPARK-31939)
Join/Window/Agregat di dalam sub-kueri dapat menyebabkan hasil yang salah jika kunci memiliki nilai -0,0 dan 0,0. (SPARK-31958)
Kueri jendela mungkin gagal dengan kesalahan gabungan mandiri yang ambigu secara tak terduga. (SPARK-31956)
Kueri streaming dengan operator dropDuplicates mungkin tidak dapat dimulai ulang dengan titik pemeriksaan yang ditulis oleh Spark 2.x. (SPARK-31990)

Pembaruan pemeliharaan

Lihat Pembaruan pemeliharaan Databricks Runtime 7.0.

Lingkungan sistem

Sistem Operasi: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R versi 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Pustaka Python yang diinstal

Pustaka	Versi	Pustaka	Versi	Pustaka	Versi
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	cryptography	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
titik masuk	0,3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	+3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect=4.8.0	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
permintaan	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
six	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets=5.0.5	4.3.3	unattended-upgrades	0.1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

Pustaka R yang diinstal

Pustaka R diinstal dari snapshot Microsoft CRAN pada tanggal 22-04-2020.

Pustaka	Versi	Pustaka	Versi	Pustaka	Versi
askpass	1.1	assertthat	0.2.1	backports	1.1.6
dasar	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	blob	1.2.1
boot	1.3-25	brew	1.0-6	broom	0.5.6
callr	3.4.3	caret	6.0-86	cellranger	1.1.0
chron	2.3-55	kelas	7.3-17	cli	2.0.2
clipr	0.7.0	klaster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1.7	compiler	3.6.3
config	0,3	covr	3.5.0	crayon	1.3.4
crosstalk	1.1.0.1	curl	4.3	data.table	1.12.8
datasets	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	devtools	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0,13	ellipsis	0.3.0
evaluate	0.14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
foreign	0.8-76	forge	0.2.0	fs	1.4.1
generics	0.0.2	ggplot2	3.3.0	GH	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
glue	1.4.0	gower	0.2.1	graphics	3.6.3
grDevices	3.6.3	grid	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	haven	2.2.0
highr	0,8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	iterators	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
labeling	0,3	later	1.0.0	lattice	0.20-41
lava	1.6.7	lazyeval	0.2.2	lifecycle	0.2.0
lubridate	1.7.8	magrittr	1.5	markdown	1.1
MASS	7.3-51.6	Matrix	1.2-18	memoise	1.1.0
methods	3.6.3	mgcv	1.8-31	mime	0,9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	pillar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.16.2	processx	3.4.2
prodlim	2019.11.13	kemajuan	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recipes	0.1.10	rematch	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0.11	rversions	2.0.1
rvest	0.3.5	scales	1.1.0	selectr	0.4-2
sessioninfo	1.1.1	bentuk	1.4.4	shiny	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
spatial	7.3-11	splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	survival	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0.22	alat	3.6.3	usethis	1.6.0
utf8	1.1.4	utils	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	whisker	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Pustaka Java dan Scala yang diinstal (versi kluster Scala 2.12)

ID Grup	ID Artefak	Versi
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	stream	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	inti	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.15.1
org.apache.arrow	arrow-memory	0.15.1
org.apache.arrow	arrow-vector	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-encoding	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocity	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	tidak digunakan	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0.52

Bagikan melalui

Databricks Runtime 7.0 (EoS)

Fitur baru

Penyempurnaan

Perubahan pustaka utama

Paket Python

Paket R

Pustaka Java dan Scala

Perubahan perilaku

Perubahan perilaku Spark

Perubahan perilaku lainnya

Penghentian dan penghapusan

Apache Spark

Di bagian ini:

Core, SQL Spark, Streaming Terstruktur

Sorotan

peningkatan performa

Peningkatan ekstentibilitas

Peningkatan konektor

Penyempurnaan fitur

Peningkatan kompatibilitas SQL

Peningkatan pemantauan dan kemampuan debug

Peningkatan PySpark

Peningkatan cakupan pengujian dan dokumentasi

Perubahan penting lainnya

Perubahan perilaku untuk Spark Core, SQL Spark, dan Streaming Terstruktur

MLlib

Sorotan

Perubahan perilaku untuk MLlib

SparkR

Perubahan perilaku untuk SparkR

Penghentian

Masalah umum

Pembaruan pemeliharaan

Lingkungan sistem

Pustaka Python yang diinstal

Pustaka R yang diinstal

Pustaka Java dan Scala yang diinstal (versi kluster Scala 2.12)

Saran dan Komentar

Sumber Daya Tambahan: