Bagikan melalui


Gambaran umum LightGBM di SynapseML

LightGBM adalah kerangka kerja peningkatan gradien bersumber terbuka, terdistribusi, dan berkinerja tinggi (GBDT, GBRT, GBM, atau MART). Kerangka kerja ini mengkhususkan diri dalam membuat algoritma pohon keputusan berkualitas tinggi dan berkemampuan GPU untuk peringkat, klasifikasi, dan banyak tugas pembelajaran mesin lainnya. LightGBM adalah bagian dari proyek DMTK Microsoft.

Keuntungan LightGBM

  • Komposabilitas: Model LightGBM dapat dimasukkan ke dalam alur SparkML yang ada dan digunakan untuk beban kerja batch, streaming, dan penyajian.
  • Performa: LightGBM pada Spark 10-30% lebih cepat daripada SparkML pada himpunan data Higgs dan mencapai peningkatan AUC sebesar 15%. Eksperimen paralel telah memverifikasi bahwa LightGBM dapat mencapai kecepatan linier dengan menggunakan beberapa komputer untuk pelatihan dalam pengaturan tertentu.
  • Fungsionalitas: LightGBM menawarkan berbagai parameter yang dapat disetel, yang dapat digunakan seseorang untuk menyesuaikan sistem pohon keputusan mereka. LightGBM di Spark juga mendukung jenis masalah baru seperti regresi kuantil.
  • Lintas platform: LightGBM di Spark tersedia di Spark, PySpark, dan SparklyR.

Penggunaan LightGBM

  • LightGBMClassifier: digunakan untuk membangun model klasifikasi. Misalnya, untuk memprediksi apakah perusahaan bangkrut atau tidak, kita dapat membangun model klasifikasi biner dengan LightGBMClassifier.
  • LightGBMRegressor: digunakan untuk membangun model regresi. Misalnya, untuk memprediksi harga perumahan, kita dapat membangun model regresi dengan LightGBMRegressor.
  • LightGBMRanker: digunakan untuk membangun model peringkat. Misalnya, untuk memprediksi relevansi hasil pencarian situs web, kita dapat membangun model peringkat dengan LightGBMRanker.