Aracılığıyla paylaş


AutoML nedir?

AutoML, sizin için en iyi algoritmayı ve hiper parametre yapılandırmasını otomatik olarak bularak veri kümelerinize makine öğrenmesi uygulama sürecini basitleştirir.

AutoML nasıl çalışır?

Veri kümenizi sağlayın ve makine öğrenmesi sorununun türünü belirtin, ardından AutoML aşağıdakileri yapar:

  1. Verilerinizi temizler ve hazırlar.
  2. Birden çok algoritmada dağıtılmış model eğitimini ve hiper parametre ayarlamayı düzenler.
  3. scikit-learn, xgboost, LightGBM, Prophet ve ARIMA'dan açık kaynak değerlendirme algoritmalarını kullanarak en iyi modeli bulur.
  4. Sonuçları sunar. AutoML ayrıca her deneme için kaynak kod not defterleri oluşturur ve gerektiğinde kodu gözden geçirmenize, yeniden oluşturmanıza ve değiştirmenize olanak sağlar.

Düşük kodlu bir kullanıcı arabirimi aracılığıyla regresyon, sınıflandırmaveya tahminAutoML deneylerine başlayın ya da Python API'sinikullanarak başlayın.

Gereksinim -leri

  • Azure Databricks, AutoML genel kullanılabilirliği için Databricks Runtime 10.4 LTS ML veya üzerini önerir.

  • AutoML, AutoML dışında yararlı olan bileşenleri içeren pakete bağlıdır databricks-automl-runtime ve ayrıca AutoML eğitimi tarafından oluşturulan not defterlerini basitleştirmeye yardımcı olur. databricks-automl-runtimePyPI'da kullanılabilir.

  • Kümeye Machine Learning için Databricks Runtime'da önceden yüklenmiş olan kitaplıklar dışında başka hiçbir kitaplık yüklenmemelidir.

    • Mevcut kitaplık sürümlerinde yapılan tüm değişiklikler (kaldırma, yükseltmeler veya düşürmeler) uyumsuzluk nedeniyle çalıştırma hatalarına neden olur.
  • Çalışma alanınızdaki dosyalara erişmek için 1017 ve 1021 ağ bağlantı noktalarının AutoML denemeleri için açık olması gerekir. Bu bağlantı noktalarını açmak veya açık olduklarını onaylamak için bulut VPN güvenlik duvarı yapılandırmanızı ve güvenlik grubu kurallarınızı gözden geçirin veya yerel bulut yöneticinize başvurun. Çalışma alanı yapılandırması ve dağıtımı hakkında ek bilgi için bkz . Çalışma alanı oluşturma.

  • Desteklenen işlem erişim moduyla bir işlem kaynağı kullanın. Tüm işlem erişim modlarının Unity Kataloğu'na erişimi yoktur:

    İşlem erişim modu AutoML desteği Unity Kataloğu desteği
    Ayrılmış erişim modu Desteklenmeyen Desteklenir
    Tek kullanıcı Desteklenir (küme için belirlenen tek kullanıcı olmalıdır) Desteklenir
    Paylaşılan erişim modu Desteklenmeyen Desteklenmeyen
    Yalıtım paylaşılmamalıdır Desteklenir Desteklenmeyen

AutoML algoritmaları

AutoML, aşağıdaki tabloda yer alan algoritmalara göre modelleri eğitip değerlendirir.

Not

Sınıflandırma ve regresyon modellerinde karar ağacı, rastgele ormanlar, lojistik regresyon ve stokastik gradyan azalma algoritmalarıyla doğrusal regresyon scikit-learn'e dayanır.

Sınıflandırma modelleri Regresyon modelleri Tahmin modelleri Tahmin modelleri (sunucusuz)
Karar ağaçları Karar ağaçları Peygamber Peygamber
Rastgele ormanlar Rastgele ormanlar Otomatik ARIMA (Databricks Runtime 10.3 ML ve üzerinde kullanılabilir.) Otomatik ARIMA
Lojistik regresyon Stokastik gradyan azalma ile doğrusal regresyon DeepAR
XGBoost XGBoost
LightGBM LightGBM

Deneme not defteri oluşturma

Klasik işlem AutoML, denemelerin arkasındaki kaynak kodun not defterlerini oluşturur, böylece kodu gerektiği gibi gözden geçirebilir, yeniden üretebilir ve değiştirebilirsiniz.

Deneme tahmini için, Denemenizin tüm denemeleri için AutoML tarafından oluşturulan not defterleri otomatik olarak çalışma alanınıza aktarılır.

Sınıflandırma ve regresyon denemeleri için, veri keşfi için AutoML tarafından oluşturulan not defterleri ve denemenizdeki en iyi deneme otomatik olarak çalışma alanınıza aktarılır. Diğer deneme denemeleri için oluşturulan not defterleri, çalışma alanınıza otomatik olarak içeri aktarmak yerine DBFS'de MLflow yapıtları olarak kaydedilir. En iyi deney hariç diğer tüm deneylerde, notebook_path Python API'sindeki notebook_url ve TrialInfo ayarlanmaz. Bu not defterlerini kullanmanız gerekiyorsa, Bunları AutoML deneme kullanıcı arabirimi veya databricks.automl.import_notebookPython API'si ile çalışma alanınıza el ile aktarabilirsiniz.

Yalnızca AutoML tarafından oluşturulan veri araştırma not defterini veya en iyi deneme not defterini kullanıyorsanız, AutoML deneme kullanıcı arabirimindeki Kaynak sütunu, en iyi deneme için oluşturulan not defterinin bağlantısını içerir.

AutoML deneme kullanıcı arabiriminde oluşturulan diğer not defterlerini kullanırsanız, bunlar çalışma alanına otomatik olarak içeri aktarılmaz. Her MLflow çalıştırmasına tıklayarak not defterlerini bulabilirsiniz. IPython not defteri, çalıştırma sayfasının Yapıtlar bölümüne kaydedilir. Yapıtları indirme çalışma alanı yöneticileriniz tarafından etkinleştirildiyse, bu not defterini indirebilir ve çalışma alanına aktarabilirsiniz.

Model açıklanabilirliği için Shapley değerleri (SHAP)

Not

MLR 11.1 ve altı için, veri kümesi bir datetime sütunu içeriyorsa SHAP çizimleri oluşturulmaz.

AutoML regresyonu ve sınıflandırma çalıştırmaları tarafından üretilen not defterleri, Shapley değerlerinihesaplamak için kod içerir. Shapley değerleri oyun teorisini temel alır ve her özelliğin bir modelin tahminleri için önemini tahmin eder.

AutoML not defterleriSHAP paketini kullanarak Shapley değerlerini hesaplar. Bu hesaplamalar yüksek bellek yoğunluklu olduğundan, hesaplamalar varsayılan olarak gerçekleştirilmez.

Shapley değerlerini hesaplamak ve görüntülemek için:

  1. AutoML tarafından oluşturulan bir deneme not defterinde Özellik önemi bölümüne gidin.
  2. shap_enabled = Trueayarlayın.
  3. Not defterini yeniden çalıştırın.

Sonraki adımlar