Aracılığıyla paylaş


Özellik mühendisliği ve hizmet

Bu sayfa Unity Catalogiçin etkinleştirilen çalışma alanları için özellik mühendisliği ve sunma özelliklerini kapsar. Çalışma alanınız Unity Catalogiçin etkinleştirilmemişse bkz. Çalışma Alanı Özellik Deposu (eski).

Özellik deponuz olarak neden Databricks kullanmalısınız?

Databricks Veri Zekası Platformu ile model eğitim iş akışının tamamı tek bir platformda gerçekleşir:

  • Ham verileri alan, özellik tablesoluşturan, modelleri eğiten ve toplu çıkarım gerçekleştiren veri işlem hatları. Unity Catalog'de özellik mühendisliği işlemlerini kullanarak bir modeli eğitip günlüğe kaydettiğinizde, model, özelliklere ait meta verilerle birlikte paketlenmiştir. Modeli toplu puanlama veya çevrimiçi çıkarım için kullandığınızda, özelliği valuesotomatik olarak alır. Çağıranın, bunlar hakkında bilgi sahibi olması, bir arama yapmak için mantık eklemesi veya yeni verileri puanlamak için join özellikleri kullanması gerekmez.
  • Tek tıklamayla kullanılabilen ve milisaniyelik gecikme süresi sağlayan model ve özellik sunma uç noktaları.
  • Veri ve model izleme.

Buna ek olarak, platform aşağıdakileri sağlar:

  • Özellik bulma. Databricks kullanıcı arabirimindeki özelliklere göz atabilir ve özellikleri arayabilirsiniz.
  • İdare. Özellik tables, işlevler ve modellerin tümü Unity Catalogtarafından yönetilir. Bir modeli eğittiğiniz zaman, eğitildiği verilerden izinleri devralır.
  • Soy. Azure Databricks'te bir özellik table oluşturduğunuzda, özellik table oluşturmak için kullanılan veri kaynakları kaydedilir ve erişilebilir. tablebir özellikteki her özellik için, özelliği kullanan modellere, not defterlerine, işlere ve uç noktalara da erişebilirsiniz.
  • Çalışma alanları arası erişim. Özellik tables, işlevleri ve modelleri, catalog'e erişimi olan tüm çalışma alanlarında otomatik olarak kullanılabilir.

Gereksinimler

  • Çalışma alanınız Unity Catalogiçin etkinleştirilmelidir.
  • Unity Catalog'da özellik mühendisliği için Databricks Runtime 13.3 LTS veya üzeri gerekir.

Çalışma alanınız bu gereksinimleri karşılamıyorsa, eski Çalışma Alanı Özellik Deposu'kullanma hakkında bilgi için bkz. Çalışma Alanı Özellik Deposu (eski).

Databricks'te özellik mühendisliği nasıl çalışır?

Databricks'te özellik mühendisliği kullanan tipik makine öğrenmesi iş akışı şu yolu izler:

  1. Ham verileri özelliklere dönüştürmek için kod yazın ve istenen özellikleri içeren bir Spark DataFrame oluşturun.
  2. Unity Catalog'de Delta table oluşturun. Bir birincil anahtara sahip Delta table, otomatik olarak bir özellik tableolur.
  3. tableözelliğini kullanarak modeli eğitin ve log edin. Bunu yaptığınızda model, eğitim için kullanılan özelliklerin belirtimlerini depolar. Model çıkarım için kullanıldığında, tablesuygun özellikten özellikleri otomatik olarak birleştirir.
  4. Modeli Model Kayıt Defteri'ne kaydedin.

Artık modeli kullanarak yeni verilerle ilgili tahminlerde bulunabilirsiniz. Toplu kullanım örnekleri için model, ihtiyaç duyduğu özellikleri Özellik Deposu'ndan otomatik olarak alır.

Toplu makine öğrenmesi kullanım örnekleri için Özellik Deposu iş akışı.

Gerçek zamanlı servis kullanım durumları için özellikleri çevrimiçi bir table'ye yayımlayın. Üçüncü taraf çevrimiçi mağazalar da desteklenir. Bkz . Üçüncü taraf çevrimiçi mağazaları.

Çıkarım zamanında model, çevrimiçi mağazadan önceden hesaplanan özellikleri okur ve istemci isteğinde sağlanan verilerle uç noktaya hizmet veren modele ekler.

Sunulan makine öğrenmesi modelleri için Özellik Deposu akışı.

Özellik mühendisliğini kullanmaya başlama — örnek not defterleri

get başlamak için, bu örnek not defterlerini deneyin. Temel not defteri, tableözellik oluşturma, modeli eğitmek için bunu kullanma ve ardından otomatik özellik arama özelliğini kullanarak toplu puanlama gerçekleştirme adımlarını gösterir. Ayrıca Özellik Mühendisliği kullanıcı arabirimini tanıtır ve özellikleri aramak ve özelliklerin nasıl oluşturulduğunu ve kullanıldığını anlamak için nasıl kullanabileceğinizi gösterir.

Unity'de Temel Özellik Mühendisliği Catalog örnek not defteri

Get defter

Taksi örneği not defteri, özellik oluşturma, bunları güncelleştirme ve model eğitimi ve toplu çıkarım için kullanma sürecini gösterir.

Unity'de Özellik Mühendisliği Catalog taksi örneği not defteri

Get not defteri

Desteklenen veri türleri

Unity ve eski Çalışma Alanı Özellik Deposu'ndaki özellik mühendisliği, şu PySpark veri türlerinidestekler:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypeve MapType Unity Catalog ve Workspace Feature Store v0.3.5 veya üzeri sürümlerde Özellik Mühendisliği'nin tüm sürümlerinde desteklenir. [2] StructType Özellik Mühendisliği v0.6.0 veya üzerinde desteklenir.

Yukarıda listelenen veri türleri, makine öğrenmesi uygulamalarında yaygın olan özellik türlerini destekler. Örneğin:

  • Yoğun vektörleri, tensörleri ve eklemeleri olarak ArrayTypedepolayabilirsiniz.
  • Seyrek vektörleri, tensorları ve eklemeleri olarak MapTypedepolayabilirsiniz.
  • Metni olarak StringTypedepolayabilirsiniz.

Çevrimiçi mağazalarda ArrayType yayımlandığında ve MapType özellikler JSON biçiminde depolanır.

Özellik Deposu kullanıcı arabirimi, özellik veri türlerinde meta verileri görüntüler:

Karmaşık veri türleri örneği

Daha Fazla Bilgi

En iyi yöntemler hakkında daha fazla bilgi için Özellik Mağazalarının Kapsamlı Kılavuzu'nu indirin.