Göl evi platformunun kapsamı
Modern bir veri ve yapay zeka platformu çerçevesi
Databricks Veri Zekası Platformu'nun kapsamını tartışmak için öncelikle modern veriler ve yapay zeka platformu için temel bir çerçeve tanımlamak yararlı olacaktır:
Göl evi kapsamına genel bakış
Databricks Veri Zekası Platformu, eksiksiz bir modern veri platformu çerçevesini kapsar. Göl evi mimarisi üzerine kurulmuştur ve verilerinizin benzersiz niteliklerini anlayan bir veri zekası altyapısı tarafından desteklenir. ETL, ML/AI ve DWH/BI iş yükleri için açık ve birleşik bir temeldir ve merkezi veri ve yapay zeka idare çözümü olarak Unity Kataloğu'na sahiptir.
Platform çerçevesinin kişilikleri
Çerçeve, çerçevedeki uygulamalarla çalışan birincil veri ekibi üyelerini (kişilikler) kapsar:
- Veri mühendisleri , veri bilimcilerine ve iş analistlerine zamanında karar alma ve gerçek zamanlı içgörüler için doğru ve yeniden üretilebilir veriler sağlar. Kullanıcıların verilere olan güvenini ve güvenini artırmak için son derece tutarlı ve güvenilir ETL işlemleri uygular. Verilerin işletmenin çeşitli yapılarıyla iyi bir şekilde tümleştirildiğinden emin olur ve genellikle yazılım mühendisliği en iyi uygulamalarını izler.
- Veri bilimcileri analitik uzmanlığı ve iş anlayışını birleştirerek verileri stratejik içgörülere ve tahmine dayalı modellere dönüştürür. Bunlar, geçmişe dönük analitik içgörüler veya ileriye dönük tahmine dayalı modelleme yoluyla iş zorluklarını veri odaklı çözümlere çevirme konusunda ustadır. Veri modelleme ve makine öğrenmesi tekniklerinden yararlanarak verilerden desenleri, eğilimleri ve tahminleri ortaya çıkartan modelleri tasarlar, geliştirir ve dağıtır. Bir köprü görevi görür ve karmaşık veri anlatılarını anlaşılır hikayelere dönüştürür, iş paydaşlarının veri odaklı önerileri anlamasını sağlamakla kalmaz, aynı zamanda bir kuruluş içinde sorun çözme konusunda veri odaklı bir yaklaşım benimseyebilir.
- ML mühendisleri (makine öğrenmesi mühendisleri), makine öğrenmesi modelleri oluşturarak, dağıtarak ve bakımını yaparak ürün ve çözümlerde veri biliminin pratik bir şekilde uygulanmasına öncülük eder. Birincil odak noktası, model geliştirme ve dağıtımının mühendislik yönüne odaklanır. ML Mühendisleri canlı ortamlarda makine öğrenmesi sistemlerinin sağlamlığını, güvenilirliğini ve ölçeklenebilirliğini sağlayarak veri kalitesi, altyapı ve performansla ilgili zorlukları ele alır. Yapay zeka ve ML modellerini operasyonel iş süreçleriyle ve kullanıcıya yönelik ürünlerle tümleştirerek, veri biliminin iş zorluklarının çözümünde kullanımını kolaylaştırarak modellerin yalnızca araştırmada kalmamasını ve somut iş değeri sağlamasını sağlar.
- İş analistleri ve iş kullanıcıları: İş analistleri paydaşlara ve iş ekiplerine eyleme dönüştürülebilir veriler sağlar. Genellikle standart BI araçlarını kullanarak verileri yorumlar ve yönetim için raporlar veya başka belgeler oluştururlar. Bunlar genellikle teknik olmayan iş kullanıcıları ve operasyon iş arkadaşları için hızlı analiz soruları için ilk iletişim noktasıdır. Databricks platformunda sunulan panolar ve iş uygulamaları doğrudan iş kullanıcıları tarafından kullanılabilir.
- İş ortakları , ağ iletişimi giderek artan bir iş dünyasında önemli paydaşlardır. Bir işletmenin ortak bir hedefe ulaşmak için resmi bir ilişkisi olan bir şirket veya bireyler olarak tanımlanırlar ve satıcılar, tedarikçiler, dağıtımcılar ve diğer üçüncü taraf iş ortaklarını içerebilirler. veri paylaşımı, işbirliğini ve veri odaklı karar alma sürecini geliştirmek için veri aktarımına ve değişimine olanak sağladığından, iş ortaklıklarının önemli bir yönüdür.
Platform çerçevesinin etki alanları
Platform birden çok etki alanlarından oluşur:
- Depolama: Bulutta veriler genellikle bulut sağlayıcılarında ölçeklenebilir, verimli ve dayanıklı nesne depolama alanında depolanır.
- İdare: Erişim denetimi, denetim, meta veri yönetimi, köken izleme ve tüm veriler ve yapay zeka varlıkları için izleme gibi veri idaresi özellikleri.
- Yapay zeka altyapısı: Yapay zeka altyapısı, platformun tamamı için üretken yapay zeka özellikleri sağlar.
- Alma ve dönüştürme: ETL iş yüklerinin özellikleri.
- Gelişmiş analiz, ML ve AI: Makine öğrenmesi, yapay zeka, Üretken yapay zeka ve ayrıca akış analizi ile ilgili tüm özellikler.
- Veri ambarı: DWH ve BI kullanım örneklerini destekleyen etki alanı.
- Otomasyonu: CI/CD ve MLOps desteği dahil olmak üzere veri işleme, makine öğrenmesi, analiz işlem hatları için İş akışı yönetimi.
- ETL ve DS araçları: Veri mühendislerinin, veri bilimciler ve ML mühendislerinin öncelikli olarak iş için kullandığı ön uç araçları.
- BI araçları: İŞ zekası analistlerinin öncelikli olarak iş için kullandığı ön uç araçları.
- İşbirliği: İki veya daha fazla taraf arasında veri paylaşımı özellikleri.
Databricks Platformunun kapsamı
Databricks Veri Zekası Platformu ve bileşenleri aşağıdaki şekilde çerçeveye eşlenebilir:
İndirme: Lakehouse kapsamı - Databricks bileşenleri
Azure Databricks'te veri iş yükleri
En önemlisi, Databricks Veri Zekası Platformu tek bir platformdaki veri etki alanı için tüm ilgili iş yüklerini kapsar ve altyapı olarak Apache Spark/Photon kullanılır:
Alma ve dönüştürme
Databricks çeşitli veri alımı yolları sunar:
- Databricks Lakeflow Connect, kurumsal uygulamalardan ve veritabanlarından alım için yerleşik bağlayıcılar sunar. Sonuçta elde edilen veri alma işlem hattı, Unity Kataloğu tarafından yönetilir ve sunucusuz bilişim hizmeti ve DLT (Dağıtık Defter Teknolojisi) ile desteklenir.
- otomatik yükleyici artımlı olarak ve durum bilgilerini yönetmeye gerek kalmadan zamanlanmış veya sürekli işlerde bulut depolama alanına inen dosyaları otomatik olarak işler. Veri alındıktan sonra iş zekası ve ML/AI için hazır olması için ham verilerin dönüştürülmesi gerekir. Databricks, veri mühendisleri, veri bilimcileri ve analistler için güçlü ETL özellikleri sağlar.
DLT (DLT), ETL işlerini bildirim temelli bir şekilde yazmaya olanak sağlayarak tüm uygulama sürecini basitleştirir. Veri beklentileri tanımlanarak veri kalitesi geliştirilebilir.
Gelişmiş analiz, ML ve yapay zeka
Platformda
Databricks Mozaik AI , klasik makine ve derin öğrenmeiçin tam tümleşik makine öğrenmesi ve yapay zeka araçlarının yanı sıra üretken yapay zeka ve büyük dil modelleri (LLM) bulunur. Veri hazırlamadan makine öğrenmesi ve derin öğrenme modelleri oluşturmaya, Mozaik Yapay Zeka Modeli Sunma'ya kadar tüm iş akışını kapsar. Spark Yapılandırılmış Akış ve DLT , gerçek zamanlı analizi etkinleştirir.
Veri ambarı
Databricks Veri Zekası Platformu ayrıca ayrıntılı erişim denetimine sahip Unity Kataloğu tarafından merkezi olarak yönetilen Databricks SQL ile eksiksiz bir veri ambarı çözümüne sahiptir.
yapay zeka işlevleri, doğrudan SQL'den verilerinize yapay zeka uygulamanıza olanak sağlayan yerleşik SQL işlevleridir. Yapay zekayı analiz iş akışlarıyla tümleştirmek, analistler tarafından önceden erişilemeyen bilgilere erişim sağlar ve veri odaklı yenilik ve verimlilik sayesinde daha bilinçli kararlar alma, riskleri yönetme ve rekabet avantajı sağlama konusunda onları güçlendirir.
Azure Databricks özellik alanlarının ana hattı
Bu, Databricks Veri Zekası Platformu özelliklerinin alttan üste doğru çerçevenin diğer katmanlarına eşlenir:
Bulut depolama
Göl evi için tüm veriler bulut sağlayıcısının nesne depolama alanında depolanır. Databricks üç bulut sağlayıcısını destekler: AWS, Azure ve GCP. Çeşitli yapılandırılmış ve yarı yapılandırılmış biçimlerdeki (örneğin Parquet, CSV, JSON ve Avro) ve yapılandırılmamış biçimlerdeki (görüntüler ve belgeler gibi) dosyalar toplu işlem veya akış işlemleri kullanılarak alınır ve dönüştürülür.
Delta Lake, lakehouse için önerilen veri biçimidir (dosya işlemleri, güvenilirlik, tutarlılık, güncelleştirmeler vb.) ve kilitlenmeyi önlemek için tamamen açık kaynak. Delta Universal Format (UniForm), Iceberg okuyucu istemcileriyle Delta tablolarını okumanızı sağlar.
Databricks Veri Zekası Platformu'nda hiçbir özel veri biçimi kullanılmaz.
Verileri ve yapay zeka idaresi
Unity Kataloğu, meta veri deposunda meta veri yönetimi, erişim denetimi, denetim, veri bulmave veri kökenigibi çok çeşitli veri ve yapay zeka yönetim özellikleri sunar.
Lakehouse izleme, veri ve yapay zeka varlıkları için kullanıma hazır kalite ölçümleri ve bu ölçümleri görselleştirmek için otomatik olarak oluşturulan kontrol panelleri sağlar.
SQL dışı kaynaklar, lakehouse federasyonu aracılığıyla lakehouse ve Unity Kataloğu'na entegre edilebilir.
Yapay zeka altyapısı
Veri Zekası Platformu, lakehouse mimarisi üzerine kurulmuştur ve DatabricksIQ veri zekası altyapısı tarafından geliştirilmiştir. DatabricksIQ, verilerinizin benzersiz semantiğini anlamak için üretken yapay zekayı lakehouse mimarisinin birleştirme avantajlarıyla birleştirir. Akıllı Arama ve Databricks Yardımcısı , her kullanıcı için platformla çalışmayı basitleştiren yapay zeka destekli hizmetlere örnektir.
Düzenleme
Databricks İşleri , tüm bulutlarda tam veri ve yapay zeka yaşam döngüsü için farklı iş yükleri çalıştırmanızı sağlar. SQL, Spark, not defterleri, DBT, ML modelleri ve daha fazlası için DLT'nin yanı sıra işleri düzenlemenize olanak tanır.
ETL & DS araçları
Tüketim katmanında veri mühendisleri ve ML mühendisleri genellikle IDE'leri kullanarak platformla birlikte çalışır. Veri bilimciler genellikle not defterlerini tercih eder ve denemeleri izlemek ve model yaşam döngüsünü yönetmek için ML ve AI çalışma zamanlarını ve makine öğrenmesi iş akışı sistemi MLflow'u kullanır.
BI araçları
İş analistleri genellikle Databricks veri ambarlarına erişmek için tercih ettikleri BI aracını kullanır. Databricks SQL farklı Analiz ve BI araçları tarafından sorgulanabilir, bkz. BI ve görselleştirme
Buna ek olarak, platform kutudan çıktığı gibi hazır sorgu ve analiz araçları sunar.
- AI/BI Panoları veri görselleştirmelerini sürükleyip bırakmak ve içgörüleri paylaşmak için.
- Veri analistleri gibi etki alanı uzmanları, Genie'nin iş sorularını analiz sorgularına çevirmesine yardımcı olmak için veri kümeleri, örnek sorgular ve metin yönergeleriyle yapay zeka/BI Genie alanları yapılandırıyor. Kurulumdan sonra, işletme kullanıcıları operasyonel verileri anlamak için sorular sorabilir ve görselleştirmeler oluşturabilir.
- Databricks Apps
, geliştiricilerin Databricks platformunda güvenli veri ve yapay zeka uygulamaları oluşturmasına ve bu uygulamaları kullanıcılarla paylaşmasına olanak tanır.
İş birliği
Delta Sharing , Databricks tarafından kullandıkları bilgi işlem platformlarından bağımsız olarak diğer kuruluşlarla güvenli veri paylaşımı için geliştirilen açık bir protokoldür .
Databricks Market , veri ürünleri alışverişi için açık bir forumdur. Veri sağlayıcılarına veri ürünlerini güvenli bir şekilde paylaşma araçları ve veri tüketicilerine ihtiyaç duydukları veri ve veri hizmetlerine erişimlerini keşfetme ve genişletme gücü vermek için Delta Sharing'in avantajlarından yararlanır.
Temiz Odalar , birden çok tarafın birbirlerinin verilerine doğrudan erişim olmadan hassas kurumsal veriler üzerinde birlikte çalışabileceği güvenli ve gizliliği koruyan bir ortam sağlamak için Delta Sharing ve sunucusuz işlem kullanır.