Aracılığıyla paylaş


Lakehouse referans mimarileri (indir)

Bu makale, veri kaynağı, alım, dönüştürme, sorgulama ve işleme, hizmet, analiz ve depolama açısından göl evi için mimari rehberliği kapsar.

Her başvuru mimarisi 11 x 17 (A3) biçiminde indirilebilir bir PDF'ye sahiptir.

Databricks'teki lakehouse, büyük bir iş ortağı araçları ekosistemiyle entegre olan açık bir platform olmasına rağmen, referans mimarileri yalnızca Azure hizmetlerine ve Databricks lakehouse'a odaklanır. Gösterilen bulut sağlayıcısı hizmetleri, kavramları göstermek için seçilir ve kapsamlı değildir.

Azure Databricks lakehouse için Başvuru Mimarisi.

İndirme: Azure Databricks Lakehouse için Referans Mimarisi

Azure başvuru mimarisi, alma, depolama, sunma ve analiz için aşağıdaki Azure'a özgü hizmetleri gösterir:

  • Lakehouse Federation için kaynak sistemler olarak Azure Synapse ve SQL Server
  • Akış verisi alımı için Azure IoT Hub ve Azure Event Hubs
  • Azure Data Factory ile toplu veri alma
  • Nesne depolama alanı olarak Azure Data Lake Storage 2. Nesil (ADLS)
  • İşletimsel veritabanları olarak Azure SQL DB ve Azure Cosmos DB
  • UC'nin şema ve köken bilgilerini dışarı aktardığı kurumsal katalog olarak Azure Purview
  • BI aracı olarak Power BI

Başvuru mimarilerinin organizasyonu

Referans mimarisi, iş akışları boyunca, Kaynak, Alma, Dönüştürme, Sorgu/İşlem, Hizmet, Analiz ve Depolama şeklinde yapılandırılmıştır.

  • Kaynak

    Mimari yarı yapılandırılmış ve yapılandırılmamış verileri (algılayıcılar ve IoT, medya, dosyalar/günlükler) ve yapılandırılmış verileri (RDBMS, iş uygulamaları) birbirinden ayırır. SQL kaynakları (RDBMS), lakehouse federation aracılığıyla ETL olmadan lakehouse ve Unity Catalog ile de tümleştirilebilir. Buna ek olarak, veriler diğer bulut sağlayıcılarından yüklenebilir.

  • Yut

    Veriler toplu veya akış veri girişleri üzerinden göl evine yüklenebiliyor.

    • Databricks Lakeflow Connect, kurumsal uygulamalardan ve veritabanlarından alım için yerleşik bağlayıcılar sunar. Sonuçta elde edilen veri alma işlem hattı, Unity Kataloğu tarafından yönetilir ve sunucusuz bilgi işlem ve DLT (Dağıtık Defter Teknolojisi) ile desteklenir.
  • Depolama

    Veriler genellikle ETL işlem hatlarının verileri Delta dosyaları/tabloları olarak seçilmiş bir şekilde depolamak için madalyon mimarisini kullandığı bulut depolama sisteminde depolanır.

  • Dönüştürme ve Sorgu / işlem

    Databricks lakehouse, tüm dönüştürmeler ve sorgular için apache Spark ve Photon altyapılarını kullanır.

    DLT (DLT), güvenilir, sürdürülebilir ve test edilebilir veri işleme işlem hatlarını basitleştirmeye ve iyileştirmeye yönelik bildirim temelli bir çerçevedir.

    Apache Spark ve Photon tarafından desteklenen Databricks Veri Zekası Platformu her iki iş yükü türünü de destekler: SQL ambarları aracılığıyla SQL sorguları ve çalışma alanı kümeleri aracılığıyla SQL, Python ve Scala iş yükleri.

    Veri bilimi (ML Modelleme ve Gen AI) için Databricks AI ve Machine Learning platformu, AutoML ve ML işlerini kodlamak için özel ML çalışma zamanları sağlar. Tüm veri bilimi ve MLOps iş akışları en iyi şekilde MLflow tarafından desteklenir.

  • Hizmet

    DWH ve BI kullanım örnekleri için, Databricks lakehouse Databricks SQL, SQL ambarları ve sunucusuz SQL ambarları tarafından desteklenen veri ambarı sağlar.

    Makine öğrenmesi için model sunma, Databricks denetim düzleminde barındırılan ölçeklenebilir, gerçek zamanlı, kurumsal düzeyde bir model sunma özelliğidir. Mozaik AI Ağ Geçidi, desteklenen üretken yapay zeka modellerine ve uç noktalara hizmet veren ilişkili modellerine erişimi idare etmek ve izlemek için Databricks çözümüdür.

    İşletimsel veritabanları: İşletimsel veritabanları gibi dış sistemler, son veri ürünlerini depolamak ve kullanıcı uygulamalarına teslim etmek için kullanılabilir.

    İşbirliği: İş ortakları, Delta Sharing aracılığıyla ihtiyaç duydukları verilere güvenli erişim elde eder. Delta Paylaşımına dayalı olarak Databricks Market, veri ürünlerinin alışverişi için açık bir forumdur.

  • Analiz

    Nihai iş uygulamaları bu kulvarda yer alır. Örnekler arasında gerçek zamanlı çıkarım için Mozaik Yapay Zeka Modeli Sunma'ya bağlı yapay zeka uygulamaları gibi özel istemciler veya göl evinden işletimsel veritabanına gönderilen verilere erişen uygulamalar yer alır.

    BI kullanım örnekleri için analistler genellikle veri ambarlarına erişmek için BI araçlarını kullanır. SQL geliştiricileri ayrıca sorgular ve pano oluşturma için Databricks SQL Düzenleyicisi'ni (diyagramda gösterilmez) kullanabilir.

    Veri Zekası Platformu ayrıca veri görselleştirmeleri oluşturmak ve içgörüleri paylaşmak için panolar sunar.

  • Tümleştir

    • OpenAI, LangChain veya HuggingFace gibi dış yapay zeka hizmetleri doğrudan Databricks Intelligence Platformu içinden kullanılabilir.

    • Dış düzenleyiciler kapsamlı REST API veya apache Airflowgibi dış düzenleme araçlarına ayrılmış bağlayıcıları kullanabilir.

    • Unity Kataloğu, Databricks Intelligence Platform'daki yapay zeka idaresi & tüm veriler için kullanılır ve Lakehouse Federationaracılığıyla diğer veritabanlarını kendi idaresiyle tümleştirebilir.

      Ayrıca Unity Kataloğu, Purviewgibi diğer kurumsal kataloglarla tümleştirilebilir. Ayrıntılar için kurumsal katalog satıcısına başvurun.

Tüm iş yükleri için ortak özellikler

Ayrıca Databricks lakehouse, tüm iş yüklerini destekleyen yönetim özellikleriyle birlikte gelir:

  • Veri ve yapay zeka idaresi

    Databricks Veri Zekası Platformu'ndaki merkezi veriler ve yapay zeka idare sistemi Unity Kataloğu'dur. Unity Kataloğu, tüm çalışma alanlarında geçerli olan veri erişim ilkelerini yönetmek için tek bir yer sağlar ve tablolar, birimler, özellikler (özellik deposu) ve modeller (model kayıt defteri) gibi göl evinde oluşturulan veya kullanılan tüm varlıkları destekler. Unity Kataloğu, Databricks'te çalıştırılacak sorgular arasında çalışma zamanı veri kökenini yakalamak için de kullanılabilir.

    Databricks lakehouse izleme, hesabınızdaki tüm tabloların veri kalitesini takip etmenizi sağlar. Ayrıca makine öğrenmesi modellerinin ve model sunma uç noktalarının performansını da izleyebilir.

    Gözlemlenebilirlik için sistem tabloları, hesabınızın işletimsel verilerinin Databricks tarafından barındırılan bir analiz deposudur. Sistem tabloları, hesabınızdaki geçmiş gözlemlenebilirlik için kullanılabilir.

  • Veri zekası altyapısı

    Databricks Veri Zekası Platformu, kuruluşunuzun tamamının verileri ve yapay zekayı kullanmasına olanak tanır. DatabricksIQ tarafından desteklenir ve verilerinizin benzersiz semantiğini anlamak için üretken yapay zekayı bir göl binasının birleştirme avantajlarıyla birleştirir.

    Databricks Yardımcısı, Databricks not defterlerinde, SQL düzenleyicisinde ve dosya düzenleyicisinde geliştiriciler için bağlama duyarlı bir yapay zeka yardımcısı olarak kullanılabilir.

  • Otomasyon & Orkestrasyon

    Databricks İşleri Databricks Veri Zekası Platformu'nda veri işleme, makine öğrenmesi ve analiz işlem hatlarını düzenler. DLT, bildirim temelli söz dizimi ile güvenilir ve sürdürülebilir ETL işlem hatları oluşturmanıza olanak sağlar. Platform ayrıca CI/CD ve MLOps destekler

Azure'da Veri Zekası Platformu için üst düzey kullanım örnekleri

Databricks Lakeflow Connect, kurumsal uygulamalardan ve veritabanlarından alım için yerleşik bağlayıcılar sunar. Sonuçta elde edilen veri alma işlem hattı, Unity Catalog tarafından yönetilir ve sunucusuz bilgi işlem (serverless compute) ve DLT ile desteklenir. Lakeflow Connect, veri alımını daha hızlı, ölçeklenebilir ve daha uygun maliyetli hale getirmek için verimli artımlı okuma ve yazma işlemlerinden yararlanırken, verileriniz aşağı akış tüketimi için güncel kalır.

Kullanım örneği: Lakeflow Connect ile alma:

Azure Databricks'te LFC kullanarak veri alımı .

Azure Databricks için Toplu ETL başvuru mimarisini indirin.

Kullanım örneği: Batch ETL

Azure Databricks'te toplu ETL için başvuru mimarisi.

İndirme: Azure Databricks için Batch ETL başvuru mimarisi

Veri alma araçları, kaynaktaki verileri okumak için kaynağa özgü adaptörler kullanır ve ardından veriyi Auto Loader'ın okuyabileceği bulut depolama alanında depolar veya doğrudan Databricks'i çağırır (örneğin, Databricks lakehouse ile entegre edilmiş iş ortağı veri alma araçlarıyla). Verileri yüklemek için Databricks ETL ve işleme altyapısı (DLT aracılığıyla) sorguları çalıştırır. Tek veya çok görevli iş akışları Databricks Görevleri tarafından güdümlenebilir ve Unity Kataloğu (erişim denetimi, denetim, köken bilgisi vb.) tarafından yönetilir. Düşük gecikme süreli işletim sistemleri belirli altın tablolara erişim gerektiriyorsa, ETL işlem hattının sonunda RDBMS veya anahtar-değer deposu gibi bir işlem veritabanına aktarılabilir.

Kullanım örneği: Akış ve değişiklik veri yakalama (CDC)

Azure Databricks'te Spark yapılandırılmış akış mimarisi .

İndirme: Azure Databricks için Spark yapılandırılmış akış mimarisi

Databricks ETL altyapısı, Apache Kafka veya Azure Event Hub gibi olay kuyruklarından okumak için Spark Yapılandırılmış Akış kullanır. Aşağı akış adımları, yukarıdaki Batch kullanım örneğinin yaklaşımını izler.

Gerçek zamanlı değişiklik veri yakalama (CDC) genellikle ayıklanan olayları depolamak için bir olay kuyruğu kullanır. Buradan itibaren, kullanım örneği akış kullanım senaryosunu takip eder.

CDC, ayıklanan kayıtların önce bulut depolama alanında saklandığı bir toplu işlemle gerçekleştirilirse, Databricks Autoloader bu kayıtları okuyabilir ve bu kullanım durumu Toplu ETL sürecini takip eder.

Kullanım örneği: Makine öğrenmesi ve yapay zeka

Azure Databricks için Yapay zeka ve makine öğrenmesi referans mimarisi.

İndirme: Azure Databricks için makine öğrenmesi ve yapay zeka başvuru mimarisi

Databricks Veri Zekası Platformu, makine öğrenmesi için en son özelliklere sahip makine ve derin öğrenme kitaplıklarıyla birlikte gelen Mozaik AI sunar. Özellik Deposu ve model kayıt defteri (her ikisi de Unity Kataloğu ile tümleşik), AutoML ile düşük kod özellikleri ve veri bilimi yaşam döngüsüyle MLflow tümleştirmesi gibi özellikler sağlar.

Veri bilimiyle ilgili tüm varlıklar (tablolar, özellikler ve modeller) Unity Kataloğu tarafından yönetilir ve veri bilimciler işlerini yönetmek için Databricks İşleri'ni kullanabilir.

Modelleri ölçeklenebilir ve kurumsal düzeyde dağıtmak için MLOps özelliklerini kullanarak modelleri model sunmada yayımlayın.

Kullanım örneği: Üretici yapay zeka (Gen AI) aracı uygulamaları

Azure Databricks için Gen AI uygulama başvuru mimarisi.

İndirme: Azure Databricks için Gen AI uygulama referans mimarisi

Mozaik AI, üretken yapay zeka kullanım örnekleri için en yeni kütüphanelerle ve komut mühendisliğinden mevcut modellerin ince ayarına ve sıfırdan ön eğitime kadar belirli üretken yapay zeka yetenekleriyle birlikte gelir. Yukarıdaki mimaride, RAG (alma artırılmış oluşturma) kullanarak bir nesil yapay zeka uygulaması oluşturmak için vektör aramanın nasıl tümleştirilebileceğine ilişkin bir örnek gösterilmektedir.

Modelleri ölçeklenebilir ve kurumsal düzeyde dağıtmak için MLOps özelliklerini kullanarak modelleri model sunmada yayımlayın.

Kullanım örneği: BI ve SQL analizi

Azure Databricks için BI ve SQL analizi başvuru mimarisi.

İndirme: Azure Databricks için BI ve SQL analizi başvuru mimarisi

İş analistleri, IŞ zekası kullanım örnekleri için panoları, Databricks SQL düzenleyicisini veya Tableau veya Power BI gibi belirli BI araçlarını kullanabilir. Her durumda altyapı Databricks SQL 'dir (sunucusuz veya sunucusuz değildir) ve Unity Kataloğu tarafından veri bulma, araştırma ve erişim denetimi sağlanır.

Kullanım örneği: Lakehouse federasyonu

Azure Databricks için Lakehouse federasyon başvuru mimarisi.

İndir: Azure Databricks için Lakehouse federasyonu başvuru mimarisi

Lakehouse federasyonu, dış veri SQL veritabanlarının (MySQL, Postgres, SQL Server veya Azure Synapse gibi) Databricks ile tümleştirilmesine olanak tanır.

Tüm iş yükleri (AI, DWH ve BI), önce verileri nesne depolamaya ETL'ye gerek kalmadan bundan yararlanabilir. Dış kaynak kataloğu Unity kataloğuna eşlenir ve Databricks platformu aracılığıyla erişime ayrıntılı erişim denetimi uygulanabilir.

Kullanım örneği: Kurumsal veri paylaşımı

Azure Databricks için Kurumsal veri paylaşımı referans mimarisi.

İndirme: Azure Databricks için kurumsal veri paylaşımı başvuru mimarisi

Kurumsal düzeyde veri paylaşımı Delta Sharing tarafından sağlanır. Unity Kataloğu tarafından güvenliği sağlanan nesne deposundaki verilere doğrudan erişim sağlar ve Databricks Market, veri ürünleri alışverişine yönelik açık bir forumdur.