Arsitektur referensi Lakehouse (unduh)
Artikel ini membahas panduan arsitektur untuk lakehouse dalam hal sumber data, pengambilan data, transformasi, kueri, pemrosesan, layanan, analisis, dan penyimpanan.
Setiap arsitektur referensi memiliki PDF yang dapat diunduh dalam format 11 x 17 (A3).
Sementara lakehouse di Databricks adalah platform terbuka yang terintegrasi dengan ekosistem alat mitra besar, arsitektur referensi hanya berfokus pada layanan Azure dan lakehouse Databricks. Layanan penyedia cloud yang ditampilkan dipilih untuk mengilustrasikan konsep dan tidak lengkap.
Unduh: Arsitektur Referensi untuk Azure Databricks Lakehouse
Arsitektur referensi Azure memperlihatkan layanan khusus Azure berikut ini untuk menyerap, menyimpan, melayani, dan menganalisis:
- Azure Synapse dan SQL Server sebagai sistem sumber untuk Federasi Lakehouse
- Azure IoT Hub dan Azure Event Hubs untuk penyerapan streaming
- Azure Data Factory untuk penyerapan batch
- Azure Data Lake Storage Gen 2 (ADLS) sebagai penyimpanan objek
- Azure SQL DB dan Azure Cosmos DB sebagai database operasional
- Azure Purview sebagai katalog perusahaan tempat UC mengekspor skema dan informasi silsilah data
- Power BI sebagai alat BI
Organisasi Arsitektur Referensi
Arsitektur referensi disusun di sepanjang alur Source, Ingest, Transformasi, Query/Process, Melayani, Analisis, dan Penyimpanan:
Sumber
Arsitektur ini membedakan antara data semi terstruktur dan tidak terstruktur (sensor dan IoT, media, file/log), dan data terstruktur (RDBMS, aplikasi bisnis). Sumber SQL (RDBMS) juga dapat diintegrasikan ke dalam lakehouse dan Unity Catalog tanpa ETL dengan federasi lakehouse. Selain itu, data mungkin dimuat dari penyedia cloud lainnya.
Memasukkan
Data dapat diserap ke lakehouse melalui batch atau streaming:
- Databricks Lakeflow Connect menawarkan konektor bawaan untuk penyerapan dari aplikasi dan database perusahaan. Alur penyerapan yang dihasilkan diatur oleh Unity Catalog dan didukung oleh komputasi tanpa server dan DLT.
- File yang dikirimkan ke penyimpanan cloud dapat dimuat langsung menggunakan Databricks Auto Loader.
- Untuk penyerapan data batch dari aplikasi perusahaan ke Delta Lake, Databricks Lakehouse bergantung pada alat ingest mitra dengan adaptor tertentu untuk sistem pencatatan ini.
- Peristiwa streaming dapat diserap langsung dari sistem streaming peristiwa seperti Kafka menggunakan Databricks Structured Streaming. Sumber streaming dapat berupa sensor, IoT, atau mengubah proses pengambilan data.
Penyimpanan
Data biasanya disimpan dalam sistem penyimpanan cloud di mana alur ETL menggunakan arsitektur medallion untuk menyimpan data dengan cara yang terkurasi sebagai file/tabel Delta.
Mengubah dan Kueri/prosesLakehouse Databricks menggunakan mesinnya Apache Spark dan Photon untuk semua transformasi dan kueri.
DLT (DLT) adalah kerangka kerja deklaratif untuk menyederhanakan dan mengoptimalkan alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji.
Didukung oleh Apache Spark dan Photon, Platform Databricks Data Intelligence mendukung kedua jenis beban kerja: kueri SQL melalui gudang SQL, dan beban kerja SQL, Python, dan Scala melalui kluster ruang kerja.
Untuk ilmu data (ML Modeling dan Gen AI), platform Databricks AI dan Pembelajaran Mesin menyediakan runtime ML khusus untuk AutoML dan untuk pekerjaan ML pengkodian. Semua alur kerja ilmu data dan MLOps paling baik didukung oleh MLflow.
Melayani
Untuk kasus penggunaan DWH dan BI, databricks lakehouse menyediakan Databricks SQL, gudang data yang didukung oleh gudang SQL, dan gudang SQL tanpa server.
Untuk pembelajaran mesin, penyajian model adalah kemampuan penyajian model berskala besar, waktu nyata, tingkat perusahaan yang dihosting di sarana kontrol Databricks. Mosaic AI Gateway adalah solusi Databricks untuk mengatur dan memantau akses ke model AI generatif yang didukung dan model terkait yang melayani titik akhir.
Database operasional: Sistem eksternal, seperti database operasional, dapat digunakan untuk menyimpan dan mengirimkan produk data akhir ke aplikasi pengguna.
Kolaborasi: Mitra bisnis mendapatkan akses aman ke data yang mereka butuhkan melalui Berbagi Delta. Berdasarkan Delta Sharing, Databricks Marketplace adalah platform terbuka untuk bertukar produk data.
Analisis
Aplikasi bisnis akhir berada di jalur renang ini. Contohnya termasuk klien kustom seperti aplikasi AI yang terhubung ke Mosaic AI Model Serving untuk inferensi waktu nyata atau aplikasi yang mengakses data yang didorong dari lakehouse ke database operasional.
Untuk kasus penggunaan BI, analis biasanya menggunakan alat BI untuk mengakses gudang data. Pengembang SQL juga dapat menggunakan Editor SQL Databricks (tidak ditampilkan dalam diagram) untuk kueri dan dasbor.
Platform Kecerdasan Data juga menawarkan dasbor untuk membangun visualisasi data dan berbagi wawasan.
Integrasikan
- Platform Databricks terintegrasi dengan penyedia identitas standar untuk
manajemen pengguna dan login tunggal (SSO).
Layanan AI eksternal seperti OpenAI, LangChain atau HuggingFace dapat digunakan langsung dari dalam Platform Inteligensi Databricks.
Orkestrator eksternal dapat menggunakan REST API
komprehensif atau konektor khusus ke alat orkestrasi eksternal seperti Apache Airflow .Unity Catalog digunakan untuk semua data dan tata kelola AI di Platform Intelegensi Databricks dan dapat mengintegrasikan database lain dalam tata kelolanya melalui Federasi Lakehouse.
Selain itu, Unity Catalog dapat diintegrasikan ke dalam katalog perusahaan lain, misalnya Purview. Hubungi vendor katalog perusahaan untuk detailnya.
- Platform Databricks terintegrasi dengan penyedia identitas standar untuk
Kemampuan umum untuk semua beban kerja
Selain itu, Databricks lakehouse dilengkapi dengan kemampuan manajemen yang mendukung semua beban kerja:
Tata kelola data dan AI
Data pusat dan sistem tata kelola AI di Platform Kecerdasan Databricks adalah Unity Catalog. Unity Catalog menyediakan satu tempat untuk mengelola kebijakan akses data yang berlaku di semua ruang kerja dan mendukung semua aset yang dibuat atau digunakan di lakehouse, seperti tabel, volume, fitur (feature store), dan model (model registry). Katalog Unity juga dapat digunakan untuk menelusuri asal-usul data pada runtime di seluruh kueri yang berjalan di Databricks.
Databricks pemantauan lakehouse memungkinkan Anda memantau kualitas data semua tabel di akun Anda. Ini juga dapat melacak performa model pembelajaran mesin dan titik akhir penyajian model.
Untuk pengamatan, tabel sistem adalah penyimpanan analitik yang dikelola oleh Databricks dari data operasional akun Anda. Tabel sistem dapat digunakan untuk pengamatan historis di seluruh akun Anda.
Mesin kecerdasan data
Platform Data Intelligence Databricks memungkinkan seluruh organisasi Anda untuk menggunakan data dan AI. Ini didukung oleh DatabricksIQ dan memadukan AI generatif dengan keunggulan integrasi lakehouse untuk memahami semantik unik data Anda.
Asisten Databricks Assistant tersedia di notebook Databricks, editor SQL, dan editor file sebagai asisten AI berbasis konteks untuk pengembang.
Otomatisasi & Orkestrasi
Pekerjaan Databricks mengatur pemrosesan data, pembelajaran mesin, dan alur analitik pada Databricks Data Intelligence Platform. DLT memungkinkan Anda membangun alur ETL yang andal dan dapat dipertahankan dengan sintaks deklaratif. Platform ini juga mendukung CI/CD dan MLOps
Kasus penggunaan tingkat tinggi untuk Platform Inteligensi Data di Azure
Databricks Lakeflow Connect menawarkan konektor bawaan untuk penyerapan dari aplikasi dan database perusahaan. Alur penyerapan yang dihasilkan diatur oleh Unity Catalog dan didukung oleh komputasi tanpa server dan DLT. Lakeflow Connect memanfaatkan pembacaan dan penulisan inkremental yang efisien untuk membuat penyerapan data lebih cepat, dapat diskalakan, dan lebih hemat biaya, sementara data Anda tetap segar untuk konsumsi hilir.
Kasus penggunaan: Penyerapan dengan Lakeflow Connect:
Unduh: Arsitektur referensi Batch ETL untuk Azure Databricks.
Kasus penggunaan: Batch ETL
Unduh: Arsitektur referensi ETL Batch untuk Azure Databricks
Alat penyerapan menggunakan adaptor khusus sumber untuk membaca data dari sumber dan kemudian menyimpannya di penyimpanan cloud dari mana Auto Loader dapat membacanya, atau memanggil Databricks secara langsung (misalnya, dengan alat penyerapan mitra yang terintegrasi ke dalam lakehouse Databricks). Untuk memuat data, Databricks ETL dan mesin pemrosesan - melalui DLT - menjalankan kueri. Alur kerja tunggal atau multitugas dapat dikoordinasikan oleh Databricks Jobs dan diatur oleh Unity Catalog (kontrol akses, audit, silsilah data, dan sebagainya). Jika sistem operasional latensi rendah memerlukan akses ke tabel emas tertentu, mereka dapat diekspor ke database operasional seperti RDBMS atau penyimpanan nilai kunci di akhir alur ETL.
Kasus penggunaan: Streaming dan penangkapan perubahan data (CDC)
Unduh: Arsitektur streaming terstruktur Spark untuk Azure Databricks
Mesin ETL Databricks menggunakan Spark Structured Streaming untuk membaca dari antrian acara seperti Apache Kafka atau Azure Event Hub. Langkah-langkah hilir mengikuti pendekatan kasus penggunaan Batch di atas.
Pengambilan data perubahan real time (CDC) biasanya menggunakan antrean peristiwa untuk menyimpan peristiwa yang diekstrak. Dari sana, kasus penggunaan mengikuti kasus penggunaan streaming.
Jika CDC dilakukan dalam batch tempat rekaman yang diekstrak disimpan di penyimpanan cloud terlebih dahulu, maka Databricks Autoloader dapat membacanya dan kasus penggunaan mengikuti Batch ETL.
Kasus penggunaan: Pembelajaran mesin dan AI
Unduh: Arsitektur referensi pembelajaran mesin dan AI untuk Azure Databricks
Untuk pembelajaran mesin, Databricks Data Intelligence Platform menyediakan Mosaic AI, yang dilengkapi dengan mesin canggih dan pustaka pembelajaran mendalam. Ini menyediakan kemampuan seperti Penyimpanan Fitur dan registri model (keduanya terintegrasi ke dalam Unity Catalog), fitur kode rendah dengan AutoML, dan integrasi MLflow ke dalam siklus hidup ilmu data.
Semua aset yang terkait dengan ilmu data (tabel, fitur, dan model) diatur oleh Unity Catalog, dan ilmuwan data dapat menggunakan Databricks Jobs untuk mengorkestrasi pekerjaan mereka.
Untuk menyebarkan model secara skalabel dan berkelas perusahaan, gunakan kemampuan MLOps untuk memublikasikan model dalam layanan model.
Kasus penggunaan: Aplikasi agen AI Generatif (Gen AI)
Unduh: Arsitektur referensi aplikasi Gen AI untuk Azure Databricks
Untuk kasus penggunaan AI generatif, Mosaic AI dilengkapi dengan pustaka canggih dan kemampuan AI generatif tertentu, mulai dari rekayasa prompt hingga penyempurnaan model yang ada dan pra-pelatihan dari awal. Arsitektur di atas menunjukkan contoh bagaimana pencarian vektor dapat diintegrasikan untuk membuat aplikasi AI generatif menggunakan RAG (pembuatan yang ditambah dengan pengambilan informasi).
Untuk menyebarkan model dengan cara yang dapat diskalakan dan kelas perusahaan, gunakan kemampuan MLOps untuk menerbitkan model dalam layanan model.
Kasus penggunaan: Analitik BI dan SQL
Unduh: Arsitektur referensi analitik BI dan SQL untuk Azure Databricks
Untuk kasus penggunaan BI, analis bisnis dapat menggunakan dasbor, editor Databricks SQL atau alat BI tertentu seperti Tableau atau Power BI. Dalam semua kasus, mesinnya adalah Databricks SQL (tanpa server atau tanpa server) dan penemuan data, eksplorasi, dan kontrol akses disediakan oleh Unity Catalog.
Kasus penggunaan: Federasi Lakehouse
Unduh: Arsitektur referensi federasi Lakehouse untuk Azure Databricks
Federasi Lakehouse memungkinkan database SQL data eksternal (seperti MySQL, Postgres, SQL Server, atau Azure Synapse) untuk diintegrasikan dengan Databricks.
Semua beban kerja (AI, DWH, dan BI) dapat memperoleh manfaat dari ini tanpa perlu ETL data ke penyimpanan objek terlebih dahulu. Katalog sumber eksternal dipetakan ke dalam katalog Unity dan kontrol akses halus dapat diterapkan untuk mengakses melalui platform Databricks.
Kasus penggunaan: Berbagi data perusahaan
Unduh: Arsitektur referensi berbagi data perusahaan untuk Azure Databricks
Delta Sharing menyediakan berbagi data tingkat perusahaan. Ini menyediakan akses langsung ke data di penyimpanan objek yang diamankan oleh Unity Catalog, dan Databricks Marketplace adalah forum terbuka untuk bertukar produk data.