Cakupan platform rumah danau
Kerangka kerja platform data dan AI modern
Untuk membahas cakupan Platform kecerdasan Databricks Data, sangat membantu untuk terlebih dahulu menentukan kerangka kerja dasar untuk data modern dan platform AI:
Gambaran cakupan umum lakehouse
Platform Data Intelligence Databricks mencakup rangka platform data modern yang lengkap. Ini dibangun di atas arsitektur lakehouse dan didukung oleh mesin kecerdasan data yang memahami kualitas unik data Anda. Ini adalah fondasi terbuka dan terpadu untuk beban kerja ETL, ML/AI, dan DWH/BI, dan memiliki Katalog Unity sebagai data pusat dan solusi tata kelola AI.
Persona kerangka kerja platform
Kerangka kerja mencakup anggota tim data utama (persona) yang bekerja dengan aplikasi dalam kerangka kerja:
- Teknisi data menyediakan ilmuwan data dan analis bisnis dengan data yang akurat dan dapat direproduksi untuk pengambilan keputusan dan wawasan real time yang tepat waktu. Mereka menerapkan proses ETL yang sangat konsisten dan andal untuk meningkatkan kepercayaan pengguna dan kepercayaan pada data. Mereka memastikan bahwa data terintegrasi dengan baik dengan berbagai pilar bisnis dan biasanya mengikuti praktik terbaik rekayasa perangkat lunak.
- Ilmuwan data memadukan keahlian analitik dan pemahaman bisnis untuk mengubah data menjadi wawasan strategis dan model prediktif. Mereka mahir menerjemahkan tantangan bisnis ke dalam solusi berbasis data, baik itu melalui wawasan analitik retrospektif atau pemodelan prediktif berwawasan ke depan. Memanfaatkan pemodelan data dan teknik pembelajaran mesin, mereka merancang, mengembangkan, dan menyebarkan model yang mengungkap pola, tren, dan prakiraan dari data. Mereka bertindak sebagai jembatan, mengonversi narasi data yang kompleks menjadi cerita yang dapat dipahami, memastikan pemangku kepentingan bisnis tidak hanya memahami tetapi juga dapat bertindak berdasarkan rekomendasi berbasis data, pada gilirannya mendorong pendekatan yang berpusat pada data untuk pemecahan masalah dalam organisasi.
- Teknisi ML (teknisi pembelajaran mesin) memimpin penerapan praktis ilmu data dalam produk dan solusi dengan membangun, menyebarkan, dan memelihara model pembelajaran mesin. Fokus utama mereka mengarah pada aspek rekayasa pengembangan dan penyebaran model. Teknisi ML memastikan ketahanan, keandalan, dan skalabilitas sistem pembelajaran mesin di lingkungan langsung, mengatasi tantangan yang terkait dengan kualitas data, infrastruktur, dan performa. Dengan mengintegrasikan model AI dan ML ke dalam proses bisnis operasional dan produk yang menghadap pengguna, mereka memfasilitasi pemanfaatan ilmu data dalam memecahkan tantangan bisnis, memastikan model tidak hanya tetap dalam penelitian tetapi mendorong nilai bisnis yang nyata.
- Analis Bisnis dan pengguna bisnis: Analis bisnis menyediakan data yang dapat ditindaklanjuti oleh pemangku kepentingan dan tim bisnis. Mereka sering menginterpretasikan data dan membuat laporan atau dokumentasi lain untuk manajemen menggunakan alat BI standar. Mereka biasanya merupakan titik kontak pertama bagi pengguna bisnis non-teknis dan kolega operasi untuk pertanyaan analisis cepat. Dasbor dan aplikasi bisnis yang dikirimkan di platform Databricks dapat digunakan langsung oleh pengguna bisnis.
- Mitra bisnis adalah pemangku kepentingan penting di dunia bisnis yang semakin terhubung. Mereka didefinisikan sebagai perusahaan atau individu yang memiliki hubungan formal untuk mencapai tujuan bersama, dan dapat mencakup vendor, pemasok, distributor, dan mitra pihak ketiga lainnya. Berbagi data adalah aspek penting dari kemitraan bisnis, karena memungkinkan transfer dan pertukaran data untuk meningkatkan kolaborasi dan pengambilan keputusan berbasis data.
Domain kerangka kerja platform
Platform ini terdiri dari beberapa domain:
- Penyimpanan: Di cloud, data terutama disimpan dalam penyimpanan objek yang dapat diskalakan, efisien, dan tangguh pada penyedia cloud.
- Tata kelola: Kemampuan sekeliling tata kelola data, seperti kontrol akses, audit, manajemen metadata, pelacakan silsilah data, dan pemantauan untuk semua data dan aset AI.
- Mesin AI: Mesin AI menyediakan kemampuan AI generatif untuk seluruh platform.
Penyerapan & transformasi: Fitur untuk beban kerja ETL.
- Analitik tingkat lanjut, ML, dan AI: Semua kemampuan sekeliling pembelajaran mesin, AI, AI Generatif, dan juga analitik streaming.
- Gudang data: Domain yang mendukung kasus penggunaan DWH dan BI.
- Automation: Manajemen alur kerja untuk pemrosesan data, pembelajaran mesin, alur analitik, termasuk dukungan CI/CD dan MLOps.
- Alat ETL &DS: Alat front-end yang terutama digunakan oleh teknisi data, ilmuwan data, dan insinyur ML untuk bekerja.
- Alat BI: Alat front-end yang terutama digunakan analis BI untuk bekerja.
- Kolaborasi: Kemampuan untuk berbagi data antara dua pihak atau lebih.
Cakupan Platform Databricks
Platform Inteligensi Databricks dan komponennya dapat dipetakan ke kerangka kerja dengan cara berikut:
Unduh: Cakupan dari lakehouse - Komponen dari Databricks
Beban kerja data di Azure Databricks
Yang terpenting, Platform Databricks Data Intelligence mencakup semua beban kerja yang relevan untuk domain data dalam satu platform, dengan Apache Spark/Photon sebagai mesin:
Pemasukan & transformasi Databricks menawarkan beberapa cara penyerapan data:
- Databricks Lakeflow Connect menawarkan konektor bawaan untuk penyerapan dari aplikasi dan database perusahaan. Alur penyerapan yang dihasilkan diatur oleh Unity Catalog dan didukung oleh komputasi tanpa server dan DLT.
- Auto Loader secara bertahap dan otomatis memproses file yang mendarat di penyimpanan cloud dalam pekerjaan terjadwal atau berkelanjutan - tanpa perlu mengelola informasi status. Setelah diserap, data mentah perlu diubah sehingga siap untuk BI dan ML/AI. Databricks menyediakan kemampuan ETL yang kuat untuk insinyur data, ilmuwan data, dan analis.
DLT (DLT) memungkinkan penulisan pekerjaan ETL dengan cara deklaratif, menyederhanakan seluruh proses implementasi. Kualitas data dapat ditingkatkan dengan menentukan ekspektasi data.
Analitik tingkat lanjut, ML, dan AI
Platform ini mencakup Databricks Mosaic AI, sekumpulan alat pembelajaran mesin dan AI yang terintegrasi penuh untuk mesin klasik danpembelajaran mendalam, serta AI generatif dan model bahasa besar (LLM). Ini mencakup seluruh alur kerja dari menyiapkan data untuk membangun pembelajaran mesin dan model pembelajaran mendalam, hingga Mosaic AI Model Serving.
Spark Structured Streaming dan DLT mengaktifkan analitik real-time.
Gudang data
Platform Databricks Data Intelligence juga memiliki solusi gudang data lengkap dengan Databricks SQL, yang diatur secara terpusat oleh Unity Catalog dengan kontrol akses terperintah.
fungsi AI adalah fungsi SQL bawaan yang memungkinkan Anda menerapkan AI pada data Anda langsung dari SQL. Mengintegrasikan AI ke dalam alur kerja analisis menyediakan akses ke informasi yang sebelumnya tidak dapat diakses oleh analis, dan memberdayakan mereka untuk membuat keputusan yang lebih tepat, mengelola risiko, dan mempertahankan keunggulan kompetitif melalui inovasi dan efisiensi berbasis data.
Gambaran Area Fitur Azure Databricks
Ini adalah pemetaan fitur Databricks Data Intelligence Platform ke lapisan lain dari kerangka kerja, dari bawah ke atas:
Penyimpanan cloud
Semua data untuk lakehouse disimpan di penyimpanan objek dari penyedia cloud. Databricks mendukung tiga penyedia cloud: AWS, Azure, dan GCP. File dalam berbagai format terstruktur dan semi terstruktur (misalnya, Parquet, CSV, JSON, dan Avro), serta format yang tidak terstruktur (seperti gambar dan dokumen), diserap dan diubah menggunakan proses batch atau streaming.
Delta Lake adalah format data yang direkomendasikan untuk lakehouse (transaksi file, keandalan, konsistensi, pembaruan, dan sebagainya) dan sepenuhnya sumber terbuka untuk menghindari ketergantungan. Dan Delta Universal Format (UniForm) memungkinkan Anda membaca tabel Delta dengan klien pembaca Iceberg.
Tidak ada format data kepemilikan yang digunakan dalam Platform Kecerdasan Data Databricks.
tata kelola Data dan AI
Selain lapisan penyimpanan,
Unity Catalog menawarkan berbagai kemampuan tata kelola data dan AI, termasuk manajemen metadatadi metastore, kontrol akses ,mengaudit ,penemuan data , dansilsilah data .Pemantauan Lakehouse menyediakan metrik kualitas siap pakai untuk data dan aset AI, dan dasbor yang dihasilkan secara otomatis untuk memvisualisasikan metrik ini.
Sumber SQL eksternal dapat diintegrasikan ke dalam lakehouse dan Unity Catalog melalui federasi lakehouse.
Mesin AI
Platform Data Inteligensi dibangun di atas arsitektur rumah danau dan ditingkatkan oleh mesin inteligensi data DatabricksIQ. DatabricksIQ menggabungkan AI generatif dengan manfaat pengintegrasian arsitektur lakehouse untuk mengerti semantik unik data Anda. Pencarian Cerdas dan Asisten Databricks adalah contoh layanan yang didukung AI yang menyederhanakan bekerja dengan platform untuk setiap pengguna.
Orkestrasi
Pekerjaan Databricks memungkinkan Anda menjalankan beragam beban kerja untuk data lengkap dan siklus hidup AI di cloud apa pun. Mereka memungkinkan Anda untuk mengatur pekerjaan serta DLT untuk SQL, Spark, notebook, DBT, model ML, dan banyak lagi.
Alat ETL & DS Pada lapisan konsumsi, teknisi data dan teknisi ML biasanya bekerja dengan platform menggunakan IDE. Ilmuwan data sering lebih suka notebook dan menggunakan runtime ML &AI, dan sistem alur kerja pembelajaran mesin MLflow untuk melacak eksperimen dan mengelola siklus hidup model.
Alat BI
Analis bisnis biasanya menggunakan alat BI pilihan mereka untuk mengakses gudang data Databricks. Databricks SQL dapat dikueri oleh berbagai alat Analisis dan BI, lihat BI dan visualisasi
Selain itu, platform ini menawarkan alat kueri dan analisis di luar kotak:
- Dasbor AI/BI untuk tarik dan jatuhkan visualisasi data serta berbagi wawasan.
- Pakar domain, seperti analis data, mengonfigurasi ruang AI/BI Genie dengan himpunan data, kueri sampel, dan panduan teks untuk membantu Genie menerjemahkan pertanyaan bisnis ke dalam kueri analitis. Setelah disiapkan, pengguna bisnis dapat mengajukan pertanyaan dan menghasilkan visualisasi untuk memahami data operasional.
- Databricks Apps memungkinkan pengembang membuat data dan aplikasi AI yang aman di platform Databricks dan berbagi aplikasi tersebut dengan pengguna.
- Editor SQL bagi analis untuk menganalisis data.
Kolaborasi
Berbagi Delta adalah protokol terbuka yang dikembangkan oleh Databricks untuk berbagi data yang aman dengan organisasi lain terlepas dari platform komputasi yang mereka gunakan.
Databricks Marketplace adalah forum terbuka untuk bertukar produk data. Ini memanfaatkan Delta Sharing untuk memberikan penyedia data alat guna berbagi produk data dengan aman, dan memberikan konsumen data kemampuan untuk menjelajahi serta memperluas akses mereka ke data dan layanan data yang mereka butuhkan.
Clean Rooms menggunakan Delta Sharing dan komputasi tanpa server untuk menyediakan lingkungan yang aman dan melindungi privasi di mana beberapa pihak dapat bekerja sama pada data perusahaan sensitif tanpa akses langsung ke data satu sama lain.