レイクハウス プラットフォームのスコープ
最新のデータと AI プラットフォーム フレームワーク
Databricks データ インテリジェンス プラットフォームのスコープについて話し合うには、まず、最新のデータと AI プラットフォームの基本的なフレームワークを定義すると便利です。
レイクハウス スコープの概要
Databricks データ インテリジェンス プラットフォームは、完全な最新のデータ プラットフォーム フレームワークを対象としています。 これは、レイクハウス アーキテクチャに基づいて構築され、データの固有の特性を理解するデータ インテリジェンス エンジンを利用します。 ETL、ML/AI、DWH/BI ワークロードのためのオープンで統一された基盤であり、中央データおよび AI ガバナンス ソリューションとして Unity Catalog を備えています。
プラットフォーム フレームワークのペルソナ
フレームワークは、フレームワーク内のアプリケーションを扱う主要なデータ チーム メンバー (ペルソナ) を対象にしています。
- データ エンジニアは、データ サイエンティストやビジネス アナリストに、タイムリーな意思決定とリアルタイムの分析情報を得るための正確で再現可能なデータを提供します。 一貫性と信頼性の高い ETL プロセスを実装して、データに対するユーザーの信頼度と信用を高めます。 これにより、データがビジネスのさまざまな柱と適切に統合されていることが保証され、通常はソフトウェア エンジニアリングのベスト プラクティスに従います。
- データ サイエンティストは、分析の専門知識とビジネスの理解を融合して、データを戦略的な分析情報と予測モデルに変換します。 彼らは、遡及的で解析的な分析情報や将来を見据えた予測モデリングを通じて、ビジネスの課題をデータドリブン ソリューションに変換することに長けています。 データ モデリングと機械学習の手法を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、デプロイします。 彼らは橋渡し役として機能し、複雑なデータ ストーリーを理解可能なストーリーに変換し、ビジネス利害関係者がデータ主導の推奨事項を理解するだけでなく、それに基づいて行動できるようにすることで、組織内の問題解決に対するデータ中心のアプローチを推進します。
- ML エンジニア (機械学習エンジニア) は、機械学習モデルの構築、デプロイ、保守を行うことで、製品とソリューションにおけるデータ サイエンスの実用的な応用をリードします。 彼らの主な焦点は、モデルの開発とデプロイにおけるエンジニアリングの側面にあります。 ML エンジニアは、ライブ環境での機械学習システムの堅牢性、信頼性、スケーラビリティを確保し、データ品質、インフラストラクチャ、パフォーマンスに関連する課題に対処します。 AI および ML モデルを運用ビジネス プロセスとユーザー向け製品に統合することで、ビジネス上の課題を解決するためのデータ サイエンスの利用が容易になり、モデルは研究のみに留まらず、具体的なビジネス価値を促進します。
- ビジネス アナリスト およびビジネス ユーザー : ビジネス アナリストは、利害関係者やビジネス チームに実用的なデータを提供します。 多くの場合、データを解釈し、標準 BI ツールを使用して管理用のレポートやその他のドキュメントを作成します。 通常、これらは、非技術的なビジネス ユーザーや運用同僚にとって、迅速な分析の質問に対する最初の窓口です。 Databricks プラットフォームで提供されるダッシュボードとビジネス アプリは、ビジネス ユーザーが直接使用できます。
- ビジネス パートナーは、ますますネットワーク化が進むビジネスの世界において重要な利害関係者です。 彼らは、企業が共通の目標を達成するための正式な関係を持つ企業または個人として定義され、ベンダー、サプライヤー、ディストリビューター、およびその他のサードパーティ パートナーが含まれる場合があります。 データの共有は、データの転送と交換を可能にして、コラボレーションとデータドリブンの意思決定を強化できるため、ビジネス パートナーシップの重要な側面です。
プラットフォーム フレームワークのドメイン
プラットフォームは、複数のドメインで構成されます。
ストレージ: クラウドでは、データは主に、クラウド プロバイダーが提供するスケーラブルで効率的、そして回復性があるオブジェクト ストレージに格納されます。
ガバナンス: アクセス制御、監査、メタデータ管理、系列追跡、すべてのデータと AI 資産の監視などのデータ ガバナンスに関する機能です。
AI エンジン: AI エンジンは、プラットフォーム全体に対して生成 AI 機能を提供します。
取り込みと変換: ETL ワークロードの機能。
高度分析、ML、AI: 機械学習、AI、生成 AI、ストリーミング分析に関するすべての機能。
データ ウェアハウス:: DWH と BI のユース ケースをサポートするドメイン。
自動化: データ処理、機械学習、分析パイプライン (CI/CD や MLOps のサポートを含む) のワークフロー管理を します。
ETL および DS ツール: データ エンジニア、データ サイエンティスト、ML エンジニアが主に仕事に使用するフロントエンド ツール。
BI ツール: BI アナリストが主に仕事に使用するフロントエンド ツール。
コラボレーション: 複数の当事者間でのデータの共有の機能。
Databricks プラットフォームのスコープ
Databricks データ インテリジェンス プラットフォームとそのコンポーネントは、次の方法でフレームワークにマップできます。
ダウンロード: レイクハウスのスコープ - Databricks コンポーネント
Azure Databricks のデータ ワークロード
最も重要なのは、Databricks データ インテリジェンス プラットフォームは、Apache Spark/Photon をエンジンとして使用して、データ ドメインに関連するすべてのワークロードを 1 つのプラットフォームでカバーすることです。
取り込みと変換
Databricks には、データ インジェストのいくつかの方法が用意されています。
- Databricks LakeFlow Connect には、エンタープライズ アプリケーションとデータベースからのインジェスト用の組み込みコネクタが用意されています。 結果として生成されるインジェスト パイプラインは Unity Catalog によって管理され、サーバーレス コンピューティングと Delta Live Tables を利用します。
- 自動ローダー、スケジュールされたジョブまたは継続的なジョブのクラウド ストレージに着陸するファイルを段階的かつ自動的に処理します。状態情報を管理する必要はありません。 取り込まれた生データは、BI と ML/AI に対応できるように変換する必要があります。 Databricks は、データ エンジニア、データ サイエンティスト、アナリストに強力な ETL 機能を提供します。
デルタ ライブ テーブル (DLT) を すると、宣言型の方法で ETL ジョブを記述できるため、実装プロセス全体が簡略化されます。 データの期待値を定義することで、データ品質を向上させることができます。
高度分析、ML、および AI
このプラットフォームには、Databricks Mosaic AI、従来の機械学習とディープ ラーニング 用の完全に統合された機械学習と AI ツールのセット、および生成型 AI と大規模言語モデル (LLM) が含まれています。 データの準備から機械学習とディープ ラーニングモデルの構築、Mosaic AI Model Serving までのワークフロー全体が対象です。
Spark Structured Streaming と DLT により、リアルタイム分析が可能になります。
データ ウェアハウス
Databricks データ インテリジェンス プラットフォームには、Databricks SQL を使用した完全なデータ ウェアハウス ソリューションもあり、きめ細かなアクセス制御を備えた Unity Catalog によって一元的に管理されます。
AI 関数 は、SQL から直接データに AI を適用できる組み込みの SQL 関数です。 分析ワークフローに AI を統合することで、アナリストが以前はアクセスできなかった情報にアクセスでき、データドリブン イノベーションと効率性を通じて、より多くの情報に基づいた意思決定を行い、リスクを管理し、競争上の優位性を維持することができます。
Azure Databricks の機能領域の概要
これは、Databricks データ インテリジェンス プラットフォーム機能を、フレームワークの他のレイヤーに、下から上にマッピングします。
クラウド ストレージ
レイクハウスのすべてのデータは、クラウド プロバイダーのオブジェクト ストレージに保存されます。 Databricks では、AWS、Azure、GCP の 3 つのクラウド プロバイダーがサポートされています。 さまざまな構造化形式と半構造化形式 (Parquet、CSV、JSON、Avro など) のファイルと、非構造化形式 (イメージやドキュメントなど) は、バッチプロセスまたはストリーミング プロセスを使用して取り込み、変換されます。
Delta Lake は、レイクハウスに推奨されるデータ形式 (ファイル トランザクション、信頼性、整合性、更新など) であり、ロックインを避けるため完全にオープン ソースです。 また、Delta Universal Format (UniForm) を使用すると、Iceberg リーダー クライアントで Delta テーブルを読み取ることができます。
Databricks データ インテリジェンス プラットフォームでは、独自のデータ形式は使用されません。
データと AI ガバナンス
ストレージ層の上に、Unity Catalog は、メタストアでのメタデータ管理 、アクセス制御、監査、データ検出、データ系列など、幅広いデータと AI ガバナンス機能を提供します。
Lakehouse の監視では、データと AI 資産のすぐに使用できる品質メトリックと、これらのメトリックを視覚化するための自動生成されたダッシュボードが提供されます。
外部 SQL ソースは、lakehouse フェデレーションを使用してレイクハウスと Unity Catalog に統合できます。
AI エンジン
データ インテリジェンス プラットフォームは、レイクハウス アーキテクチャ上に構築され、データ インテリジェンス エンジン DatabricksIQによって強化されます。 DatabricksIQ は、生成 AI とレイクハウス アーキテクチャの統合の利点を組み合わせて、データの独自のセマンティクスを理解します。 インテリジェント検索と Databricks Assistant は、すべてのユーザーのプラットフォームの操作を簡素化する AI を利用したサービスの例です。
オーケストレーション
Databricks ジョブ を使用すると、あらゆるクラウドで完全なデータと AI ライフサイクル向けの多様なワークロードを実行できます。 これにより、ジョブだけでなく、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables を調整できます。
プラットフォームでは、
CI/CD と MLOpsもサポートされています ETL と DS ツール
従量課金レイヤーでは、通常、データ エンジニアと ML エンジニアが IDE を使用してプラットフォームを操作します。 データ サイエンティストは、多くの場合、ノートブックを好み、ML と AI ランタイムを使用し、機械学習ワークフロー システム MLflow を使用して実験を追跡し、モデルのライフサイクルを管理します。
BI ツール
ビジネス アナリストは通常、好みの BI ツールを使用して Databricks データ ウェアハウスにアクセスします。 Databricks SQL は、さまざまな分析および BI ツールでクエリを実行できます。BI と視覚化に関するページをご覧ください
さらに、このプラットフォームには、すぐに使用するクエリおよび分析ツールが用意されています。
- AI/BI ダッシュボード 、データの視覚化をドラッグ アンド ドロップして分析情報を共有。
- データ アナリストなどのドメインエキスパートは、データセット、サンプル クエリ、テキスト ガイドラインを使用して、ai/BI Genie スペース 構成し、Genie がビジネスの質問を分析クエリに変換するのに役立ちます。 設定後、ビジネス ユーザーは質問をしたり、視覚化を生成したりして、オペレーショナル データを理解できます。
- Databricks Apps を使用すると、開発者は Databricks プラットフォーム上にセキュリティで保護されたデータと AI アプリケーションを作成し、それらのアプリをユーザーと共有できます。
- SQL アナリストがデータを分析するための SQL エディター。
コラボレーション
Delta Sharing は、使用するコンピューティング プラットフォームに関係なく、他の組織と安全にデータを共有するために Databricks によって開発されたオープン プロトコルです。
Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。 Delta Sharing を利用して、データ プロバイダーにデータ製品を安全に共有するためのツールを提供し、データ コンシューマーには必要なデータとデータ サービスへのアクセスを探索して拡張する機能を提供します。
Clean Rooms デルタ共有とサーバーレス コンピューティングを使用して、複数の当事者が互いのデータに直接アクセスすることなく機密性の高いエンタープライズ データに対して連携できる、セキュリティで保護されたプライバシー保護環境を提供します。