レイクハウスプラットフォームのスコープ

[アーティクル]
02/11/2025

レイクハウススコープの概要

Databricks データインテリジェンスプラットフォームは、完全な最新のデータプラットフォームフレームワークを対象としています。これは、レイクハウスアーキテクチャに基づいて構築され、データの固有の特性を理解するデータインテリジェンスエンジンを利用します。 ETL、ML/AI、DWH/BI ワークロードのためのオープンで統一された基盤であり、中央データおよび AI ガバナンスソリューションとして Unity Catalog を備えています。

プラットフォームフレームワークのペルソナ

フレームワークは、フレームワーク内のアプリケーションを扱う主要なデータチームメンバー (ペルソナ) を対象にしています。

データエンジニアは、データサイエンティストやビジネスアナリストに、タイムリーな意思決定とリアルタイムの分析情報を得るための正確で再現可能なデータを提供します。一貫性と信頼性の高い ETL プロセスを実装して、データに対するユーザーの信頼度と信用を高めます。これにより、データがビジネスのさまざまな柱と適切に統合されていることが保証され、通常はソフトウェアエンジニアリングのベストプラクティスに従います。
データサイエンティストは、分析の専門知識とビジネスの理解を融合して、データを戦略的な分析情報と予測モデルに変換します。彼らは、遡及的で解析的な分析情報や将来を見据えた予測モデリングを通じて、ビジネスの課題をデータドリブンソリューションに変換することに長けています。データモデリングと機械学習の手法を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、デプロイします。彼らは橋渡し役として機能し、複雑なデータストーリーを理解可能なストーリーに変換し、ビジネス利害関係者がデータ主導の推奨事項を理解するだけでなく、それに基づいて行動できるようにすることで、組織内の問題解決に対するデータ中心のアプローチを推進します。
ML エンジニア (機械学習エンジニア) は、機械学習モデルの構築、デプロイ、保守を行うことで、製品とソリューションにおけるデータサイエンスの実用的な応用をリードします。彼らの主な焦点は、モデルの開発とデプロイにおけるエンジニアリングの側面にあります。 ML エンジニアは、ライブ環境での機械学習システムの堅牢性、信頼性、スケーラビリティを確保し、データ品質、インフラストラクチャ、パフォーマンスに関連する課題に対処します。 AI および ML モデルを運用ビジネスプロセスとユーザー向け製品に統合することで、ビジネス上の課題を解決するためのデータサイエンスの利用が容易になり、モデルは研究のみに留まらず、具体的なビジネス価値を促進します。
ビジネスアナリスト およびビジネスユーザー : ビジネスアナリストは、利害関係者やビジネスチームに実用的なデータを提供します。多くの場合、データを解釈し、標準 BI ツールを使用して管理用のレポートやその他のドキュメントを作成します。通常、これらは、非技術的なビジネスユーザーや運用同僚にとって、迅速な分析の質問に対する最初の窓口です。 Databricks プラットフォームで提供されるダッシュボードとビジネスアプリは、ビジネスユーザーが直接使用できます。
ビジネスパートナーは、ますますネットワーク化が進むビジネスの世界において重要な利害関係者です。彼らは、企業が共通の目標を達成するための正式な関係を持つ企業または個人として定義され、ベンダー、サプライヤー、ディストリビューター、およびその他のサードパーティパートナーが含まれる場合があります。データの共有は、データの転送と交換を可能にして、コラボレーションとデータドリブンの意思決定を強化できるため、ビジネスパートナーシップの重要な側面です。

プラットフォームフレームワークのドメイン

プラットフォームは、複数のドメインで構成されます。

ストレージ: クラウドでは、データは主に、クラウドプロバイダーが提供するスケーラブルで効率的、そして回復性があるオブジェクトストレージに格納されます。
ガバナンス: アクセス制御、監査、メタデータ管理、系列追跡、すべてのデータと AI 資産の監視などのデータガバナンスに関する機能です。
AI エンジン: AI エンジンは、プラットフォーム全体に対して生成 AI 機能を提供します。
取り込みと変換: ETL ワークロードの機能。
高度分析、ML、AI: 機械学習、AI、生成 AI、ストリーミング分析に関するすべての機能。
データウェアハウス:: DWH と BI のユースケースをサポートするドメイン。
自動化: データ処理、機械学習、分析パイプライン (CI/CD や MLOps のサポートを含む) のワークフロー管理を します。
ETL および DS ツール: データエンジニア、データサイエンティスト、ML エンジニアが主に仕事に使用するフロントエンドツール。
BI ツール: BI アナリストが主に仕事に使用するフロントエンドツール。
コラボレーション: 複数の当事者間でのデータの共有の機能。

Databricks プラットフォームのスコープ

Databricks データインテリジェンスプラットフォームとそのコンポーネントは、次の方法でフレームワークにマップできます。

レイクハウスの範囲の図。

ダウンロード: レイクハウスのスコープ - Databricks コンポーネント

Azure Databricks のデータワークロード

最も重要なのは、Databricks データインテリジェンスプラットフォームは、Apache Spark/Photon をエンジンとして使用して、データドメインに関連するすべてのワークロードを 1 つのプラットフォームでカバーすることです。

取り込みと変換

Databricks には、データインジェストのいくつかの方法が用意されています。
- Databricks LakeFlow Connect には、エンタープライズアプリケーションとデータベースからのインジェスト用の組み込みコネクタが用意されています。結果として生成されるインジェストパイプラインは Unity Catalog によって管理され、サーバーレスコンピューティングと Delta Live Tables を利用します。
- 自動ローダー、スケジュールされたジョブまたは継続的なジョブのクラウドストレージに着陸するファイルを段階的かつ自動的に処理します。状態情報を管理する必要はありません。取り込まれた生データは、BI と ML/AI に対応できるように変換する必要があります。 Databricks は、データエンジニア、データサイエンティスト、アナリストに強力な ETL 機能を提供します。
デルタライブテーブル (DLT) をすると、宣言型の方法で ETL ジョブを記述できるため、実装プロセス全体が簡略化されます。データの期待値を定義することで、データ品質を向上させることができます。
高度分析、ML、および AI

このプラットフォームには、Databricks Mosaic AI、従来の機械学習とディープラーニング用の完全に統合された機械学習と AI ツールのセット、および生成型 AI と大規模言語モデル (LLM) が含まれています。データの準備から機械学習とディープラーニングモデルの構築、Mosaic AI Model Serving までのワークフロー全体が対象です。

Spark Structured Streaming と DLT により、リアルタイム分析が可能になります。
データウェアハウス

Databricks データインテリジェンスプラットフォームには、Databricks SQL を使用した完全なデータウェアハウスソリューションもあり、きめ細かなアクセス制御を備えた Unity Catalog によって一元的に管理されます。

AI 関数は、SQL から直接データに AI を適用できる組み込みの SQL 関数です。分析ワークフローに AI を統合することで、アナリストが以前はアクセスできなかった情報にアクセスでき、データドリブンイノベーションと効率性を通じて、より多くの情報に基づいた意思決定を行い、リスクを管理し、競争上の優位性を維持することができます。

Azure Databricks の機能領域の概要

これは、Databricks データインテリジェンスプラットフォーム機能を、フレームワークの他のレイヤーに、下から上にマッピングします。

クラウドストレージ

レイクハウスのすべてのデータは、クラウドプロバイダーのオブジェクトストレージに保存されます。 Databricks では、AWS、Azure、GCP の 3 つのクラウドプロバイダーがサポートされています。さまざまな構造化形式と半構造化形式 (Parquet、CSV、JSON、Avro など) のファイルと、非構造化形式 (イメージやドキュメントなど) は、バッチプロセスまたはストリーミングプロセスを使用して取り込み、変換されます。

Delta Lake は、レイクハウスに推奨されるデータ形式 (ファイルトランザクション、信頼性、整合性、更新など) であり、ロックインを避けるため完全にオープンソースです。また、Delta Universal Format (UniForm) を使用すると、Iceberg リーダークライアントで Delta テーブルを読み取ることができます。

Databricks データインテリジェンスプラットフォームでは、独自のデータ形式は使用されません。
データと AI ガバナンス

ストレージ層の上に、Unity Catalog は、メタストアでのメタデータ管理、アクセス制御、監査、データ検出、データ系列など、幅広いデータと AI ガバナンス機能を提供します。

Lakehouse の監視では、データと AI 資産のすぐに使用できる品質メトリックと、これらのメトリックを視覚化するための自動生成されたダッシュボードが提供されます。

外部 SQL ソースは、lakehouse フェデレーションを使用してレイクハウスと Unity Catalog に統合できます。
AI エンジン

データインテリジェンスプラットフォームは、レイクハウスアーキテクチャ上に構築され、データインテリジェンスエンジン DatabricksIQによって強化されます。 DatabricksIQ は、生成 AI とレイクハウスアーキテクチャの統合の利点を組み合わせて、データの独自のセマンティクスを理解します。インテリジェント検索と Databricks Assistant は、すべてのユーザーのプラットフォームの操作を簡素化する AI を利用したサービスの例です。
オーケストレーション

Databricks ジョブを使用すると、あらゆるクラウドで完全なデータと AI ライフサイクル向けの多様なワークロードを実行できます。これにより、ジョブだけでなく、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables を調整できます。

プラットフォームでは、CI/CD と MLOps もサポートされています
ETL と DS ツール

従量課金レイヤーでは、通常、データエンジニアと ML エンジニアが IDE を使用してプラットフォームを操作します。データサイエンティストは、多くの場合、ノートブックを好み、ML と AI ランタイムを使用し、機械学習ワークフローシステム MLflow を使用して実験を追跡し、モデルのライフサイクルを管理します。
BI ツール

ビジネスアナリストは通常、好みの BI ツールを使用して Databricks データウェアハウスにアクセスします。 Databricks SQL は、さまざまな分析および BI ツールでクエリを実行できます。BI と視覚化に関するページをご覧ください

さらに、このプラットフォームには、すぐに使用するクエリおよび分析ツールが用意されています。
- AI/BI ダッシュボード、データの視覚化をドラッグアンドドロップして分析情報を共有。
- データアナリストなどのドメインエキスパートは、データセット、サンプルクエリ、テキストガイドラインを使用して、ai/BI Genie スペース構成し、Genie がビジネスの質問を分析クエリに変換するのに役立ちます。設定後、ビジネスユーザーは質問をしたり、視覚化を生成したりして、オペレーショナルデータを理解できます。
- Databricks Apps を使用すると、開発者は Databricks プラットフォーム上にセキュリティで保護されたデータと AI アプリケーションを作成し、それらのアプリをユーザーと共有できます。
- SQL アナリストがデータを分析するための SQL エディター。
コラボレーション

Delta Sharing は、使用するコンピューティングプラットフォームに関係なく、他の組織と安全にデータを共有するために Databricks によって開発されたオープンプロトコルです。

Databricks Marketplace は、データ製品を交換するためのオープンフォーラムです。 Delta Sharing を利用して、データプロバイダーにデータ製品を安全に共有するためのツールを提供し、データコンシューマーには必要なデータとデータサービスへのアクセスを探索して拡張する機能を提供します。

Clean Rooms デルタ共有とサーバーレスコンピューティングを使用して、複数の当事者が互いのデータに直接アクセスすることなく機密性の高いエンタープライズデータに対して連携できる、セキュリティで保護されたプライバシー保護環境を提供します。

次の方法で共有

レイクハウスプラットフォームのスコープ

最新のデータと AI プラットフォームフレームワーク

レイクハウススコープの概要

プラットフォームフレームワークのペルソナ

プラットフォームフレームワークのドメイン

Databricks プラットフォームのスコープ

Azure Databricks のデータワークロード

Azure Databricks の機能領域の概要

フィードバック

その他のリソース

次の方法で共有

レイクハウス プラットフォームのスコープ

最新のデータと AI プラットフォーム フレームワーク

レイクハウス スコープの概要

プラットフォーム フレームワークのペルソナ

プラットフォーム フレームワークのドメイン

Databricks プラットフォームのスコープ

Azure Databricks のデータ ワークロード

Azure Databricks の機能領域の概要

フィードバック

その他のリソース

レイクハウスプラットフォームのスコープ

最新のデータと AI プラットフォームフレームワーク

レイクハウススコープの概要

プラットフォームフレームワークのペルソナ

プラットフォームフレームワークのドメイン

Azure Databricks のデータワークロード