Spark を使用してセマンティックモデルから読み取り、Power BI で使用できるデータを書き込む

[アーティクル]
01/10/2025

この記事では、Microsoft Fabric のセマンティックリンク Spark ネイティブコネクタを使用して、セマンティックモデルでデータとメタデータを読み取り、メジャーを評価する方法について説明します。また、セマンティックモデルで使用できるデータを書き込む方法についても説明します。

前提条件

Microsoft Fabric サブスクリプションを取得します。または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
ホームページの左下にあるエクスペリエンススイッチャーを使用して、Fabric に切り替えます。

Microsoft Fabric の Data Science エクスペリエンスに移動します。
- 左側のウィンドウで、[ワークロード] を選択します。
- データサイエンスを選択
新しいノートブックを作成して、コードをコピーしてセルに貼り付けます。
Spark 3.4 以降では、Fabric を使用する場合、セマンティックリンクは既定のランタイムで使用でき、インストールする必要はありません。 Spark 3.3 以前を使用している場合、またはセマンティックリンクの最新バージョンに更新する場合は、次のコマンドを実行できます。

python %pip install -U semantic-link
レイクハウスをノートブックに追加します。
ファブリックサンプルリポジトリのデータセットフォルダーから Customer Profitability Sample.pbix セマンティックモデルをダウンロードし、セマンティックモデルをローカルに保存します。

ワークスペースにセマンティックモデルをアップロードする

この記事では、Customer Profitability Sample.pbix セマンティックモデルを使用します。このセマンティックモデルは、企業の製造マーケティング資料を参照し、さまざまな事業単位の製品、顧客、および対応する収益に関するデータが含まれています。

左側のペインで、[ワークスペース] を選択し、ワークスペースの名前を選んで開きます。
レポートまたはページネーションされたレポートをこのコンピューターからインポートし、Customer Profitability Sample.pbix セマンティックモデルを選択します。

アップロードが完了すると、ワークスペースには、Power BI レポート、ダッシュボード、Customer Profitability Sample という名前のセマンティックモデルという 3 つの新しいアーティファクトがあります。この記事の手順では、このセマンティックモデルを使用します。

Python、R、SQL、Scala で Spark を使用したデータの読み取りと書き込み

既定では、セマンティックモデルへのアクセスに使用されるワークスペースは次のとおりです。

アタッチされたレイクハウスのワークスペース、または
レイクハウスがアタッチされていない場合は、ノートブックのワークスペース。

Microsoft Fabric は、ワークスペース内のすべてのセマンティックモデルのすべてのテーブルを Spark テーブルとして公開します。すべての Spark SQL コマンドは、Python、R、Scala で実行できます。セマンティックリンク Spark ネイティブコネクタでは、Power BI エンジンへの Spark 述語のプッシュダウンがサポートされています。

ヒント

Power BI のテーブルとメジャーは通常の Spark テーブルとして公開されるため、1 つのクエリで他の Spark データソースと結合できます。

PySpark を使用して、ワークスペース内のすべてのセマンティックモデルのテーブルを一覧表示します。
```
df = spark.sql("SHOW TABLES FROM pbi")
display(df)
```
SparkR を使用して、Customer Profitability Sample セマンティックモデル内の Customer テーブルからデータを取得します。

Note

テーブルの取得には厳しい制限があり (読み取りの制限に関する記事を参照)、結果が不完全なものになる可能性があります。集計プッシュダウンを使用して、転送されるデータの量を減らします。サポートされている集計は、COUNT、SUM、AVG、MIN、MAX です。
```
%%sparkr

df = sql("SELECT * FROM pbi.`Customer Profitability Sample`.Customer")
display(df)
```

Power BI メジャーは、仮想テーブル _Metrics を通じて使用できます。次のクエリでは、"リージョン" と "業界" ごとに "合計収益" と "収益予算" を計算します。

%%sql

SELECT
    `Customer[Country/Region]`,
    `Industry[Industry]`,
    AVG(`Total Revenue`),
    AVG(`Revenue Budget`)
FROM
    pbi.`Customer Profitability Sample`.`_Metrics`
WHERE
    `Customer[State]` in ('CA', 'WA')
GROUP BY
    `Customer[Country/Region]`,
    `Industry[Industry]`

Spark スキーマを使用して、使用可能なメジャーとディメンションを検査します。
```
spark.table("pbi.`Customer Profitability Sample`._Metrics").printSchema()
```

データを Delta テーブルとしてレイクハウスに保存します。

delta_table_path = "<your delta table path>" #fill in your delta table path 
df.write.format("delta").mode("overwrite").save(delta_table_path)

読み取りアクセスの制限

読み取りアクセス API には、次の制限があります。

Spark SQL を使用した Power BI テーブルアクセスは、Power BI バックエンドの制限の対象です。
Spark _Metrics クエリの述語プッシュダウンは、1 つ IN 式に制限されます。追加の IN 式とサポートされていない述語は、データ転送後に Spark で評価されます。
Spark SQL を使用してアクセスする Power BI テーブルの述語プッシュダウンでは、次の式はサポートされていません。
- ISNULL
- IS_NOT_NULL
- STARTS_WITH
- ENDS_WITH
- CONTAINS。
Spark SQL で新しいセマンティックモデルにアクセスできるようにするには、Spark セッションを再起動する必要があります。

次の方法で共有

Spark を使用してセマンティックモデルから読み取り、Power BI で使用できるデータを書き込む

前提条件

ワークスペースにセマンティックモデルをアップロードする

Python、R、SQL、Scala で Spark を使用したデータの読み取りと書き込み

読み取りアクセスの制限

フィードバック

その他のリソース

次の方法で共有

Spark を使用してセマンティック モデルから読み取り、Power BI で使用できるデータを書き込む

前提条件

ワークスペースにセマンティック モデルをアップロードする

Python、R、SQL、Scala で Spark を使用したデータの読み取りと書き込み

読み取りアクセスの制限

関連するコンテンツ

フィードバック

その他のリソース

Spark を使用してセマンティックモデルから読み取り、Power BI で使用できるデータを書き込む

ワークスペースにセマンティックモデルをアップロードする