アダプティブクエリの実行

[アーティクル]
02/04/2025

アダプティブクエリ実行 (AQE) は、クエリの実行中に発生するクエリの再最適化です。

実行時に再最適化を行う理由は、Azure Databricks では、シャッフルおよびブロードキャスト交換 (AQE ではクエリステージと呼ばれます) の最後に最新の正確な統計情報が得られることにあります。その結果、Azure Databricks は、より優れた物理戦略を選択したり、最適なシャッフル後 partition サイズと数を選択したり、ヒントを必要とするために使用される最適化 (スキュー join 処理など) を実行したりできます。

これは、統計収集が有効でない場合や統計が古い場合に非常に便利です。また、複雑なクエリの途中やデータスキューの発生後など、静的に派生した統計が不正確である where にも役立ちます。

資格

AQE は既定で有効になっています。これには 4 つの主要な機能があります。

並べ替えマージjoinをブロードキャストハッシュjoinに動的に変更します。
シャッフル交換後にパーティションを動的に結合します (小さなパーティションを合理的なサイズのパーティションに結合します)。非常に小さいタスクでは、I/O スループットが低下し、スケジュールのオーバーヘッドとタスクのセットアップのオーバーヘッドが多くなる傾向があります。小さなタスクを組み合わせると、リソースが節約され、クラスターのスループットが向上します。
偏りのあるタスクをほぼ均等なサイズのタスクに分割 (および必要に応じて複製) することにより、並べ替えマージjoinおよびシャッフルハッシュjoinでスキューを動的に処理します。
空のリレーションを動的に検出して伝達します。

アプリケーション

AQE は、次のすべてのクエリに適用されます。

非ストリーミング
少なくとも 1 つの交換 (通常、join、集計、または windowがある場合)、1 つのサブクエリ、またはその両方を含みます。

すべての AQE 適用クエリが必ずしも再最適化されるとは限りません。再最適化では、静的にコンパイルされたクエリプランとは異なるクエリプランが発生する場合もあれば、そうでない場合もあります。クエリのプランが AQE によって変更されたかどうかを確認するには、次のセクションクエリプランを参照してください。

クエリプラン

このセクションでは、さまざまな方法でクエリプランを調べる方法について説明します。

Spark UI

`AdaptiveSparkPlan` ノード

AQE 適用クエリには、通常、各メインクエリまたはサブクエリのルートノードとして、1 つ以上の AdaptiveSparkPlan ノードが含まれます。クエリが実行される前または実行される前に、対応する AdaptiveSparkPlan ノードの isFinalPlan フラグが falseとして表示されます。クエリの実行が完了すると、isFinalPlan フラグが true. に変わります

進化する計画

クエリプラン図は、実行が進行するにつれて進化し、実行中の最新のプランが反映されます。既に実行されている（メトリックが使用可能な）ノードは変更されませんが、実行されていないノードは再最適化の結果として時間の経過とともに変更される可能性があります。

クエリプラン図の例を次に示します。

クエリプランのダイアグラム

`DataFrame.explain()`

`AdaptiveSparkPlan` ノード

現在のプランと初期プラン

各 AdaptiveSparkPlan ノードの下には、実行が完了したかどうかに応じて、初期プラン (AQE 最適化を適用する前のプラン) と現在のプランまたは最終プランの両方があります。現在のプランは、実行が進むにつれて進化します。

ランタイム統計

各シャッフルステージとブロードキャストステージには、データ統計が含まれています。

ステージの実行前または実行中は、統計はコンパイル時の推定値であり、例えばフラグ isRuntime が falseの状態になります（例: Statistics(sizeInBytes=1024.0 KiB, rowCount=4, isRuntime=false);）。

ステージの実行が完了すると、統計は実行時に収集され、フラグ isRuntime は trueになります (例: Statistics(sizeInBytes=658.1 KiB, rowCount=2.81E+4, isRuntime=true)

DataFrame.explain の例を次に示します。

実行前
実行中

実行中の
実行後

`SQL EXPLAIN`

`AdaptiveSparkPlan` ノード

AQE 適用クエリには、通常、各メインクエリまたはサブクエリのルートノードとして、1 つ以上の AdaptiveSparkPlan ノードが含まれます。

現在のプランはありません

SQL EXPLAIN はクエリを実行しないため、現在のプランは常に初期プランと同じであり、最終的に AQE によって実行 get 内容は反映されません。

SQL explain の例を次に示します。

SQL explain

有効性

1 つ以上の AQE 最適化が有効になると、クエリプランが変更されます。これらの AQE 最適化の効果は、現在のプランと最終的なプランの差異、および初期プランと特定プランノードの差異によって示されています。

現在/最終の計画と初期計画の間で異なる物理ノード join を踏まえ、並べ替えマージ join をブロードキャストハッシュ joinに動的に変更します
パーティションを動的に結合する: ノード CustomShuffleReader とプロパティ Coalesced
スキューjoinを動的に処理する: ノード SortMergeJoin のフィールド isSkew が true として示されます。
空のリレーションを動的に検出して伝達します。プランの一部 (または全体) は、ノード LocalTableScan に置き換えられ、リレーションフィールドは空になります。