【テクニカル・上級編】WHERE構文とFORALL構文の並列実行特性 – モダンFortran言語仕様と実践実践マスター

WHEREとFORALLの「皮」を剥ぐ：スパコンの演算器を極限まで駆動するメモリ最適化の真髄

スパコンの演算性能を使い切る——この命題において、我々が常に戦っているのは「メモリアクセスの局所性」と「命令パイプラインの充足率」だ。多くのエンジニアが `WHERE` や `FORALL` を単なる「便利な配列演算糖衣構文」と捉えているなら、それは重大な誤解である。HPCの最前線において、これらはコンパイラに対して「どのメモリ領域をどう並列化すべきか」という強烈なヒントを与えるメタデータであり、同時にキャッシュ効率を殺しかねない劇薬でもある。

今日は、教科書的な仕様解説ではなく、血の滲むようなデバッグの果てに見えてきた「演算器への魂の込め方」を語ろう。

—

1. WHERE構文：条件分岐が招く「命令パイプラインの断裂」

`WHERE` 構文は、条件式に基づいたマスク演算を生成する。一見エレガントだが、AVX-512やSVEといった現代のベクトル演算器においては、キャッシュラインをまたぐ「条件付き書き込み」が深刻なストールを引き起こす原因となる。

! 典型的なWHERE構文だが、中身はマスクレジスタを介した条件演算に変換される
WHERE (A > 0.0_8)
A = B / C
ELSEWHERE
A = 0.0_8
END WHERE

現場の知見：なぜこれが遅いのか

このコードをコンパイルすると、コンパイラは内部的に「マスクレジスタ」を生成する。CPUは `A` の全要素をロードし、`A > 0.0` の結果をマスクとして保持し、その上で `B/C` を実行する。
問題は、「偽」の分岐に対しても計算コストが発生する（あるいはメモリリードが発生する）ことだ。特に `C` がメモリアクセスを伴う場合、条件にかかわらず全要素をキャッシュに引き込むため、キャッシュ汚染が起きる。

最適化の解:
条件の疎密（Sparsity）が極端な場合、`WHERE` を捨てて `PACK` 関数を用いた「疎行列圧縮」的アプローチを検討せよ。あるいは、条件分岐が予測可能であれば、明示的に `IF` 文を置いたループを展開し、コンパイラのSIMDベクトル化を強制する方が、レジスタの有効活用という点で遥かに効率的だ。

—

2. FORALLの「独立性」をコンパイラに刻み込む

`FORALL` は、配列要素間の依存関係が存在しないことをコンパイラに保証する強力な宣言だ。`DO` ループと比較して、`FORALL` は「並列実行可能である」という暗示が極めて強い。

! FORALLは並列化の意図をコンパイラに伝えるが、実装には注意が必要
FORALL (i=1:N, j=1:M, A(i,j) > 0.0_8)
A(i,j) = B(i,j) C(i,j)
END FORALL

チーフアーキテクトの視点：メモリ境界とアライメント

ここで最も恐ろしいのは「ストライド」だ。Fortranの列優先順位（Column-Major）を意識せず、インデックスの順序を逆に記述した `FORALL` を書けば、それはキャッシュミスヒットの嵐を呼ぶ。

メモリ連続性の確保: `FORALL` 内のインデックスは、必ず左側の添字が最も早く変化するように記述すること。
共有メモリ並列化の罠: OpenMPと組み合わせる場合、`FORALL` は暗黙のバリア（同期）を伴うことが多い。数万コア規模のHPC環境では、この「目に見えないバリア」がスケーラビリティを頭打ちにする。

極限の最適化設定例:

Intel Fortran (ifort/ifx) の場合、ベクトル化を極限まで追求する
-qopt-report:5 で最適化の挙動を詳細に出力させ、ベクトル化の成否を確認せよ
ifx -O3 -xHost -qopt-report=5 -qopenmp -align array64byte source.f90

`align array64byte` は必須だ。キャッシュライン（通常64バイト）の境界に配列の先頭を合わせるだけで、ロード命令のレイテンシは劇的に改善する。

—

3. 数万コアの先へ：MPI + OpenMPのハイブリッド戦略

`WHERE` や `FORALL` を使った高レベル記述であっても、実行するのは結局ノード内のコアだ。数万コアを動かす際、ボトルネックになるのは演算そのものではなく「MPI通信と計算のオーバーラップ」である。

1. データ局所化: `FORALL` で計算する範囲を、MPIのドメイン分割と完全に同期させろ。境界領域（Halo）の交換を `MPI_Isend/Irecv` で非同期に行い、その裏で計算を回す。
2. キャッシュ・ワーキングセット: `FORALL` 内の配列サイズがL3キャッシュに収まるようにブロックサイズを調整せよ（Tiling/Blocking）。大きな配列を一度に処理しようとすると、メモリ帯域幅という「壁」にぶつかり、CPUはただの熱源と化す。

—

結論：コードは「命令」ではなく「設計図」である

モダンFortran（2018/2023）は、もはやレガシーな科学計算言語ではない。`coarray` を用いた並列処理や、`ISO_C_BINDING` による高速なバイナリインターフェースなど、現代のHPCに必要な武器はすべて揃っている。

`WHERE` や `FORALL` を単なる構文として使うな。それらは、CPUの実行ユニット、メモリコントローラー、そしてキャッシュ階層に対する「リクエスト」である。VTuneやScalascaでプロファイルを取り、パイプラインのストール率を確認し、メモリ帯域の飽和度を測定せよ。

我々が書くコードは、ただの命令の羅列ではない。物理法則を記述し、スパコンという巨大な機械の血流を制御するための、精密な設計図なのだ。その責務を忘れてはならない。

次回の記事では、`ISO_FORTRAN_ENV` を駆使した型定義と、SIMD命令を直接叩くための組み込みモジュールの極意について解説する。現場からは以上だ。