【実務・中級編】組込み関数MATMULとDOT_PRODUCTの最適化 – モダンFortran言語仕様と実践実践マスター

なぜ我々は「手書きループ」を捨て、組込み関数に回帰するのか：Fortran性能最適化の深淵

宇宙航空機や核融合炉のシミュレーションコードを保守していると、若手エンジニアから「この行列演算、手書きの三重ループにした方がキャッシュ効率が良い気がするのですが」という相談をよく受ける。結論から言おう。現代のFortranにおいて、行列積を自前で書くのは「罪」に近い。

今日は、なぜ `MATMUL` や `DOT_PRODUCT` といった組込み関数が最強の選択肢となり得るのか、そしてコンパイラの最適化エンジンをいかに手懐けるべきか、その「現場の知見」を共有する。

—

1. コンパイラは「意図」を読み取っている

多くのエンジニアが誤解していることがある。コンパイラはコードをそのまま機械語に翻訳するのではない。コンパイラは、コードから「これが何を行いたいのか（計算の意図）」という高次の意味を抽出する。

手書きの三重ループを書くと、コンパイラは「これが一般的な行列積であること」を証明するために、膨大な静的解析コストを払わなければならない。エイリアシング（ポインタの重複）の可能性や、ループの依存関係をチェックするだけで、最適化のヘッドルームが削られる。

一方、`MATMUL(A, B)` と記述すれば、コンパイラにはそれが「BLASの行列積ルーチンへ置換可能」という明確な信号として伝わる。インテルの `ifort/ifx` や `gfortran` は、特定の条件下でこの組込み関数を、高度にチューニングされた MKL（Math Kernel Library）や OpenBLAS の呼び出しにシームレスに差し替える。

2. 実装コード：堅牢性と速度のトレードオフ

まずは、私が現場の基盤ライブラリで推奨している実装パターンを見てほしい。

module matrix_ops
implicit none
private
public :: safe_matmul_wrapper

contains

subroutine safe_matmul_wrapper(A, B, C)
! 形状の不整合をコンパイル時ではなく実行時に安全に捕捉する設計
real(8), intent(in) :: A(:,:), B(:,:)
real(8), intent(out) :: C(:,:)

! 形状チェックを怠らない。ここが堅牢なコードの要諦
if (size(A, 2) /= size(B, 1)) then
error stop “次元不整合: Aの列数とBの行数が一致しません”
end if

! コンパイラがBLASライブラリをリンクし、ベクトル化を最大化する
! 内部的にSIMD命令(AVX-512等)がフル活用される
C = matmul(A, B)

end subroutine safe_matmul_wrapper
end module matrix_ops

なぜこの書き方なのか？

メモリレイアウトの意識: Fortranは列優先（Column-major）言語だ。`A(i, j)` の `i` を内側ループで回すのが鉄則だが、`matmul` は内部的にこのメモリレイアウトを熟知した計算順序を自動選択する。
ベクトル化の恩恵: `C = matmul(A, B)` と書くことで、コンパイラは「ループアンローリング（ループ展開）」と「SIMDレジスタへのロード」を最大限に行う権限を得る。手書きの `do` ループでは、これらを実現するために膨大なプロファイリングと最適化フラグの調整が必要になる。

—

3. コンパイラ最適化の現場設定：静的な最適化を最大化する

コードがどれだけ美しくても、ビルド設定が甘ければすべてが台無しになる。以下は、数値計算現場で「とりあえずこれを通せ」と言われる `ifx` (Intel Fortran) の鉄板フラグだ。

最適化フラグの例
ifx -O3 -xHost -qopt-report=5 -ipo -mkl -o simulation.exe source.f90

`-xHost`: 現在のCPUの全命令セット（AVX-512など）を解禁する。移植性は下がるが、HPC環境では必須だ。
`-qopt-report=5`: コンパイラが「どのループをベクトル化し、どのループを見送ったか」を詳細に出力する。手書きループが最適化されていない場合、ここで必ず警告が出る。
`-ipo` (Inter-Procedural Optimization): プログラム全体を通した最適化を行う。`matmul` の中身と呼び出し元をインライン展開で繋ぐため、劇的な速度向上を見込める。

—

4. 結論：泥臭い最適化から解放されるために

我々が書くべきは、「コンパイラが最も気持ちよく最適化できるコード」だ。

手書きループは書かない: 特に複雑な行列演算では、組込み関数を信頼せよ。
メモリの連続性を守る: `matmul` を使う場合でも、配列の宣言順序が列優先であることを忘れてはならない。
エラーハンドリングを標準化する: `matmul` などの組込みは非常に高速だが、引数の次元が狂った際のデバッグが困難になる場合がある。今回示したラッパーのように、`error stop` を明示的に入れる設計を徹底すること。

数値計算の世界で「最速」を追い求めることは重要だが、それは「いかに楽をしてコンパイラを働かせるか」という頭脳戦でもある。レガシーな `do` ループに固執する時間は、物理モデルの改良や、より高度なアルゴリズムの考案に充てるべきだ。

次にコードを書くときは、そのループが本当に「自前で書く必要があるか」を自問してほしい。大抵の場合、答えは `No` であるはずだ。