【入門編】コンパイラによる自動ベクトル化(SIMD)の阻害要因 – モダンFortran言語仕様と実践実践マスター

モダンFortranの極意：コンパイラの「やる気」を引き出し、SIMDベクトル化を加速させる技術

皆さん、こんにちは。宇宙航空分野で数値計算のインフラを叩き直してきた経験から、今日は「なぜかFortranが遅い」「コンパイラがベクトル化してくれない」と悩む皆さんのために、コードの背後で起きている現実を解説します。

C言語やPythonから来た方にとって、Fortranは「古臭い」と思われるかもしれません。しかし、モダンFortranは「コンパイラが最もその意図を汲み取りやすい言語」です。コンパイラという優秀な部下を、皆さんのコードでどう手懐けるか。その「泥臭い」部分に焦点を当てていきましょう。

—

1. コンパイラの「ベクトル化」とは何か？

現代のCPUには、一度の命令で複数のデータを同時に処理するSIMD（Single Instruction, Multiple Data）機能が備わっています。例えば、4つの浮動小数点数の加算を1クロックで終わらせる技術ですね。

Fortranコンパイラ（ifort, gfortran, nvfortranなど）は、この機能を最大限引き出そうとしますが、「少しでもデータに矛盾が生じる可能性がある」と判断した瞬間に、安全策をとってベクトル化を諦めます。 この「諦め」をいかに阻止するかが、計算速度を10倍、100倍にする鍵です。

—

2. ベクトル化を阻害する「依存関係」の罠

最も多い失敗が、ループ内の「データ依存」です。コンパイラは「今の計算結果が、次の計算で必要になる」という依存関係を見つけると、並列処理を即座に中止します。

悪い例：ベクトル化が阻害される書き方

do i = 2, n
! a(i)を計算するのに、さっき計算したばかりのa(i-1)が必要になる
! コンパイラは「並列に計算できない！」と判断します
a(i) = a(i) + a(i-1) b(i)
end do

これは物理シミュレーションでよく見られる「時系列依存」ですが、もし数学的に書き換えが可能なら、以下のように「依存を断ち切る」ことが重要です。コンパイラに「これは独立した要素の集まりだよ」と教えてあげる感覚ですね。

—

3. 「列優先」というFortranの絶対ルール

Fortranはメモリ上で「左側の添字が速く変化する（列優先）」というルールを持っています。C言語（行優先）とは真逆です。これを無視すると、CPUのキャッシュヒット率が劇的に下がり、ベクトル化どころではなくなります。

現場の知見：メモリへのアクセス順序

! 良い例：メモリの並びに沿ってアクセス
do j = 1, n
do i = 1, m
arr(i, j) = … ! iが内側にある＝メモリ上の連続領域を叩いている
end do
end do

! 悪い例：メモリを飛び越えてアクセス
do i = 1, m
do j = 1, n
arr(i, j) = … ! メモリが離れており、キャッシュミスが多発！
end do
end do

この「列優先」を意識するだけで、メモリアクセスの効率が変わり、SIMDユニットが休まずにデータを受け取れるようになります。

—

4. コンパイラレポートを読み解く（実践編）

「自分の書いたコードが本当に最適化されているか？」を確認するには、コンパイラに直接聞くのが一番です。GCCなら `-fopt-info-vec`、Intelなら `-qopt-report` を使います。

ビルドコマンドの例 (gfortran)

-O3: 最適化をフルに効かせる
-march=native: 今使っているCPUの機能をフル活用する
-fopt-info-vec-missed: なぜベクトル化できなかったかを出力させる
gfortran -O3 -march=native -fopt-info-vec-missed my_simulation.f90

コンソールに「`missed: loop not vectorized: data dependence`」と出たら、それは「依存関係があるから無理だよ」というコンパイラからの悲鳴です。その行を特定し、構造を見直すのがエンジニアの腕の見せ所です。

—

5. 若手エンジニアへのアドバイス：まずはここから

最初から完璧な最適化を目指す必要はありません。まずは以下の3点を心がけてみてください。

1. `contiguous` 属性を使う: 配列を渡す際、メモリが連続していることを明示するとコンパイラが喜びます。
2. `intent` を明示する: 引数に `intent(in)` を付けるだけで、コンパイラは「この変数は書き換わらない」と確信し、最適化の幅が広がります。
3. 組み込み関数を愛する: `sum()` や `matmul()` など、Fortranの標準ライブラリは、既にそのCPU用に最高レベルのSIMD最適化が施されています。自作ループより速いことがほとんどです。

Fortranは、皆さんが書いた数式を「そのままマシンの言葉に翻訳する」ための非常に素直な道具です。最初は戸惑うこともあるでしょうが、コンパイラと対話しながら、計算速度の限界を押し上げていく過程は、何にも代えがたいエンジニアとしての快感ですよ。

さあ、まずは皆さんのコードに `-O3` を付けて、コンパイラのログを覗いてみることから始めてみませんか？応援しています！