【入門編】コンパイラオプション -O3 と -ffast-math の数値的安全性 – モダンFortran言語仕様と実践実践マスター

こんにちは。かつて宇宙の深淵で計算機と格闘し、現在は数値計算の「裏側」を整える仕事をしている者です。

C言語やPythonからFortranの世界へ飛び込んできた皆さん、ようこそ。Fortranは「古い」と揶揄されることもありますが、一度そのポテンシャルを知れば、これほど科学技術計算に特化した「暴力的なまでの実行速度」を出せる言語は他にありません。

しかし、その速度を追い求めるあまり、コンパイラの最適化オプション、特に`-O3`や`-ffast-math`の「甘い誘惑」に盲目的に従っていませんか？今日は、現場のエンジニアが血の涙を流しながら学んだ、数値的安全性とパフォーマンスの「危うい均衡」についてお話しします。

—

Fortranコンパイラ（gfortranやifortなど）において、`-O3`は最適化の最高位です。ループのアンロール（展開）やベクトル化を極限まで行い、CPUのキャッシュ効率を最大化します。

そして、その先にあるのが `-ffast-math` です。これは、「数学的な正当性よりも、計算速度を最優先する」というコンパイラへの強い命令です。具体的には、浮動小数点演算の「結合法則」を無視します。

数学の世界では `(a + b) + c` と `a + (b + c)` は同じですが、計算機の中では、丸め誤差の積み重なりによって、この結果は微小にずれます。`-ffast-math` はこの「厳密な順序」を破壊し、CPUが最も効率よく計算できる順序に組み替えてしまうのです。

—

簡単な例を見てみましょう。非常に大きな数と、非常に小さな数を足し合わせるシミュレーションを想像してください。

program precision_test
implicit none
real(8) :: a, b, c, result

a = 1.0d16
b = -1.0d16
c = 1.0d0

! コンパイラが最適化で順番を入れ替えると…
! 本来の計算順: (10^16 – 10^16) + 1 = 1.0
! 入れ替え後: 10^16 + (-10^16 + 1) = 0.0 (丸め誤差で消滅)
result = (a + b) + c

print , “計算結果は: “, result
end program precision_test

`-ffast-math` を使うと、コンパイラは「どっちから足しても誤差なんて大差ないだろ？」と判断して、計算順序を勝手に最適化します。その結果、本来1.0になるはずの物理量が0.0になり、シミュレーション全体が収束せず爆発する……。これが、現場で最もよくある「謎のバグ」の正体です。

—

では、私たちはどうすればいいのでしょうか？結論から言えば、「最初から全力で飛ばさない」ことです。以下のステップでビルド設定を管理してみてください。

開発中は必ず、最適化をオフにし、浮動小数点演算の厳密性を確保するフラグを立てます。

gfortranの例
gfortran -O0 -fcheck=all -Wall -fbacktrace source.f90 -o sim_debug

`-fcheck=all` は配列の範囲外アクセスなどを厳格にチェックします。ここで出ないバグは、本番の最適化でも出るはずがありません。

全体を `-ffast-math` で汚染せず、パフォーマンスがボトルネックになっている特定のサブルーチン単位で最適化を調整します。

! 特定のループだけ最適化を制御したい場合、ソースコード内で指示できる
! (※コンパイラ実装に依存しますが、多くのモダンな環境で有効です)
!DIR$ OPTIMIZE:3
do i = 1, n
a(i) = b(i) c(i)
end do
!DIR$ END OPTIMIZE

どうしても速度が必要な場合は、`-ffast-math` の代わりに `-Ofast` を使う前に、まずは `-funsafe-math-optimizations` を外した設定を試すのが通のやり方です。

`-O3`: 基本的なループ最適化。まずはここから。
`-march=native`: あなたのCPUの命令セット（AVX2, AVX-512など）をフル活用させる。これだけでも `-ffast-math` なしで劇的に速くなります。

—

Fortranを書くということは、計算機の「心臓部」に直接触れるということです。`-ffast-math` は確かに強力な武器ですが、それは諸刃の剣です。

まずは「正しい結果が出る」ことを証明し、次に「プロファイラ（gprofやperf）」を使って、プログラムのどこが本当に遅いのかを突き止めてください。全行を高速化する必要なんてありません。全体の9割の時間は、わずか1割のループの中で消費されているのですから。

計算機が吐き出す数字の背後には、常に「物理現象」が存在しています。コンパイラの魔法に頼り切るのではなく、自分の書いた式がどう計算されているのか、その1ビットの重みを想像しながらコードを組んでみてください。

さあ、次はあなたの番です。まずは `-O2` でコンパイルし、計測するところから始めてみませんか？応援しています。