【テクニカル・上級編】コンパイラオプション -O3 と -ffast-math の数値的安全性 – モダンFortran言語仕様と実践実践マスター

浮動小数点演算の「禁断の果実」：`-O3 -ffast-math` がスパコンを壊すとき

スパコンの演算性能を限界まで引き出そうとするとき、我々は常に悪魔の囁きに晒される。`gfortran` や `ifx` のコマンドラインに `-O3 -ffast-math` を打ち込む瞬間だ。確かに、このフラグ群はベンチマークスコアを跳ね上げる。しかし、我々が扱っているのは単なる数学上の抽象概念ではなく、有限の精度とメモリレイテンシという泥臭い現実だ。

今日は、数値計算のプロフェッショナルとして、この「最適化の罠」と、モダンFortranでどう立ち向かうべきかを説く。

—

1. 結合法則の崩壊と「非決定論的」な結果

`-ffast-math` は、IEEE 754規格の厳格な遵守を放棄させる。具体的には、浮動小数点演算における結合法則（`(a + b) + c == a + (b + c)`）が成り立たないことをコンパイラに「黙認」させるオプションだ。

これによってコンパイラは、演算の順序を自由に組み替え、SIMD（AVX-512等）のベクトル命令に最適化された命令列を生成する。しかし、これは「ビットレベルで再現可能な結果」を捨てることを意味する。

なぜこれが危険か

大規模並列シミュレーションにおいて、数百万ステップの積算を行う際、演算順序のわずかな違いは、浮動小数点数の丸め誤差を指数関数的に増幅させる。あるノードでは収束していた計算が、別のノードでは `NaN`（非数）を吐いて爆発する。これがスパコン界隈で「再現性のないバグ」として最も忌み嫌われる現象だ。

! 危険な例：還元演算における最適化の影響
real(8) :: sum_val, arr(1000000)
sum_val = 0.0d0
! -ffast-math下では、このループがSIMD化され、加算の順序が入れ替わる
! 前後の演算結果と、逐次実行時の結果が一致しなくなる可能性がある
do i = 1, 1000000
sum_val = sum_val + arr(i)
end do

—

2. メモリハイアラキーと「列優先」の真実

モダンFortranのコードを書く際、最大のパフォーマンスの敵は演算速度ではなく「メモリ待ち」だ。Fortranは歴史的に列優先（Column-major order）である。これを無視して行優先（C言語的なアクセス）でループを回せば、キャッシュミスヒットの嵐が吹き荒れる。

最適化の鉄則：キャッシュラインを意識せよ

CPUのキャッシュラインは通常64バイトだ。配列を走査する際、最も内側のループがメモリ上の連続したアドレスを叩くように設計せよ。

! 高速なアクセス：iが第一添字なら、iのループを内側に
do j = 1, n
do i = 1, m
a(i, j) = b(i, j) c
end do
end do

! 致命的なアクセス：キャッシュミスが多発し、スループットが激減する
do i = 1, m
do j = 1, n
a(i, j) = b(i, j) c
end do
end do

もし、どうしても行優先のデータ構造を扱わねばならないレガシー移植案件があるならば、`ISO_C_BINDING` を活用してメモリレイアウトを明示的に制御し、`contiguous` 属性を使ってコンパイラに最適化のヒントを与えるのが正解だ。

—

3. 数万コア規模での「数値的安全」を担保する戦略

OpenMPやMPIを用いたハイブリッド並列環境で、`-ffast-math` に頼らずに速度を出すにはどうすべきか。私の経験上、以下の3ステップが最適だ。

1. `-Ofast` は捨てよ、`-O3 -march=native` を使え
コンパイラに丸め誤差を無視させるのではなく、ターゲットCPUの命令セット（AVX-512, FMAなど）を最大限活用させる。これにより、精度を維持しつつスループットを向上させる。
2. Kahan Summation（カハン加算）の実装
累積誤差を補正するアルゴリズムを導入する。速度は若干落ちるが、数万コア規模の計算において「計算が爆発しない」という事実は、最終的な研究納期を大幅に短縮する。
3. プロファイリングによるボトルネックの特定
`Scalasca` や `VTune` を用いて、実際に「メモリアクセス待ち」が起きている箇所を特定する。最適化の勘頼みは、数値計算アーキテクトとしては三流だ。

推奨ビルド構成例（GNU Fortranの場合）

精度と速度のバランスを重視した設定
-fno-fast-math: 結合法則を維持
-march=native: 対象マシンの命令セットをフル活用
-funroll-loops: ループ展開によるパイプライン最適化
-O3: 基本最適化
FC=gfortran
FFLAGS=”-O3 -march=native -funroll-loops -fno-fast-math -fstack-arrays”

—

結論：アーキテクトの矜持

`-ffast-math` は、計算結果の「物理的な意味」を理解していないコードに対する、一時的な麻薬に過ぎない。我々のような大規模シミュレーションを支えるエンジニアにとって、真の最適化とは、コードが計算機アーキテクチャの制約を「理解して動く」ように書くことだ。

メモリの配置、キャッシュの局所性、そして浮動小数点数の有限性。これら全てを掌握したとき、初めてスパコンは真の力を発揮する。次のプロジェクトでは、コンパイラ任せの最適化ではなく、貴殿自身のコードによるアーキテクチャへの最適化を試みてほしい。そこには、教科書には載っていない「速さの景色」が見えるはずだ。