【テクニカル・上級編】多次元配列のインデックス計算とメモリアクセス順序の最適化 – モダンFortran言語仕様と実践実践マスター

メモリの深淵を支配する：Fortranにおけるキャッシュ最適化と列優先の哲学

スパコンのランキングを競うような大規模な流体解析や気象シミュレーションの現場において、「なぜか実行時間がスケールしない」という事態に直面したことはないだろうか。数万コアのMPI並列化やOpenMPの粒度調整をどれほど完璧に詰めようとも、たった数行のループ順序のミス一つで、演算器は「メモリの空腹」に耐えかねてストールし続ける。

Fortranの根幹である「列優先（Column-major）」という仕様は、C/C++の行優先に慣れたエンジニアには呪縛のように映るかもしれない。しかし、この仕様こそが数値計算の歴史において、プロセッサのキャッシュラインを極限まで使い切るための最適解なのだ。本稿では、ハードウェアの物理限界に肉薄する最適化の勘所を伝授する。

—

1. キャッシュラインと「ストライド1アクセス」の絶対法則

現代のCPUにおいて、メモリからL1キャッシュへのデータ転送は、単一の変数ではなく「キャッシュライン（通常64バイト）」単位で行われる。Fortranにおいて、`A(i, j)`の隣接要素は`A(i+1, j)`である。もしあなたが多次元配列を処理する際、内側のループを`j`で回してしまえば、メモリ空間上では巨大なストライドを跳躍することになる。

! 【アンチパターン】キャッシュミスを誘発する最悪のループ
do j = 1, N
do i = 1, M
A(i, j) = B(i, j) C(i, j)
end do
end do

上記のコードでは、`i`がインクリメントされるたびに、メモリ上の遠く離れた場所にアクセスし、キャッシュラインを無駄に廃棄し続けることになる。`M`が巨大であればあるほど、L1/L2キャッシュは瞬時に溢れ、メインメモリへの低速なアクセスが頻発する。これが、あなたのシミュレーションがスパコン上で「演算器の稼働率（IPC）が低い」とプロファイラに叱られる根本原因だ。

最適化の鉄則：ループ交換（Loop Interchange）

Fortranの仕様に従い、最も内側のループが最も左のインデックス（`i`）を動かすように記述せよ。これだけで、ハードウェア・プリフェッチャーは次なるデータを予測し、キャッシュを先回りして埋めてくれる。

! 【推奨】ストライド1アクセスを確保する最適化
do j = 1, N
do i = 1, M
A(i, j) = B(i, j) C(i, j)
end do
end do
! ↑ これを単にループの入れ子順序を入れ替えるだけで
! 劇的なメモリ帯域の効率化が達成されるケースが多い

—

2. VTuneによるボトルネックの可視化と解析

「なんとなく速くなった気がする」という感覚は、スパコン運用では通用しない。Intel VTune Profiler等を用い、`CPI` (Cycles Per Instruction) と `L2 Cache Misses` を計測せよ。

特に、大規模なMPI並列計算においては、`Scalasca`等のツールを用いて、通信と計算のオーバーラップを解析する。もしループの順序が最適化されていない場合、プロファイラは「Memory Bound（メモリ律速）」という無慈悲な判定を突きつけるはずだ。

現場で使うべきコンパイラフラグの真髄

`ifort`や`ifx`（Intel Fortran）を使う際、単に `-O3` を付けるだけでは不十分だ。以下のフラグを組み合わせ、ターゲットアーキテクチャのポテンシャルを解放せよ。

推奨ビルド構成例
-xHost: ホストCPUの命令セットをフル活用 (AVX-512等)
-qopt-report5: 最適化の詳細レポートを生成。ベクトル化の阻害要因を特定せよ
-heap-arrays: スタック溢れを防ぎつつ、巨大配列のヒープ確保を強制
ifx -O3 -xHost -qopt-report5 -qopt-report-phase=vec -heap-arrays 64 -cpp main.f90 -o simulation.exe

—

3. レガシーからの脱却：モダンFortranへの移行戦略

古き良きF77形式（固定形式）のコードを現代のスパコンで動かす際、最も恐ろしいのは「不必要なメモリアロケーション」と「ポインタの多用による最適化阻害」だ。

Fortran 2018/2023の強力な武器は、`contiguous`属性と`allocatable`配列の適切な管理にある。サブルーチンに配列を渡す際、コンパイラが「この配列はメモリ上で連続している」と確信できれば、SIMD命令（ベクトル化）の生成効率が劇的に向上する。

subroutine compute_kernel(n, m, arr)
integer, intent(in) :: n, m
! contiguous属性を付与することで、コンパイラはポインタ演算の
! オーバーヘッドを排除し、強固な最適化パスを構築できる
real(8), contiguous, intent(inout) :: arr(n, m)

! ここでループを回す際、ベクトル化が阻害されないよう
! 副作用のない純粋な演算を心がける
end subroutine

—

最後に：アーキテクトとしての助言

スパコンの性能を引き出すとは、ハードウェアの「機嫌」を取ることではない。計算機の物理的な制約（メモリレイテンシ、バス幅、キャッシュ容量）を理解し、アルゴリズムをその制約に従順に適合させることだ。

もしあなたのコードが数千コアでスケールしないなら、それは計算アルゴリズムの責任ではなく、メモリ上のデータレイアウトという「物理」の責任である可能性が高い。まずは行列の添字を見直し、最も内側のループがメモリを舐めるように走っているかを確認することから始めてほしい。

泥臭いデバッグの先にしか、真の数値計算アーキテクトの道はない。さあ、VTuneを起動し、キャッシュミス率の劇的な低下をその目で確認しようではないか。