【Fortran学習｜豆知識】数値計算の要！モジュール定数の「列優先」アクセスでキャッシュ効率を最大化する

導入: なぜモジュール定数のアクセス順序が重要なのか

数値計算において、巨大な定数配列をモジュールで定義し、複数の演算ルーチンで共有することは非常に一般的です。しかし、メモリ上の配置を意識せずにアクセスすると、CPUのキャッシュ効率が極端に低下し、計算性能が頭打ちになることがあります。本記事では、Fortran等の言語における「列優先（Column-Major Order）」の原則を遵守し、メモリ帯域を最大限に活用するための技術Tipsを解説します。

基礎知識: 列優先アクセスとStride-1の概念

Fortranなどの数値計算に特化した言語では、多次元配列はメモリ上に「列優先」で格納されます。例えば、A(3,3,3)という配列の場合、第一添字が最も速く変化し、第三添字が最も遅く変化するようにメモリへ連続配置されます。
Stride-1アクセスとは、このメモリの並び順に従って、隣接する要素を順番に読み込むアクセスパターンのことです。この順序で読み込むと、CPUは一度のメモリ転送で複数のデータをキャッシュラインに乗せることができるため、演算器がデータ待ちで停止する（ストールする）時間を劇的に減らすことができます。

実装/解決策: モジュール定数の適切な定義とアクセス

モジュール内で定数を定義する際は、その後の利用シーンを想定した次元順序で宣言することが不可欠です。また、アクセス時には、最も左側の添字を内側のループで変化させるようコードを記述します。これにより、ハードウェアプリフェッチャーが効率的にデータを先読みできるようになります。

サンプルプログラム: 列優先を意識したアクセス例

以下は、3次元のスタンスル（定数）に対して、効率的なループ処理を行う実装例です。

module stencil_mod
    implicit none
    ! 列優先を意識した3x3x3の定数配列の定義
    real, parameter, public :: stencil(3, 3, 3) = reshape([ &
        1.0, 0.0, -1.0, 2.0, 0.0, -2.0, 1.0, 0.0, -1.0, &
        0.0, 0.0,  0.0, 0.0, 0.0,  0.0, 0.0, 0.0,  0.0, &
        -1.0, 0.0, 1.0, -2.0, 0.0, 2.0, -1.0, 0.0, 1.0 &
    ], [3, 3, 3])
contains
    subroutine apply_stencil(data_in, data_out)
        real, intent(in) :: data_in(3, 3, 3)
        real, intent(out) :: data_out(3, 3, 3)
        integer :: i, j, k
        
        ! 内部ループで第1添字(i)を変化させることでStride-1を実現
        do k = 1, 3
            do j = 1, 3
                do i = 1, 3
                    data_out(i, j, k) = data_in(i, j, k)  stencil(i, j, k)
                end do
            end do
        end do
    end subroutine
end module

応用・注意点: 現場で陥りやすい罠

現場でよくある失敗は、「論理的な分かりやすさを優先して、多次元配列の添字順序を入れ替えてしまうこと」です。例えば、物理的な空間座標順（X, Y, Z）とメモリ上の配列順序を一致させないままループを回すと、Stride-Nアクセスが発生し、性能が数分の一にまで落ちることがあります。
また、コンパイラの最適化オプション（-O3など）に頼りすぎず、コード設計の段階で「最も内側のループで第1添字を動かす」という習慣を徹底してください。定数であっても、計算ルーチン内での読み込み順序が性能のボトルネックを左右することを常に意識しましょう。