【テクニカル・上級編】配列の形状引継ぎ（Assumed-shape）とインターフェースの重要性 – モダンFortran言語仕様と実践実践マスター

なぜ「Assumed-shape」はHPCの生命線なのか：配列境界の動的解釈とキャッシュの深淵

HPCの現場で数十年、レガシーなF77の墓場を掘り返し、現代のスパコンへコードを移植するたびに痛感するのは、「コンパイラに何を語らせるか」がパフォーマンスのすべてを決めるという事実だ。

多くのエンジニアが「配列の形状引継ぎ（Assumed-shape array）」を単なる「便利な記法」だと思っているなら、それは大きな誤解だ。これは、現代の階層的メモリ構造とSIMDベクトル化を極限まで引き出すための、コンパイラへの強力な「メタデータ・コントラクト」である。

明示的インターフェースなきコードは「盲目」である

F77時代、配列は単なるメモリの先頭アドレスとポインタの集合体だった。サブルーチン側では`dimension A()`と宣言し、コンパイラは配列の境界を知る由もなかった。これでは、現代のコンパイラが備える強力な最適化（ループのアンロール、インライン展開、SIMD化）の恩恵を一切受けられない。

`interface`ブロック、あるいはモジュールを通じた明示的インターフェースがない状態で`Assumed-shape`（`real(8), intent(in) :: arr(:,:)`のような記述）を使うと、コンパイラはリンク時にリンクエラーを吐く。これを単なる「コンパイラの口うるさい制限」と捉えてはならない。コンパイラに「配列のrankと形状」を教えることこそが、インライン展開を成功させ、ハードウェアのレジスタへ直接データを流し込むための第一歩なのだ。

メモリレイアウトと「列優先（Column-major）」の絶対的規律

Fortranの最大の武器は列優先順位にある。しかし、`Assumed-shape`を使いこなすには、単に`A(i, j)`と書けば良いという次元を超えた意識が必要だ。

HPC環境で数千万要素の行列を扱う際、キャッシュミスヒットは死を意味する。以下のコード例を見てほしい。

subroutine compute_kernel(data, n, m)
! 明示的インターフェースの恩恵を受け、コンパイラは
! 配列のストライドを動的に最適化する
real(8), intent(inout) :: data(:, 🙂
integer, intent(in) :: n, m
integer :: i, j

! 良い例：列優先を意識したループ構造
! キャッシュライン（64バイト）を最大限利用する
do j = 1, m
do i = 1, n
data(i, j) = data(i, j) 1.05d0
end do
end do
end subroutine

もし、このループの`i`と`j`を入れ替えたらどうなるか。`data(i, j+1)`へのアクセスはメモリ上で遠く離れた場所を指し、L1/L2キャッシュは無意味なデータを読み込む。スループットは1/10以下に激減する。`Assumed-shape`は、コンパイラが「この配列のストライド（要素間のメモリ距離）は実行時に計算できる」と理解するための契約書なのだ。

プロファイラが暴く「隠れたコスト」と最適化の指針

Intel VTuneやScalascaを使ってボトルネックを解析すると、しばしば`Assumed-shape`配列の引数渡しにおいて、意図しない「一時的なコピー（Temporary array creation）」が発生していることがある。

これは、呼び出し側と受け取り側のメモリ配置（アラインメント）が一致していない場合に発生する。現代のCPU（AVX-512等）でベクトル演算を完遂させるには、データのアラインメントが不可欠だ。

最適化の鉄則：

1. `contiguous`属性の活用:
Fortran 2008以降、引数に`contiguous`を付与せよ。これにより、「この配列はメモリ上で連続している」とコンパイラに確約し、無駄なコピー処理を排除できる。

subroutine fast_compute(arr)
real(8), intent(inout), contiguous :: arr(:, 🙂
! これによりコンパイラはSIMDロード命令を安全に発行できる
end subroutine

2. コンパイラフラグの選定:
`-O3`だけで満足してはならない。

`ifort/ifx`: `-xHost -qopt-report=5 -qopt-zmm-usage=high` を使い、ベクトル化の成否を確認せよ。
`gfortran`: `-O3 -march=native -fopt-info-vec-missed` を使い、なぜベクトル化できなかったのかの「言い訳」を読み取れ。

数万コア規模の並列化に向けて

MPIとOpenMPを用いたハイブリッド並列化において、`Assumed-shape`配列は、MPI_Send/Recvのデータバッファとしても極めて扱いやすい。配列の形状情報が手続き内に保持されているため、`lbound`や`ubound`を駆使した境界判定が安全に行えるからだ。

しかし、数万コアでスケールさせるには、通信オーバーヘッドよりも「メモリ帯域の枯渇」がボトルネックになる。非構造格子計算や複雑なトポロジーを持つシミュレーションでは、キャッシュを汚さない「メモリアクセスの局所性」が、計算機科学における唯一の正義である。

最後に：現場のアーキテクトへ

モダンFortranは、決して古臭い言語ではない。C++のテンプレートメタプログラミングに匹敵する抽象化能力と、ハードウェアに直結したメモリ操作を両立できる唯一のHPC言語だ。

`Assumed-shape`を単なる「楽をするための記述」と見なすな。それは、君たちの書いたアルゴリズムを、シリコンの限界まで加速させるための「最適化のトリガー」である。コンパイラを信じろ、しかし、コンパイラが吐き出すアセンブリコードと、プロファイラが叩き出すサイクル数には常に疑いの目を向けろ。

それが、極限の性能を追い求めるエンジニアの矜持だ。