【テクニカル・上級編】ISO_C_BINDINGにおける配列の受け渡しと形状の不一致対策 – モダンFortran言語仕様と実践実践マスター

境界を溶かせ：ISO_C_BINDINGが突きつけるメモリの真実と最適化の極致

スパコンの演算器がどれほど高速化しようとも、我々が直面するボトルネックの9割は「データ移動」にある。特に、C言語で記述された高速なライブラリやGPUカーネルと、Fortranの強力な数値計算エンジンを結合する際、`ISO_C_BINDING`の甘い誘惑に負けて「安易なコピー」を行っていないか？

列優先（Column-major）のFortranと行優先（Row-major）のC。この言語間の壁を意識せず、インターフェース層でデータの転送や一時配列の作成を行えば、キャッシュラインは汚染され、ベクトル演算ユニットはストールする。今日は、数万コア規模のHPC環境で「ゼロコピー」を実現するための、低レイヤの作法を語ろう。

1. 配列記述子（Descriptor）の深淵を覗く

Fortranにおける配列は、単なるメモリの連続体ではない。メタデータ（次元、ストライド、オフセット、要素サイズ）を含む「配列記述子」として扱われる。一方、C言語の`double ptr`は、単なるメモリのアドレスを指す無機質なポインタに過ぎない。

`ISO_C_BINDING`でインターフェースを定義する際、最も陥りやすい罠は、`type(c_ptr)`へのポインタキャストで配列を渡そうとすることだ。これでは、Fortran側で形状（Shape）を再定義した際に、コンパイラが「非連続なデータ」と誤認し、最適化を放棄する可能性がある。

実践：形状を維持したポインタの直接受け渡し

以下の手法は、Fortranの配列記述子とCのポインタを、メモリレイアウトを破壊せずに橋渡しする際の定石だ。

subroutine compute_kernel(data, n, m) bind(c, name=”compute_kernel_c”)
use, intrinsic :: iso_c_binding
! C側で確保されたメモリをFortranの配列としてマッピングする
! c_f_pointerを用いることで、追加のコピーを排除する
real(c_double), pointer :: data(:,:)
integer(c_int), value :: n, m
real(c_double), pointer :: f_array(:,:)

! Cから渡されたポインタをFortran配列の形状にバインド
! ここで重要なのは、Fortran側が「列優先」であることをC側に強いる設計にすることだ
call c_f_pointer(c_loc(data), f_array, [n, m])

! この段階でf_arrayへのアクセスは、キャッシュを汚さない「生のメモリ」への直接操作となる
! ループのインデックス順序には細心の注意を払うこと
do j = 1, m
do i = 1, n
f_array(i, j) = f_array(i, j) 2.0d0
end do
end do
end subroutine

2. キャッシュミスを殺す「ストライド」の管理

数万コア規模のMPI並列環境では、ノード内でのメモリ帯域こそが支配的な性能パラメータとなる。`c_f_pointer`で連結した際、もしFortran側で部分配列（Array Section）を渡すと、コンパイラは動的メモリ確保（テンポラリ配列）を生成し、スタック領域を食いつぶす挙動を見せることがある。

`gfortran`であれば`-fopt-info-vec-missed`を、`Intel Fortran`であれば`-qopt-report`を必ず確認せよ。「Temporary array created」というログが見えた瞬間、そのコードはスパコン上でゴミと同義だ。

対策: 常に「連続性（Contiguity）」を保証せよ。`is_contiguous`属性をインターフェースに付与し、コンパイラに「この配列はメモリ上で物理的に隣接している」と確約させるのだ。

subroutine kernel_optimized(arr)
! コンパイラに対して、このデータはメモリ上で隣接していることを明示
! これにより、ベクトル化の障壁となるチェックを削除できる
real(c_double), contiguous, intent(inout) :: arr(:,:)

! … 高速な演算処理 …
end subroutine

3. プロファイラが暴く「見えないボトルネック」

Intel VTuneやScalascaを使用してボトルネックを特定する際、`ISO_C_BINDING`経由の呼び出しで「関数のオーバーヘッド」が異常に高いケースがある。これは、コンパイラがCとFortranの境界を最適化の停止点（Optimization Barrier）とみなしている証拠だ。

超低レイヤのチューニングテクニック：

1. Link Time Optimization (LTO): コンパイル時だけでなく、リンク時にも`-flto`を有効にせよ。これにより、CとFortranの境界を越えてインライン展開が行われ、ポインタの受け渡しコストがゼロになる可能性がある。
2. Memory Alignment: SIMD（AVX-512等）をフル活用するためには、C側で確保するメモリが64バイト境界にアラインされていることが必須だ。`posix_memalign`等で確保したポインタをFortranに渡す際、Fortran側も`!DIR$ ATTRIBUTES ALIGN:64`等でコンパイラにヒントを与えることを忘れてはならない。

最後に：アーキテクトとしての覚悟

モダンFortranは、決して「古い言語」ではない。ハードウェアの進化に対し、最も素直にメモリレイアウトを制御できる最強の数値計算ツールだ。Cのポインタを恐れず、Fortranの配列記述子を飼いならせ。

境界を溶かし、メモリ帯域の限界までCPUを追い込む。それが、我々数値計算屋に課せられた、唯一の「正しい設計」である。

—
次回の執筆予定：OpenMP 5.2の`metadirective`を用いた、CPU/GPU混在環境における動的タスクスケジューリングの最適化手法について。