【実務・中級編】THIS_IMAGE()およびNUM_IMAGES()組込み関数 – モダンFortran言語仕様と実践実践マスター

Coarray Fortranの真髄：THIS_IMAGEとNUM_IMAGESを「ただの変数」と勘違いしてはいけない

数値計算の現場で、並列化といえばMPIが長らく王座を占めてきた。しかし、モダンFortran（Fortran 2008/2018）が標準で備える「Coarray Fortran (CAF)」は、その抽象化レベルにおいて、もはやMPIとは別次元の優雅さを提供している。

特に `THIS_IMAGE()` と `NUM_IMAGES()` は、単なる現在のプロセス番号や総数を返す関数ではない。これらは、あなたの書いたロジックが「計算機リソースの物理的な配置（トポロジー）をどれだけ深く理解しているか」を問う、いわば通信のゲートウェイだ。

本稿では、これらを安易な変数として扱うのではなく、計算負荷とメモリ帯域を最適化するための「制御信号」として使いこなすための知見を共有する。

—

1. 「静的」な境界値としてキャッシュせよ

多くのエンジニアが犯す初歩的なミスは、ループの内部で毎度 `THIS_IMAGE()` や `NUM_IMAGES()` を呼び出すことだ。

! アンチパターン：毎反復ごとに呼び出すと、コンパイラはこれがループ不変量であると判断できず、最適化を阻害する
do i = 1, n
if (THIS_IMAGE() == 1) then
! 処理
end if
end do

関数呼び出しのオーバーヘッドは僅かだが、コンパイラによるループのベクトル化（SIMD）の妨げになる。これらはプログラム開始直後の初期化フェーズでローカル変数に退避させるのが鉄則である。

integer :: me, n_images
me = THIS_IMAGE()
n_images = NUM_IMAGES()

! これにより、コンパイラはループの各イテレーションにおいて条件分岐が不変であることを確信し、
! 命令パイプラインを最大限に活用できる
do i = 1, n
! 条件判定をループ外に出し、分岐予測のミスを防ぐ
end do

—

2. 負荷分散の極意：静的分割から動的キューへ

大規模な粒子法シミュレーションなどで、`NUM_IMAGES()` で単純に空間を分割すると、計算負荷の偏り（Imbalance）で泣きを見ることになる。

ここで重要なのは、`THIS_IMAGE()` を単なるIDとして使うのではなく、「データチャンクの所有権」を定義するオフセット値として利用することだ。以下は、領域分割の際に私が現場で必ず実装する「セーフティ・パターン」である。

subroutine compute_domain_range(global_n, start_idx, end_idx)
integer, intent(in) :: global_n
integer, intent(out) :: start_idx, end_idx
integer :: me, np, chunk_size, remainder

me = THIS_IMAGE()
np = NUM_IMAGES()

! 整数除算の切り捨てを考慮した、負荷が均等に近い分割
chunk_size = global_n / np
remainder = mod(global_n, np)

! 余りを各イメージに1つずつ分配するアルゴリズム
if (me <= remainder) then start_idx = (me - 1) (chunk_size + 1) + 1 end_idx = start_idx + chunk_size else start_idx = (me - 1) chunk_size + remainder + 1 end_idx = start_idx + chunk_size - 1 end if end subroutine この実装は、`global_n` が `NUM_IMAGES()` で割り切れない場合でも、境界でメモリ破壊を起こすことなく、全イメージに綺麗に負荷を分散させる。 ---

3. メモリ配置とキャッシュ・ローカリティの最適化

モダンFortranにおいて、`THIS_IMAGE()` はCoarray（例：`real :: arr(n)[]`）へのアクセス時に暗黙的に呼び出される。ここで注意すべきは「列優先順位（Column-major order）」の原則だ。

多次元配列を扱う際、`THIS_IMAGE()` を用いた通信が発生する場合でも、ループの最内側は必ず第一添字（カラム）が変化するように書かなければならない。そうでない場合、キャッシュラインのミスヒットが連発し、実効性能は理論値の1/10以下にまで落ち込む。

! 最適なアクセスパターン：列優先を守る
do j = 1, n_y
do i = 1, n_x
! 行列Aの列を連続的に読む
val = A(i, j)[target_image]
end do
end do

このとき、もし `target_image` へのアクセスが頻発するなら、コンパイラには `!DIR$ SIMD` や `!$omp simd` といったヒントを適宜与えること。ただし、`THIS_IMAGE()` を絡めた複雑な通信は、コンパイラが自動ベクトル化を躊躇する要因になるため、明示的にループ外で一時バッファに転送（`SYNC IMAGES` を挟む）する設計が、結果として最もデバッグしやすく、かつ高速になる。

—

最後に：エンジニアへの提言

`THIS_IMAGE()` と `NUM_IMAGES()` は、MPIの `MPI_Comm_rank` や `MPI_Comm_size` と機能的には同等だが、その本質は「言語仕様として統合されたメモリ共有モデル」にある。

通信を隠蔽しようとして複雑なラッパーを書くのは避けなさい。むしろ、この関数が返す数値を「メモリアドレスのオフセット」と「所有権の論理境界」として直感的に扱うコードを書くこと。それが、数百万コアで安定して走り続ける堅牢な数値計算コードへの唯一の近道だ。

今日からあなたのコードの初期化ルーチンを見直し、これらの関数を「定数（Constant）」として扱いなさい。それだけで、コードの可読性と実行速度の双方が一段上のステージへ昇華するはずだ。