【実務・中級編】SYNC ALLおよびSYNC IMAGESによる同期制御 – モダンFortran言語仕様と実践実践マスター

分散メモリの深淵：Coarray Fortranにおける同期設計と「死」の回避術

数値計算の現場でMPIに疲れ果て、「もっと直接的で、言語レベルで統合された並列化はないか？」と辿り着いた先がCoarray Fortran（CAF）であるなら、君は正しい道を歩んでいる。しかし、CAFはMPIのような「明示的なメッセージパッシング」の皮を被った「共有メモリ抽象化」であるという点に、多くのエンジニアが躓く。

今日は、`SYNC ALL` と `SYNC IMAGES` を用いた、数値計算屋のための「死なない（デッドロックしない）」同期設計について、現場の血肉となった知見を共有しよう。

—

1. なぜ「SYNC ALL」を安易に使ってはいけないのか

多くの初心者や、レガシーコードからの移行組が陥る罠が、ループ内での安易な `SYNC ALL` だ。

! 悪い例：全イメージの同期はボトルネックの元
do step = 1, max_steps
call calc_boundary(u)
sync all ! ここで全プロセスが待ち状態に
call update_internal(u)
end do

`SYNC ALL` はグローバルバリアである。一見安全に見えるが、OSのスケジューラや物理メモリの負荷分散の僅かな偏りによって、ある1つのイメージが遅延した瞬間に、計算機全体が「待ち」の海に沈む。さらに、大規模クラスターでは、このバリアがノード間のネットワーク競合を引き起こし、計算効率を劇的に低下させる。

現場の鉄則：
同期は「必要な範囲」に限定せよ。計算領域の分解が2D/3Dのステンシル計算であれば、通信相手は常に隣接するイメージだけだ。

—

2. 「SYNC IMAGES」による局所同期の極意

隣接するイメージとのデータ交換には `SYNC IMAGES` を使うべきだ。重要なのは「双方向」の同期を意識することである。

次のコードは、境界交換（Halo exchange）を想定した、デッドロックを回避するための堅牢なパターンだ。

subroutine exchange_halo(u, left_img, right_img)
real, intent(inout) :: u(:)
integer, intent(in) :: left_img, right_img

! 1. データの送信（非同期的に発行）
! 相手のメモリに直接書き込む（Put操作）
u(:)[:] = u(:) ! リモートアクセス

! 2. 明示的な同期点
! 自分の左・右のプロセスが処理を終えるまで待つ
sync images([left_img, right_img])

! 3. データの消費
! ここに到達した時点で、隣接イメージからの書き込みは完了している
end subroutine

ここがプロのポイント：

メモリの一貫性： `SYNC IMAGES` を挟むことで、コンパイラはメモリバリアを挿入する。これにより、キャッシュに滞留していた数値データが確実にメインメモリへフラッシュされ、相手側から読み取れる状態になる。
ベクトル化の阻害要因を排除： データの送受信を `u(:)[:] = u(:)` のような配列代入で行うことで、コンパイラはSIMD命令（AVX-512等）の恩恵を受けやすくなる。これを個別のスカラ操作で行うと、パイプラインが壊れ、パフォーマンスは目に見えて劣化する。

—

3. デッドロックを回避する「同期順序の固定」

デッドロックは「巡回待ち」で起きる。プロセスAがBを待ち、BがAを待つ状況だ。これを防ぐ最も簡単かつ強力なルールは、「同期のランク（イメージ番号）に常に順序を設けること」である。

例えば、奇数番号のイメージは「まず右に送り、次に左から受ける」、偶数番号はその逆、といったように、計算の依存関係を静的に固定する。

! 安全な同期設計：ランクの大小で操作順序を固定する
if (mod(this_image(), 2) == 0) then
! 偶数：まず右と同期
sync images(right_img)
sync images(left_img)
else
! 奇数：まず左と同期
sync images(left_img)
sync images(right_img)
end if

この「偶奇で同期順序を入れ替える」設計は、特に大規模なMPI/CAFコードにおいて、ネットワークの輻輳を緩和する副作用も期待できる。

—

4. コンパイラ最適化を最大化する「メモリアライメント」

せっかくCAFで並列化しても、メモリレイアウトが疎（疎なアクセス）だと、計算機はキャッシュミスで止まる。

列優先順位の徹底： Fortranは列優先（Column-major）だ。多次元配列のインデックスの左側をループの内側に配置せよ。
Coarrayの宣言位置： 頻繁にアクセスするデータは `allocatable` なCoarrayとして定義し、各イメージのローカルメモリ空間に配置されるように制御する。
コンパイラフラグの指針：
`ifort/ifx`: `-O3 -xHost -qopt-report=5`
`gfortran`: `-O3 -march=native -fcoarray=lib` (OpenCoarraysを使用)

`qopt-report` を見て、`LOOP WAS VECTORIZED` と出ているかを確認する習慣をつけよう。同期プリミティブが複雑すぎると、コンパイラは安全側に倒してベクトル化を諦める。同期は「最小単位」で「シンプル」に書くこと。 それこそが、最強の最適化だ。

最後に

モダンFortranのCoarrayは、MPIの複雑なラッパーから我々を解放してくれる強力な武器だが、その代わり「メモリモデル」を意識した設計が要求される。

「とりあえず動く」コードから、「計算資源を限界まで使い切る」コードへ。まずは `SYNC ALL` を削除し、真に必要な通信相手との `SYNC IMAGES` だけを残すリファクタリングから始めてみてほしい。君のシミュレーションの実行速度が、今日、確実に一段階上がるはずだ。