【実務・中級編】Coarrayを用いた1次元領域分割（ドメイン分解） – モダンFortran言語仕様と実践実践マスター

Coarrayによるドメイン分解：スパコンの物理限界を突破する実装の鉄則

数値計算シミュレーションにおいて、単一ノードの性能向上が頭打ちとなった今、我々に残された道は「メモリの局所性」と「通信の隠蔽」を極限まで追求した並列化です。特に物理領域を分割して計算するドメイン分解（Domain Decomposition）は、科学技術計算の屋台骨ですが、Fortran 2008で導入されたCoarray（多次元配列）の作法を誤れば、キャッシュミスと同期待ちの嵐で、並列化する前より遅いコードが完成します。

本稿では、レガシーなMPI通信の複雑さから脱却し、Fortranネイティブな並列構文で堅牢かつ爆速なシミュレーションを構築するための「現場の知見」を共有します。

1. 静的な領域分割と「境界交換」の設計指針

ドメイン分解の要は、各イメージ（MPIでいうプロセス）が担当する領域の「内点（Interior）」と「境界（Ghost/Halo）」の明確な分離です。コードを書く際、配列のインデックスをグローバルな座標系で管理するのは愚の骨頂です。各イメージが自分の担当するローカルなインデックス空間だけを意識するように設計します。

以下に、1次元領域を分割し、隣接イメージと境界データを交換するセキュアな実装例を示します。

module domain_module
implicit none
integer, parameter :: dp = selected_real_kind(15, 30) ! 倍精度
integer :: my_id, num_images
real(dp), allocatable :: u(:)[:] ! コアレイ変数：自身の領域データ

contains

subroutine sync_boundaries()
integer :: left, right
integer :: n_local

n_local = ubound(u, 1)
my_id = this_image()
num_images = num_images()

! 隣接イメージIDの決定（周期的境界条件）
left = merge(num_images, my_id – 1, my_id == 1)
right = merge(1, my_id + 1, my_id == num_images)

! 境界交換：非同期的なストア操作（image_team等で制御も可能）
! 自分の右端を隣の左端（境界）へ送る
u(n_local)[right] = u(n_local)
! 自分の左端を隣の右端（境界）へ送る
u(1)[left] = u(1)

! データの到着を待機（ここで同期を行う）
sync images()
end subroutine sync_boundaries
end module domain_module

2. なぜ「`u(:)[:]`」でなければならないのか？

上記のコードにおける `u(:)[:]` という宣言は、単なるシンタックスシュガーではありません。
Fortranコンパイラ（Intel ifort/ifxやNVIDIA nvfortran）は、この形式を認識することで、該当変数がリモートアクセス可能であることを識別し、コンパイル時にRDMA（Remote Direct Memory Access）を含む通信コードへ自動的に変換します。

ここで注意すべきはメモリレイアウトです。Fortranは列優先（Column-major）です。1次元領域分割であっても、多次元配列を扱う際は、最も頻繁に走査するインデックスを第1添字（左端）に配置してください。これにより、SIMD命令（AVX-512等）がループをベクトル化する際のストライドが最小化され、メモリコントローラの帯域を使い切ることができます。

3. 最適化を阻害する「アンチパターン」を排除する

現場で最も多いバグは、同期（`sync`）の過剰な利用です。同期は「フェンス」であり、それまでのパイプライン処理を強制的に停止させます。

堅牢な実装のためのTips:

1. ループ展開の妨げを避ける: ループ内部で `this_image()` を呼び出すのは避けてください。変数にキャッシュし、ループの外で評価します。
2. キャッシュラインの意識: 境界交換を行う際、送受信するデータはできるだけ連続したメモリ領域に配置してください。構造体（Derived Type）を境界として送る場合、`sequence`属性を付与し、メモリ配置がパディングされないよう細心の注意が必要です。
3. コンパイラオプションの活用:

`ifx -O3 -xHost -qopt-report=5`: ベクトル化が阻害されている箇所をレポートで確認する癖をつけてください。
`-assume contiguous`: 配列が連続メモリにあることをコンパイラに約束することで、余計なポインタチェックを排除し、極限のパフォーマンスを引き出します。

結論：モダンFortranは「隠蔽」がすべて

Coarrayを用いた実装の最大の利点は、MPIのような「送受信の定型文」をコードから一掃し、物理モデルの実装に集中できることです。しかし、その裏側で何が起きているか（通信量、同期の回数、キャッシュの局所性）を想像できないエンジニアは、結局のところハードウェアの性能を3割も引き出せません。

まずは、上記の実装を自身のソルバーに組み込み、`sync images()` の位置を最小限に抑えることから始めてみてください。それが、スパコンの計算時間を短縮し、あなたのシミュレーションの信頼性を高めるための最短距離です。

もし特定の物理モデル（ポアソン方程式やナビエ・ストークス等）への適用でボトルネックに突き当たったら、遠慮なく計算グラフを見直してください。Fortranの真の力は、数学的直感とメモリ構造が一致した瞬間に発揮されます。