【テクニカル・上級編】コ配列の宣言と添字アクセス（[ ]演算子） – モダンFortran言語仕様と実践実践マスター

コ配列の深淵：分散メモリの境界を消し去るメモリレイアウトの魔術

かつて我々は、MPIの`MPI_Isend`/`MPI_Irecv`という呪文を唱え、非同期通信のデッドロックに夜を明かし、バッファのコピーに貴重なメモリ帯域を浪費していた。だが、Fortran 2008で導入され、2018/2023で完成の域に達した「コ配列（Coarrays）」は、そのパラダイムを根本から覆した。

ただし、勘違いしてはならない。コ配列は「魔法の杖」ではない。これを単なる「便利なリモートアクセス構文」として扱うと、数万コア規模のスパコンでは瞬時に性能が飽和する。真のアーキテクトならば、その背後にあるPGAS（Partitioned Global Address Space）モデルのメモリ・ハイアラキーを意識し、キャッシュラインを支配しなければならない。

1. コ配列の宣言と「見えない」メモリ配置

まず、コ配列の宣言における基本だが、単に `real, codimension[] :: A` と書くのは、単なる宣言に過ぎない。

! 重要なのは、アライメントとキャッシュラインを意識した静的確保である
! 64バイト境界(キャッシュライン)を意識したパディングが性能の分かれ目となる
real(8), codimension[0:], allocatable :: grid(:, :, :)[:, :, :]

ここで重要なのは、`codimension[0:]` の指定だ。デフォルトの `[] ` はイメージの最大数がコンパイル時に固定されるリスクがあるが、`0:` を使うことで、実行時のイメージ数に応じた柔軟なメモリ配置が可能になる。

しかし、真の地獄はここからだ。`A(i, j)[p]` という記述がなされたとき、コンパイラは内部的に「リモート側のオフセット計算」と「ネットワーク・トラフィックのトリガー」を生成する。この際、対象イメージのメモリがローカルと同じNUMAドメインにあるか否かで、レイテンシは桁違いに変化する。

2. リモートアクセスと「同期」のコスト

`sync images` や `sync all` は、単なる同期ではない。これらは、リモートメモリのキャッシュフラッシュ（メモリバリア）を強制する命令だ。

! 非同期アクセスを実現するためのパターン
! 頻繁な同期はHPC環境では最大のボトルネックとなる
if (this_image() == 1) then
! イメージ2のデータをリモートから直接読み込む
! ここで同期(sync)を挟むと、パイプラインが停止する
val = data(:)[2]
end if

! 数万コア規模では、sync images(p) を使って
! 特定の通信相手とのみ同期を行い、グローバルな同期を避けるのが鉄則

パフォーマンスを追求する場合、`sync` 命令の回数を減らすために、データの「ダブルバッファリング」を実装し、演算と通信を完全にオーバーラップさせる必要がある。もし、あなたのコードで `sync` がループの内側に存在しているなら、それはアーキテクチャの敗北である。

3. キャッシュミスを制する：列優先とリモートアクセスの相関

Fortranの最大の武器である「列優先（Column-major）」は、コ配列でも不変の真理だ。しかし、他イメージのデータを取得する際、非連続なメモリ領域を多次元配列の角括弧でアクセスすると、ハードウェア・プリフェッチャーが機能不全に陥る。

極限の最適化の指針:

構造体（Derived Type）のパディング: `type(node), codimension[] :: nodes` とする場合、構造体内のメンバがキャッシュラインを跨がないよう、`!dir$ attributes align:64` を駆使せよ。
通信の集約: リモート配列の要素を一つずつ `[p]` でアクセスしてはならない。それはネットワーク・パケットの浪費だ。一度のアクセスのために、可能な限り連続したメモリブロックを `block` として転送する設計に書き換えること。

4. プロファイラが語る「見えないボトルネック」

Intel VTuneやScalascaを回すと、コ配列使用時の `_gfortran_caf_get` や `_gfortran_caf_send` といったランタイム関数が上位に躍り出ることがある。

これが見えたら、以下のチェックリストを確認せよ。
1. 通信の粒度は適切か？：小さなパケットが大量に飛んでいないか？
2. NUMA効果はどうか？：MPIランク（イメージ）が、物理的に近いCPUコアに配置されるよう、`rankfile` や `affinity` 設定を最適化しているか？
3. 同期の排他制御: `atomic` 変数を使用している場合、ハードウェアアトミック命令の衝突が起きていないか？

結びに代えて

モダンFortranのコ配列は、低レイヤのメモリ操作を言語仕様レベルで抽象化した、極めて強力な武器だ。しかし、スパコンの性能を引き出すのは、コンパイラの最適化フラグ `-Ofast -march=native -fno-protect-parens` だけで済むような甘い世界ではない。

あなたが書いているその一行は、ネットワークスイッチを通り、他ノードのメモリコントローラを叩き、キャッシュ階層を揺さぶっている。その「物理」を想像できる者だけが、Fortranで数PFLOPSの世界を支配できるのだ。

さあ、次は `do concurrent` とコ配列を組み合わせ、ベクトル化と並列化を極限まで融合させたコードを見せてくれ。現場からは以上だ。