【入門編】ALLOCATABLEコ配列の動的メモリ管理 – モダンFortran言語仕様と実践実践マスター

Fortranの「コ配列」と動的メモリ管理：並列計算の深淵へようこそ

こんにちは。かつて宇宙の深淵を数値計算で追いかけていた者です。

CやPythonの世界からやってきたエンジニアの皆さんは、きっと「メモリ管理」といえば `malloc/free` やガベージコレクションを思い浮かべるでしょう。しかし、Fortranの世界、特に分散メモリ並列処理を行う「コ配列（Coarrays）」の世界に足を踏み入れると、メモリは単なるデータの箱ではなく、「全イメージ（プロセス）が互いに覗き込める窓」へと進化します。

今日は、実行時にサイズが決まる動的なコ配列をいかに美しく、そして高速に扱うか。その極意を伝授しましょう。

—

1. コ配列の「窓」を動的に開く

静的な配列（サイズ固定）は楽ですが、現実の科学計算では「データサイズは実行時に決まる」のが当たり前です。そこで活躍するのが `ALLOCATABLE` 属性です。

コ配列の最大の特徴は、`[]` （コ添字）を使って他イメージのメモリに直接アクセスできる点です。これを動的に確保する際の基本形を見てみましょう。

! メモリ確保の基本形
real(kind=8), allocatable :: buffer(:,:)[:]

! 各イメージでサイズを決定する
integer :: local_size
local_size = 1000 ! ここは計算条件により変わります

! すべてのイメージで同じ手続きを踏むのが原則です
allocate(buffer(local_size, local_size)[])

! 使わなくなったら即座に解放
deallocate(buffer)

ここで重要なのは、`[]` という記述です。これは「コ次元（並列の広がり）」が動的であることをコンパイラに伝えています。Fortranのメモリ管理で最も重要なのは、「確保と解放のタイミングをイメージ間で同期させること」です。

—

2. なぜ「同期」が血の滲むほど重要なのか？

C言語の並列処理（MPIなど）に慣れていると、「自分のイメージのメモリだけ確保すればいいのでは？」と思うかもしれません。しかし、コ配列において `allocate` は一種の「通信の儀式」です。

片方のイメージだけが先に `deallocate` してしまうと、別のイメージがそのメモリを読み込もうとした瞬間に、宇宙船のハッチが開いたまま真空に投げ出されるような致命的なエラー（Segmentation Fault）が発生します。

実践：安全な動的確保の流儀

! 同期を意識したメモリ管理の雛形
integer :: stat

! 全イメージで一斉にメモリを確保する
allocate(buffer(n, n)[], stat=stat)

if (stat /= 0) then
! メモリ不足や確保失敗時のハンドリングを怠ってはいけません
error stop “メモリ確保に失敗しました。地球へ帰還してください。”
end if

! 他イメージのデータにアクセスする際はsync imagesで壁を作る
sync all
! この時点で全イメージがこの地点に到達していることが保証されます

`sync all` を挟むことで、計算の足並みを揃えます。これをサボると、計算結果が「いつのデータか分からないもの」に汚染され、デバッグ地獄へ真っ逆さまです。

—

3. パフォーマンスを殺さないための「列優先順位」

ここからは現場のエンジニアとしての警告です。Fortranは 「列優先（Column-major）」 でメモリを格納します。

! 最適なアクセス方法：内側のループが第一添字
do j = 1, n
do i = 1, n
buffer(i, j) = 0.0d0
end do
end do

もし `buffer(j, i)` と書いてしまうと、メモリ上の離れた場所を飛び回る（キャッシュミス）ことになり、計算速度は数倍〜数十倍遅くなります。PythonのNumPy（裏側はCやFortranですが）で「遅いな？」と感じた経験があるなら、多くの場合このアクセス順序が原因です。コ配列であっても、この基本原則は変わりません。

—

4. コンパイラの最適化フラグの魂

最後に、現場で使うべきビルドオプションを一つだけ授けます。Intel Fortran (ifort/ifx) を使う場合、以下のフラグを検討してください。

`-O3`: 言わずと知れた最高速最適化。
`-xHost`: 実行しているマシンのCPU性能を限界まで引き出すフラグ。
`-qno-opt-dynamic-align`: メモリアライメントを制御し、SIMD命令（ベクトル化）を効きやすくする。

これらを `Makefile` に組み込み、自身の計算環境でベンチマークを取ってみてください。

—

最後に：若きエンジニアへ

Fortranは「古い言語」と揶揄されることもありますが、並列計算においてこれほどまでに「メモリ」と「通信」を直感的に（かつ言語仕様レベルで深く）扱える言語は他にありません。

まずは、小さな行列で `allocate` と `sync` の挙動を確認し、次に `[]` を使ったデータ転送を試してみてください。最初は戸惑うこともあるでしょうが、この「メモリを制御している感覚」こそが、最強の数値計算エンジニアへの第一歩です。

何か詰まったら、いつでも戻ってきてください。コードの向こう側にある真実を、一緒に紐解いていきましょう。