巨大データI/Oの壁を突破せよ!元・宇宙航空研究機関のアーキテクトが教えるFortran並列I/Oの極意
こんにちは。かつて宇宙の深淵を数値計算でシミュレートし、スパコンの計算ノードと日々格闘してきた「Fortranの番人」です。
PythonやC言語で育った皆さんが、いざFortranの世界に足を踏み入れたとき、最初にぶつかる壁が「I/O(入出力)」です。特に、数百GBからTB級の計算結果を吐き出すとき、標準的な `READ` や `WRITE` 文をなんとなく使っていませんか? それ、実はシミュレーションの足を致命的に引っ張る「ボトルネックの温床」なんです。
今日は、なぜFortranのI/Oが遅いのか、そして現代のスパコンで「爆速」を実現するための最適解について、現場の泥臭い知見を交えてお話しします。
—
なぜ標準の `WRITE` 文は「悪」なのか
C言語の `printf` やPythonの `print` と同様に、Fortranの `WRITE(, )` は非常に手軽です。しかし、これらは「フォーマット変換」という重い作業を都度行っています。
数値データを人間が読める「文字列」に変換し、それをディスクに書き込む……このプロセスは、1秒間に数テラバイトを処理する現代のストレージシステムから見れば、あまりに非効率なのです。
「列優先」というFortranの絶対ルール
まず、Fortranは「列優先(Column-Major)」でメモリを確保します。これは「2次元配列 `A(i, j)` を並べたとき、メモリ上では `A(1, 1), A(2, 1), A(3, 1)…` の順で並んでいる」ことを意味します。
もし、ループの書き順を間違えて `A(1, 1), A(1, 2), A(1, 3)…` と行方向にアクセスすれば、CPUはメモリのあちこちを飛び回る(キャッシュミス多発)ことになり、I/O以前に計算自体が劇的に遅くなります。巨大データを扱うなら、まず「メモリ上の並び順通りに書き出す」ことが鉄則です。
—
ステップ1:バイナリ形式で書き出す(Direct Access/Unformatted)
まずは、人間が読めるテキスト形式を捨てましょう。`FORM=’UNFORMATTED’` を使い、バイナリ形式で直接書き出すだけで、速度は桁違いに向上します。
! バイナリ出力の基本例
real(8), dimension(1000, 1000) :: data
integer :: iunit
! 10番というユニット番号を割り当ててオープン
! access=’stream’ はバイナリのストリームアクセスに適しています
open(unit=10, file=’result.bin’, status=’replace’, access=’stream’, form=’unformatted’)
! データの書き出し
write(10) data
close(10)
この「バイナリ直書き」は非常に高速ですが、単一プロセスでの出力には限界があります。数千ノードが同時に書き込みを行うと、ファイルシステムが悲鳴を上げます。
—
ステップ2:並列I/Oの切り札「MPI-IO」と「HDF5」
現代の科学技術計算では、MPI-IO または HDF5 / NetCDF を使うのが標準です。
特にHDF5は、Fortranと非常に相性が良いライブラリです。これは「階層型データ構造」を持つファイル形式で、複数のプロセスが一つのファイルに対して「ここは私の担当分」と領域を予約して同時並行で書き込む(コレクティブI/O)ことができます。
HDF5を用いた並列書き込みのイメージ
HDF5は少し学習コストが高いですが、一度組んでしまえば「どのプロセスが、どの配列を、どこに書き込むか」をメタデータとして埋め込めるため、データ解析時の利便性が爆上がりします。
! HDF5を使用するための簡略化されたイメージ
! 実際にはh5fortran等のラッパーを使うと楽です
use hdf5
! 1. ファイルを開く(並列アクセス許可)
call h5pcreate_f(H5P_FILE_ACCESS_F, plist_id, error)
call h5pset_fapl_mpio_f(plist_id, comm, info, error)
call h5fcreate_f(“data.h5”, H5F_ACC_TRUNC_F, file_id, error, access_prp=plist_id)
! 2. データ空間(ハイパースラブ)を定義
! 各プロセスが自分の受け持つメモリ領域を指定して書き込む
call h5dwrite_f(dataset_id, H5T_NATIVE_DOUBLE, data, dims, error)
! 3. クローズ
call h5fclose_f(file_id, error)
—
現場で役立つ「最適化の極意」
私がデバッグ時に必ずチェックするポイントを3つだけ伝授します。
1. I/Oバッファの意識: 巨大なデータを一度に書こうとせず、適切なチャンクサイズ(数MB〜数百MB程度)に分割して書き出すことで、ストレージのI/O帯域を飽和させずに安定したスループットを出せます。
2. ストライプ設定: ストレージ側の「ストライプサイズ」と、プログラム側の書き出し単位を合わせることで、ディスクへのアクセス効率が驚くほど改善します。これはシステム管理者と仲良くなって確認すべきポイントです。
3. コンパイラフラグ: `ifort` や `gfortran` を使う際、`-O3` だけでなく、`-xHost` や `-ipo`(プロセス間最適化)を有効にしてください。計算部分の最適化が進むと、I/Oのオーバーヘッドが相対的に浮き彫りになり、ボトルネックの所在が明確になります。
若手エンジニアの皆さんへ
Fortranは古臭い言語ではありません。宇宙開発や気象予測など、世界で最も「速さ」が求められる現場では、今なお最強の武器です。
最初はHDF5などのライブラリをリンクする環境構築で苦労するかもしれません。しかし、その苦労の先には、数千のCPUコアが吐き出す膨大なデータを、瞬時にディスクへ刻み込むという、エンジニア冥利に尽きる快感が待っています。
まずは、自分のコードの `WRITE` 文をバイナリに変えるところから始めてみてください。何かわからないことがあれば、またいつでも聞きに来てくださいね!応援しています。

コメント