OpenMP

OpenMP
開発元	OpenMP ARB
初版	3.1 2011年4月21日 (13年前)
最新版	6.0 / 2024年11月24日 (10日前)
対応OS	クロスプラットフォーム
プラットフォーム	クロスプラットフォーム
前身	無し
後継	無し
サイズ	不明
対応言語	C/C++, Fortran;
サポート状況	開発中（サポート中）
種別	並列プログラミングAPI、言語拡張
公式サイト	www.openmp.org
	テンプレートを表示

OpenMP（オープンエムピー）は、並列計算機環境において共有メモリ・マルチスレッド型の並列アプリケーションソフトウェア開発をサポートするために標準化されたAPIである^[3]。「OpenMP」は「open multiprocessing」の略である^[3]。

同様に並列コンピューティングに利用されるMPIでは、メッセージの交換をプログラム中に明示的に記述しなければならないが、OpenMPではディレクティブ（指令）を挿入することによって並列化を行う。OpenMPが使用できない環境では、このディレクティブは無視されるため、並列環境と非並列環境でほぼ同一のソースコードを使用できるという利点がある。また、プラットフォーム固有のスレッド APIを使わず、コンパイラによって暗黙的に生成されたスレッド^{[注釈 1]}を利用してタスクを振り分けることになるため、並列プログラムを簡潔に記述できるだけでなく、複数の環境に移植しやすくなる。

MPIとの比較では、OpenMPは異なるスレッドが同一のデータを同じアドレスで参照できるのに対して、MPIでは明示的にメッセージ交換を行わなければならない。そのため、OpenMPは、SMP環境においては大きなデータの移動を行なわずにすむので高い効率が期待できる。ただし並列化の効率はコンパイラに依存するので、チューニングによる性能改善がMPIほど高くならないという問題がある。また、OpenMPはMPIに比べてメモリアクセスのローカリティが低くなる傾向があるので、頻繁なメモリアクセスがあるプログラムでは、MPIの方が高速な場合が多い^[要出典]。

OpenMPは、並列プログラミングにおいて最も広く利用されているAPIであるが、共有メモリに対してUniform Memory Access（英語版）に近いアクセスができるハードウェアシステムアーキテクチャでは、スケーラビリティに限界がある^[3]。そのため、現在のほとんどのスーパーコンピューターでは、OpenMP単独ではなく、分散メモリ環境で高いスケーラビリティを発揮するMPIと組み合わせた、ハイブリッドMPI+OpenMPが利用されている^[3]^[6]。

2013年にリリースされたOpenMP 4.0では、多数の先進的な機能が追加された^[7]。SIMD命令を使った自動ベクトル化機能（omp simd）や、GPUなどのアクセラレータに並列処理を委譲する分散メモリ型のオフロード機能などがサポートされている^[8]^[9]。

2023年現在、FORTRANとC/C++について標準化が行われている。

OpenMPを用いたコード例

以下はC言語における for ループを並列処理させる例である。

int main(int argc, char *argv[])
{
    int i;
#pragma omp parallel for
    for (i = 0; i < 10000; ++i)
    {
        /* (並列処理させたいプログラム) */
    }
    return 0;
}

OpenMPはループの反復処理を自動的に複数のスレッドに分割して並行処理できるようにする。例えば4つのスレッドを用いて処理を分割する場合、上記例ではインデックス[0, 2499], [2500, 4999], [5000, 7499], [7500, 9999]の各範囲をそれぞれのスレッドに分担させる、といった具合である。実際にいくつのスレッドを起動するのか、また各スレッドに対してどのように処理を振り分けるのかはOpenMP処理系（コンパイラ）およびプログラム実行環境などの条件に依存する^[10]。

以下は区分求積法を用いた円周率πの数値計算を、OpenMP並列リダクションによって行なうC++のコード例である。一部にC++11の機能が使われているが、OpenMPのディレクティブ自体は言語バージョンとは無関係であり、C++98/C++03でも利用できる。

#include <iostream>
#include <chrono>
#include <cmath>
#include <iomanip>
#include <omp.h>

const double D_PI = 3.1415926535897932384626433832795;

// 区分求積法で π の近似値を求める。
// 1 / (x^2 + 1) を区間 [0, 1] で積分すると π/4 になるという定積分を利用する。

int main()
{
  const int DivNum = 1000 * 1000 * 1000;
  const double delta = 1.0 / DivNum;

  std::cout << "OpenMP max threads count = " << omp_get_max_threads() << std::endl;

  const auto startTime = std::chrono::system_clock::now();
  double sum = 0;
#pragma omp parallel for reduction(+ : sum)
  for (int i = 0; i < DivNum; ++i)
  {
    const double x = (delta * i);
    const double area = delta *  1.0 / (x * x + 1.0);
    sum += area;
  }
  const double pi = sum * 4.0;
  const auto endTime = std::chrono::system_clock::now();
  std::cout << std::setprecision(15) << "PI ~= " << pi << std::endl;
  std::cout << "Error [%] = " << (100.0 * std::fabs(D_PI - pi) / D_PI) << std::endl;
  std::cout << "Elapsed time [ms] = " << std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count() << std::endl;
  return 0;
}

#pragma omp parallel forは並列ループのディレクティブである。直後に続くreductionはclause^{[注釈 2]}と呼ばれ、並列処理の動作を調整することができる。ここでは総和を格納するスレッド共有変数sumに対する更新操作の演算子（加算）を指定している。異なるスレッドから共有変数にアクセスするときは排他制御やアトミック操作が必要となるが、OpenMPのclauseを使用することでそのような煩雑なコードを記述する必要がなくなり、詳細を処理系に任せて隠蔽することができる。

OpenMPコンパイルオプションの有無を切り替えるか、OpenMPディレクティブをコメントアウト／コメント解除してからコンパイル・実行することで、マルチスレッド版およびシングルスレッド版の速度性能比較を簡単に行なうことができるのがOpenMPプログラムの特徴である。

対応コンパイラ

GCC：バージョン4.9でC/C++用のOpenMP 4.0を、バージョン4.9.1でFortran用のOpenMP 4.0をサポートした^[15]。GCC 5ではオフロード機能のサポートが追加された。GCC 6以降でC/C++用のOpenMP 4.5を、GCC 7以降でFortran用のOpenMP 4.5をサポートしている。GCC 9以降でOpenMP 5.0の初期サポートが始まっている。
Clang：バージョン3.7でOpenMP 3.1に対応した^[16]。Clang 3.7以前は派生プロジェクトが存在した^[17]。Clang 3.9でオフロード以外のOpenMP 4.5機能をすべてサポートした^[18]。
Microsoft Visual C++：Visual C++ 2017時点でOpenMP 2.0をサポートしている^[19]。Visual C++ 2019ではSIMDベクトル化機能を実験的にサポートする^[20]^[21]。
Intel C++ Compiler：バージョン12.1においてOpenMP 3.1をサポートしている。また、バージョン14.0においてOpenMP 4.0の機能を一部サポートしている^[22]。
Intel Fortran Compiler（英語版）: バージョン18.0以降でOpenMP 5.0の機能の大部分をサポートしている^[23]。

脚注

注釈

^ 実装によっては、スレッドを毎回起動・終了するのではなくスレッドプールが使われる^[4]^[5]。
^ 日本語の各種ドキュメントでは、clauseは「指示節」^[11]、「文節」^[12]、「節」^[13]、「句」^[14]などと訳されているが、いずれも同じ概念を指す。

出典

^ OpenMP 3.1 Released
^ OpenMP® ARB Releases OpenMP 6.0 for Easier Programming
^ ^a ^b ^c ^d Sterling, Thomas; Anderson, Matthew; Brodowicz, Maciej. High performance computing : modern systems and practices. Cambridge, MA. ISBN 9780124202153. OCLC 1013816564
^ §Example: /openmp (Enable OpenMP Support) | Microsoft Learn
^ 第 4 章入れ子並列処理 (Sun Studio 12: OpenMP API ユーザーズガイド)
^ Rabenseifner, R.; Hager, G.; Jost, G. (2009-2). “Hybrid MPI/OpenMP Parallel Programming on Clusters of Multi-Core SMP Nodes”. 2009 17th Euromicro International Conference on Parallel, Distributed and Network-based Processing: 427–436. doi:10.1109/PDP.2009.43.
^ OpenMP 4.0 Specifications Released - OpenMP
^ インテル® コンパイラーを使用した OpenMP* による並列プログラミング - セッション 3: OpenMP* の SIMD 機能
^ インテル® コンパイラーを使用した OpenMP* による GPU オフロードの基本
^ OpenMP* 入門 | iSUS
^ OpenMP Application Program Interface Version 3.0 May 2008（日本語版）| 富士通株式会社
^ OpenMP ディレクティブの使用 - IBM Documentation
^ インテル® Fortran コンパイラーの Fortran 言語と OpenMP* 機能 | iSUS
^ OpenMP API ユーザーズガイド - Sun™ Studio 9 | Sun Microsystems, Inc.
^ openmp - GCC Wiki
^ “Clang 3.7 Release Notes — Clang 3.7 documentation” (英語) (2017年6月4日). 2017年6月4日閲覧。
^ OpenMP®/Clang
^ Clang 3.9 Release Notes — Clang 3.9 documentation
^ OpenMP in Visual C++ | Microsoft Docs
^ /openmp (Enable OpenMP Support) | Microsoft Learn
^ SIMD Extension | Microsoft Learn
^ OpenMP* 4.0 Features in Intel C++ Composer XE 2013 | Intel® Developer Zone
^ インテル® Fortran および C++ コンパイラーで実装される OpenMP* 機能の調査 | iSUS

より詳しく知るための本など（For further learning）

Rohit Chandra, Ramesh Menon, Leo Dagum, David Kohr, Dror Maydan and Jeff McDonald: Parallel Programming in OpenMP, Morgan Kaufmann, ISBN 978-1558606715 (2000年10月).
Barbara Chapman, Gabriele Jost and Ruud Van der Pas: Using OpenMP: Portable Shared Memory Parallel Programming, MIT Press, ISBN 978-0-262-53302-7 (2007年10月).
Ruud van der Pas, Eric Stotzer and Christian Terboven: Using OpenMP -- The Next Step: Affinity, Accelerators, Tasking, and SIMD, The MIT Press, ISBN 978-0262344005 (2017年10月27日). ※ OpenMP 4.5 の仕様を記述。
Timothy G. Mattson, Yun (Helen) He, and Alice Evelyn Konigs: The OpenMP Common Core: Making OpenMP Simple Again, The MIT Press, ISBN 978-0262538862 (2019年11月19日).
Tom Deakin and Timothy G. Mattson: Programming Your GPU with OpenMP: Performance Portability for GPUs, The MIT Press, ISBN 978-0-262547536 (2023年11月7日).

牛島省:「OpenMPによる並列プログラミングと数値計算法」、丸善、ISBN 978-4621077177 (2006年5月).
黒田久泰：「C言語によるOpenMP入門」、東京大学情報基盤センタースーパーコンピューティングニュース、Vol.9, No. Special Issue 1 (2008), pp.149-168
佐藤三久：「OpenMP並列プログラミング入門」、筑波大学計算科学センター（2010）
菅原清文：「C/C++ プログラマーのための OpenMP 並列プログラミング」、第2版、カットシステム、ISBN 978-4-87783-223-0 (2012年6月).
片桐孝洋：「並列プログラミング入門:サンプルプログラムで学ぶOpenMPとOpenACC」、東京大学出版会、ISBN 978-4130624565 (2015年5月29日).
片桐孝洋：「OpenMPの基礎」、名古屋大学情報基盤センター、計算科学技術特論A第3回（2017年度）
北山洋幸：「OpenMP基本と実践―メニ―コアCPU時代の並列プログラミング手法」、カットシステム、ISBN 978-4877834494 (2018年10月1日).

外部リンク

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[6] 実装によっては、スレッドを毎回起動・終了するのではなくスレッドプールが使われる^[4]^[5]。

[16] 日本語の各種ドキュメントでは、clauseは「指示節」^[11]、「文節」^[12]、「節」^[13]、「句」^[14]などと訳されているが、いずれも同じ概念を指す。

[1] OpenMP 3.1 Released

[2] OpenMP® ARB Releases OpenMP 6.0 for Easier Programming

[:0-3] Sterling, Thomas; Anderson, Matthew; Brodowicz, Maciej. High performance computing : modern systems and practices. Cambridge, MA. ISBN 9780124202153. OCLC 1013816564

[4] §Example: /openmp (Enable OpenMP Support) | Microsoft Learn

[5] 第 4 章入れ子並列処理 (Sun Studio 12: OpenMP API ユーザーズガイド)

[7] Rabenseifner, R.; Hager, G.; Jost, G. (2009-2). “Hybrid MPI/OpenMP Parallel Programming on Clusters of Multi-Core SMP Nodes”. 2009 17th Euromicro International Conference on Parallel, Distributed and Network-based Processing: 427–436. doi:10.1109/PDP.2009.43.

[8] OpenMP 4.0 Specifications Released - OpenMP

[9] インテル® コンパイラーを使用した OpenMP* による並列プログラミング - セッション 3: OpenMP* の SIMD 機能

[10] インテル® コンパイラーを使用した OpenMP* による GPU オフロードの基本

[11] OpenMP* 入門 | iSUS

[12] OpenMP Application Program Interface Version 3.0 May 2008（日本語版）| 富士通株式会社

[13] OpenMP ディレクティブの使用 - IBM Documentation

[14] インテル® Fortran コンパイラーの Fortran 言語と OpenMP* 機能 | iSUS

[15] OpenMP API ユーザーズガイド - Sun™ Studio 9 | Sun Microsystems, Inc.

[17] - GCC Wiki

[18] “Clang 3.7 Release Notes — Clang 3.7 documentation” (英語) (2017年6月4日). 2017年6月4日閲覧。

[19] OpenMP®/Clang

[20] Clang 3.9 Release Notes — Clang 3.9 documentation

[21] OpenMP in Visual C++ | Microsoft Docs

[22] /openmp (Enable OpenMP Support) | Microsoft Learn

[23] SIMD Extension | Microsoft Learn

[24] OpenMP* 4.0 Features in Intel C++ Composer XE 2013 | Intel® Developer Zone

[25] インテル® Fortran および C++ コンパイラーで実装される OpenMP* 機能の調査 | iSUS

[1]

[2]

[3]

[注釈 1]

[6]

[7]

[8]

[9]

[10]

[注釈 2]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[4]

[5]

[11]

[12]

[13]

[14]

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンスキャッシュ無効化 Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit（英語版） Explicit（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型（英語版）マルチコアメモリ NUMA COMA（英語版）分散型（英語版）共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	Embarrassingly parallel（英語版） Grand Challenge（英語版） Software lockout（英語版）
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング

OpenMPを用いたコード例

対応コンパイラ

脚注

注釈

出典

より詳しく知るための本など（For further learning）

関連項目

外部リンク