| MM5 標準テストモデルでのベンチマーク (input2mm5) |
|
|
|
MM5 の標準テストモデルのデータ (input2mm5) を使用して、上記システム上での性能を測定した結果を以下の表に示しました。これと同じデータを使用した
Opteron(TM)、Xeon(R) 上での性能測定結果もインターネット上に公開されているので、これも合わせて比較してみます。この公開データは、ビジュアルテクノロジー様の公開ページより参照させていただきました。こちらのデータに関しては、Intel(R) コンパイラを使用して実行しています。なお、
この公開ページの記事の中でPGI コンパイラでは良い性能が出ないと言うコメントがありますが、以下のように、1スレッド、2スレッド計算共に、同じクロック・マシンでは最も良い性能で正常に実行できます。
以下の表から理解できることは、MM5 数値モデルの計算では、インテル(R) のプロセッサよりも圧倒的に AMD のプロセッサが速いと言うことです。今回試験を行った二つのマシンの大きな違いは、メモリ性能の違いです。Pentium(R)
D のメモリ性能が Athlon64x2 よりも高速であるにもかかわらず、Athlon64x2
の方がそのマシン・クロックの差をも跳ね返し、Pentium(R) D よりも高速で計算ができます。これは、AMD
社のプロセッサの浮動小数点演算の高速性が MM5 では顕著に現れたと言うことになります。また、このベンチマークでは PGI コンパイラの方が、インテル(R) コンパイラよりも高速に実行できることも分かります。
なお、PGI コンパイラでは、Intel(R) EM64T 用の最適化と AMD社の AMD64 用の最適化は異なりますので、以下のベンチマークではそれぞれのプロセッサ用に最適化した実行モジュールを使用して試験を行いました。
このベンチマークのデータサイズは、以下のとおりです。
MAXNES = 2、 MIX = 49、 MJX = 52、 MKX = 23
|
MM5 v3.6 -- OpenMP並列性能 (Elapsed time秒)
| |
クロック |
1CPU |
2CPU |
Compiler |
実測データ参考 |
Pentium® D 820
(Dual Core) |
2.8 GHz |
182.9 |
107.3 |
PGI 6.0 |
弊社測定 |
Athlon64X2 4400+
(Dual Core) |
2.2 GHz |
134.8 |
79.8 |
PGI 6.0 |
弊社測定 |
OpteronTM 2.2GHz
(Dual Core) |
2.2 GHz |
139.8 |
80.5 |
Intel® 9.0 |
ビジュアルテクノロジー様
公開ページより参照 |
OpteronTM 2.6GHz
(Single Core) |
2.6 GHz |
118.6 |
69.8 |
Intel® 9.0 |
ビジュアルテクノロジー様
公開ページより参照 |
| Xeon® 3.6GHz |
3.6 GHz |
143.2 |
90.9 |
Intel® 9.0 |
ビジュアルテクノロジー様
公開ページより参照 |
(値が小さい方が良い性能を示します)
|
|
(注意) 性能試験、ベンチマーク性能並びにその評価は、使用するコンピュータ・システム並びに搭載コンポーネントにより変化します。ここで表示している性能値は、PGI
社並びに弊社が特定のシステムにおいて測定した性能値を表示したものであり、システムのハードウェア・ソフトウェア構成が異なる場合は、実際の性能値が異なる場合があります。
|
|
|
|
MM5 数値モデルには、分散型並列実行を行う MPP オプション・モジュールがある。これは、MPI を使用した並列実行を行うためのものであるが、かなり大規模なモデルが並列効果が高い形で実行可能となる。ここでは、
MM5/MPP モジュールを作成し、デュアルコア・プロセッサ上での MPI 実行を行いその性能を評価する。なお、使用するデータは、標準ベンチマークとして公開されている二つのデータを使用する。
中規模データ : 36-kilometer resolution domain over Europe ( mm5_t3a_bench.tar.gz )
大規模データ : largedomain ( largedomainrun.tar.gz. )
以下のデータを見ても、MM5 の場合は、インテル(R) のプロセッサよりも圧倒的に AMD のプロセッサが速いと言うことが言えます。
【中規模データ】 ベンチマーク情報
このベンチマークのデータサイズは、以下のとおりです。
MAXNES = 1、 MIX = 136、 MJX =112、 MKX = 33
|
中規模データ MM5/MPP v3.7 -- MPI 並列性能 (Elapsed time秒)
| |
クロック |
1CPU |
2CPU |
Compiler |
測定 |
Pentium® D 820
(Dual Core) |
2.8 GHz |
378 秒 |
224 秒 |
PGI 6.0 |
弊社測定 |
| 平均MFLOPS/ステップ |
878 MFLOPS |
1523 MFLOPS |
Athlon64X2 4400+
(Dual Core) |
2.2 GHz |
294 秒 |
193 秒 |
PGI 6.0 |
弊社測定 |
| 平均MFLOPS/ステップ |
1141 MFLOPS |
1792 MFLOPS |
(上記の時間は、実行開始から終了までのtimeコマンドによる時間を表す)
|
【大規模データ】
このベンチマークのデータサイズは、以下のとおりです。
MAXNES = 1、 MIX =200、 MJX =250、 MKX = 27、 200Min積分
|
大規模データ MM5/MPP v3.7 -- MPI 並列性能 (Elapsed time秒)
| |
クロック |
1CPU |
2CPU |
Ratio |
Compiler |
測定 |
Pentium® D 820
(Dual Core) |
2.8 GHz |
1253 秒 |
708 秒 |
1.76 |
PGI 6.0 |
弊社測定 |
Athlon64X2 4400+
(Dual Core) |
2.2 GHz |
1008 秒 |
627 秒 |
1.60 |
PGI 6.0 |
弊社測定 |
(上記の時間は、実行開始から終了までのtimeコマンドによる時間を表す)
|