ソフテック・トップページへ
ホーム 製品 セキュリティ・サービス HPCサービス ダウンロード 企業情報

PGI compiler TIPS
PGI コンパイラによる気候モデル MM5 の性能
最適化・性能情報 > MM5 Benchamrk

 
気候モデルMM5の性能は、Intel®よりAMDのプロセッサが優る!

PSU/NCARメソスケール気候モデル MM5 は、、共有メモリ/分散メモリ型アーキテクチャに対応した並列計算モデルです。メソスケール/地域気候の予知並びに予測シミュレーションを行うために使用されます。気候モデルで代表される MM5 は、プログラムの演算特性と言う観点で見た場合、高度な浮動小数点演算処理形態を有し、シミュレーション分野における一般的な演算特性を凝縮した形となっています。また、並列計算においては、通信と演算のバランスも良く最適化されたものとなっています。技術計算分野において高度にインテグレートされたプログラム特性を有する MM5 の性能挙動について、異なるプロセッサを使用して得た結果をもとに評価してみます。
ここでは、Intel(R)プロセッサとしてPnetium(R) D、AMDのプロセッサとして、Athlon64x2を使用してその性能に関して評価します。いずれも、デュアルコア・プロセッサであり、メモリアクセスの競合による影響も含めて評価します。なお、使用した MM5 のバージョンは、3.6 並びに 3.7 です。

性能測定に使用したシステムとOS、コンパイラとそのバージョンは、以下のとおりです。


AMD Dual Core プロセッサ インテル(R) Dual Core プロセッサ
システム名 White Box (15万円) EPSON Endeavor Pro3300 (18万円)
プロセッサ AMD Athlon64X2 4400+
Pentium® D 820
Clock 2.2 GHz 2.8 GHz
L2 cache 1MB + 1MB 1MB + 1MB
使用メモリ(最大帯域) DDR400 PC3200 CL3 3-3-3 (6.4GB/s) 512MB x 2 枚(バルク製品) DDR2-667 (10.6GB/s) 1GB x 2 枚
STREAM メモリ実効帯域(SSEベクトル処理付) 4290 MB/sec 4863 MB/sec
STREAM メモリ実効帯域
(ベクトル処理なし)
2551 MB/sec 3583 MB/sec
FSB (MHz)(最大帯域) 200 x 4 (6.4GB/s) HyperTransport 800 (6.4GB/s)
チップセット nVIDIA nForce4-Ultra インテル(R) 955X
使用 OS SUSE 10.0 (kernel 2.6.13) SUSE 10.0 (kernel 2.6.13)
64ビット環境 AMD64 EM64T
使用コンパイラ PGI 6.0 PGI 6.0
ご参考 : Intel(R) デュアルPentium(R) Dプロセッサ・システムでもPGIコンパイラの高速性が実証される !!
        デュアル Athlon64 X2 プロセッサ・システムをPGI コンパイラで評価する!

MM5 標準テストモデルでのベンチマーク (input2mm5)

MM5 の標準テストモデルのデータ (input2mm5) を使用して、上記システム上での性能を測定した結果を以下の表に示しました。これと同じデータを使用した Opteron(TM)、Xeon(R) 上での性能測定結果もインターネット上に公開されているので、これも合わせて比較してみます。この公開データは、ビジュアルテクノロジー様の公開ページより参照させていただきました。こちらのデータに関しては、Intel(R) コンパイラを使用して実行しています。なお、 この公開ページの記事の中でPGI コンパイラでは良い性能が出ないと言うコメントがありますが、以下のように、1スレッド、2スレッド計算共に、同じクロック・マシンでは最も良い性能で正常に実行できます。
以下の表から理解できることは、MM5 数値モデルの計算では、インテル(R) のプロセッサよりも圧倒的に AMD のプロセッサが速いと言うことです。今回試験を行った二つのマシンの大きな違いは、メモリ性能の違いです。Pentium(R) D のメモリ性能が Athlon64x2 よりも高速であるにもかかわらず、Athlon64x2 の方がそのマシン・クロックの差をも跳ね返し、Pentium(R) D よりも高速で計算ができます。これは、AMD 社のプロセッサの浮動小数点演算の高速性が MM5 では顕著に現れたと言うことになります。また、このベンチマークでは PGI コンパイラの方が、インテル(R) コンパイラよりも高速に実行できることも分かります。

なお、PGI コンパイラでは、Intel(R) EM64T 用の最適化と AMD社の AMD64 用の最適化は異なりますので、以下のベンチマークではそれぞれのプロセッサ用に最適化した実行モジュールを使用して試験を行いました。
このベンチマークのデータサイズは、以下のとおりです。
 MAXNES = 2、 MIX = 49、 MJX = 52、 MKX = 23

MM5 v3.6 -- OpenMP並列性能 (Elapsed time秒)
  クロック 1CPU 2CPU Compiler 実測データ参考
Pentium® D 820
(Dual Core)
2.8 GHz 182.9 107.3 PGI 6.0 弊社測定
Athlon64X2 4400+
(Dual Core)
2.2 GHz 134.8 79.8 PGI 6.0 弊社測定
OpteronTM 2.2GHz
(Dual Core)
2.2 GHz 139.8 80.5 Intel® 9.0 ビジュアルテクノロジー様
公開ページより参照
OpteronTM 2.6GHz
(Single Core)
2.6 GHz 118.6 69.8 Intel® 9.0 ビジュアルテクノロジー様
公開ページより参照
Xeon® 3.6GHz 3.6 GHz 143.2 90.9 Intel® 9.0 ビジュアルテクノロジー様
公開ページより参照
                                                     (値が小さい方が良い性能を示します)
         

(注意) 性能試験、ベンチマーク性能並びにその評価は、使用するコンピュータ・システム並びに搭載コンポーネントにより変化します。ここで表示している性能値は、PGI 社並びに弊社が特定のシステムにおいて測定した性能値を表示したものであり、システムのハードウェア・ソフトウェア構成が異なる場合は、実際の性能値が異なる場合があります。

MM5/MPP による並列大規模モデルの実行性能

MM5 数値モデルには、分散型並列実行を行う MPP オプション・モジュールがある。これは、MPI を使用した並列実行を行うためのものであるが、かなり大規模なモデルが並列効果が高い形で実行可能となる。ここでは、 MM5/MPP モジュールを作成し、デュアルコア・プロセッサ上での MPI 実行を行いその性能を評価する。なお、使用するデータは、標準ベンチマークとして公開されている二つのデータを使用する。
  中規模データ : 36-kilometer resolution domain over Europe ( mm5_t3a_bench.tar.gz )
  大規模データ : largedomain ( largedomainrun.tar.gz. )

以下のデータを見ても、MM5 の場合は、インテル(R) のプロセッサよりも圧倒的に AMD のプロセッサが速いと言うことが言えます。

 【中規模データ】 ベンチマーク情報
  このベンチマークのデータサイズは、以下のとおりです。
  MAXNES = 1、 MIX = 136、 MJX =112、 MKX = 33

中規模データ MM5/MPP v3.7 -- MPI 並列性能 (Elapsed time秒)
  クロック 1CPU 2CPU Compiler 測定
Pentium® D 820
(Dual Core)
2.8 GHz 378 224 PGI 6.0 弊社測定
平均MFLOPS/ステップ 878 MFLOPS 1523 MFLOPS
Athlon64X2 4400+
(Dual Core)
2.2 GHz 294 193 PGI 6.0 弊社測定
平均MFLOPS/ステップ 1141 MFLOPS 1792 MFLOPS
 (上記の時間は、実行開始から終了までのtimeコマンドによる時間を表す)

 【大規模データ】
  このベンチマークのデータサイズは、以下のとおりです。
  MAXNES = 1、 MIX =200、 MJX =250、 MKX = 27
、 200Min積分

大規模データ MM5/MPP v3.7 -- MPI 並列性能 (Elapsed time秒)
  クロック 1CPU 2CPU Ratio Compiler 測定
Pentium® D 820
(Dual Core)
2.8 GHz 1253 708 1.76 PGI 6.0 弊社測定
Athlon64X2 4400+
(Dual Core)
2.2 GHz 1008 627 1.60 PGI 6.0 弊社測定
(上記の時間は、実行開始から終了までのtimeコマンドによる時間を表す)

この画面トップへ

性能比較・評価のトップへ戻る >>




 ソフテックは、PGI 製品の公認正規代理店です

サイトマップ お問合せ
Copyright 2004 SofTek Systems Inc. All Rights Reserved.