ソフテック・トップページへ
ホーム 製品 セキュリティ・サービス HPCサービス ダウンロード 企業情報

PGI compiler TIPS
STREAM ベンチマークでの比較
最適化・性能情報 > STREAM ベンチマーク
 
  
STREAM ベンチマークは、非常に単純な演算によるメモリのロード/ストアの性能を測定するベンチマークです。プロセッサのキャッシュの効果を反映させないように、非常に大きな配列間のロード/ストアの性能を測定できるようにベンチマークを行います。このベンチマークの性能は、主に、プロセッサの実メモリバンド幅を測定する目的と、コンパイラによるメモリ・ロード/ストア廻りの最適なコード生成が行われているかどうかを見るための重要な指標となります。実メモリバンド幅の性能は、実アプリケーションのデータのアクセス性能の基本となりますので、性能全体を左右する重要な指標となります。

ここでは、 同一仕様の 64-bit AMD Opteron システムを利用して、 PathScale(TM) EKO コンパイラと PGI コンパイラによる性能比較を行います。また、参考のために、32-bit Pentium4 のメモリバンド幅についても同列比較し、そのメモリバンド幅を示します。なお、以下で示すメモリバンド幅の性能は、次の演算形式である Triad のもの (2 ロード/1 ストア)を比較したものです。以下の値は、STREAM ベンチマーク公式サイトより性能データを抽出したものです。なお、ベンチマークで使用した配列オフセットは、 OFFSET=0 とした時のものを比較しています。

  C(i) = A(i) +B(i)*Scalar


PGI コンパイラ と PathScale コンパイラの比較

64-bit AMD Opteron システムの仕様
プロセッサ/メモリ AMD Opteron 248
Clock: 2200Mhz
Cache : 1024KB
Memory : 4x512MB DDR400 PC3200 CL2
Mother: ASUS SK8N
Linux OS SUSE Linux 9.0
Pathscale PathScale EKO Compiler による値を示す
PGI 5.2  PGI 5.2 Compiler による値を示す
PGI 6.0  PGI 6.0 Compiler による値を示す
 
32-bit Intel(R) Pentium4 システムの仕様
プロセッサ/メモリ 2.8GHz Pentium 4 in HT mode
Intel i875 chipset
800 Mbps FSB
1GB PC3200 CL3 ECC DDR SDRAM
Linux OS Red Hat Linux release 9
gcc GNU gcc Compiler による値を示す


同じ 64-bit Opteron 上での性能比較では、PGI 6.0 バージョンにおいて、PathScale コンパイラによる性能を上回リました。また、Pentium4、Xeon EM64T では、現在のところ STREAM ベンチマークデータにおいても、3700MB/sec 程度が最大の性能値と言うことになり、Opteron システムのメモリバンド幅の優位性が明らかです。




(注意) 性能試験、ベンチマーク性能並びにその評価は、使用するコンピュータ・システム並びに搭載コンポーネントにより変化します。ここで表示している性能値は、PGI 社並びに弊社が特定のシステムにおいて測定した性能値を表示したものであり、システムのハードウェア・ソフトウェア構成が異なる場合は、実際の性能値が異なる場合があります。

PGI コンパイラ による SMP 並列でのメモリバンド幅のスケーラビリティ

PGI コンパイラを使用して Opteron 2CPU システムでのメモリバンド幅のスケーラビリティを示したものが以下のデータです。AMD Opteron のメモリ・アーキテクチャの特長は、メモリと各 CPU 間が独立のパスを持っていることがあげられます。これにより、SMP 並列上の性能が劇的に向上します。これをサポートするのが、コンパイラの役目ですが、以下の性能は OpenMP 並列実装した際のメモリバンド幅が 1CPU / 2CPU でどう変化するかを表したものです。 1CPU のバンド幅に対して 2CPU では約 1.93 倍の性能が得られております。PGI コンパイラによる、ネイティブな低オーバーヘッドの並列コードを生成することで、理想的な並列性能特性を得ることができます。


64-bit AMD Opteron システムの仕様 (2003/12月時点)
プロセッサ/メモリ AMD Opteron 246
Clock: 2200Mhz
Memory : 2GB PC3200
Mother: Tyan S2882
Linux OS SUSE SLES 8.0
Compiler  PGI 5.1 Compiler による値を示す


AMD Opteron のメモリ・アーキテクチャ
(Reference) http://www.amd.com/us-en/assets/content_type/DownloadableAssets/30291C_brief_p1.pdf

この画面トップへ

<< SPECfp2000による性能比較 SSE/SSE2 による最適化性能、OpenMP 性能 >>


 ソフテックは、PGI 製品の公認正規代理店です

サイトマップ お問合せ
Copyright 2004 SofTek Systems Inc. All Rights Reserved.