Introducing Intel® Parallel Studio XE 2015

Similar documents
インテル C++ および Fortran コンパイラー for Linux*/OS X*/Windows

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート

高速なコードを素早く開発 インテル Parallel Studio XE 設計 ビルド 検証 チューニング C++ C Fortran Python* Java* 標準規格に基づく並列モデル : OpenMP* MPI インテル TBB バージョン 2017 の主な機能 インテル Distribut

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート

Click to edit title

スレッド化されていないアプリケーションでも大幅なパフォーマンス向上を容易に実現

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート

Parallel Studio XE Parallel Studio XE hotspot ( )

Intel_ParallelStudioXE2013_ClusterStudioXE2013_Introduction.pptx

PowerPoint Presentation

高速なコードを 迅速に開発 インテル Parallel Studio XE 2016 最適化に関する注意事項 2015 Intel Corporation. 無断での引用 転載を禁じます * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です パフォーマンスを最大限に引き出そう

インテル® VTune™ Amplifier XE を使用したストレージ向けの パフォーマンス最適化

Microsoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18

目次 1 はじめに 製品に含まれるコンポーネント 動作環境... 4 オペレーティング システム... 4 Microsoft Visual Studio* 製品 製品のダウンロード 製品版をインストールする場合 評価版を

製品価格 ( 新規購入 ) INT6531 インテル VTune Amplifier XE 2017 for Windows Floating 1-275, ,000 INT6532 インテル VTune Amplifier XE 2017 for Linux Floating 1-27

Microsoft Word - HOKUSAI_system_overview_ja.docx

Presentation title

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版 : インストール・ガイド

インテル(R) C++ Composer XE 2011 Windows版 入門ガイド

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows : インストール・ガイド

インテルソウトウェア開発製品アカデミック版特定ユーザーライセンス標準価格表 株式会社アークブレイン 2016 年 5 月 10 日 ~ 製品型番 アカデミック版特定ユーザーライセンス 税別標準価格 税込標準価格 INT5744 インテル Parallel Studio XE 2016 Cluster

インテル(R) Visual Fortran Composer XE

インテル Parallel Studio XE 2017 Composer Edition for Fortran Windows* インストール ガイド Rev (2017/06/08) エクセルソフト株式会社

Jackson Marusarz 開発製品部門

バトルカードでゲーマーやエンスージアストへの販売促進

Microsoft PowerPoint - 1_コンパイラ入門セミナー.ppt

高速なコードを 素早く開発 インテル Parallel Studio XE 2017 最適化に関する注意事項 2016 Intel Corporation. 無断での引用 転載を禁じます * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です パフォーマンスを最大限に引き出そう

Microsoft* Windows* 10 における新しい命令セットの利用

Microsoft PowerPoint - Intel Parallel Studio XE 2019 for Live

Introduction to OpenMP* 4.0 for SIMD and Affinity Features with Intel® Xeon® Processors and Intel® Xeon Phi™ Coprocessors

Microsoft PowerPoint Quality-sama_Seminar.pptx

インテル(R) Visual Fortran コンパイラ 10.0

製品型番 商用版特定ユーザーライセンス INT7001 インテル System Studio 2018 FreeBSD \163,080 INT6673 インテル Media Server Studio 2017 Essentials \84,000 \90,720 Edit INT6674 インテ

Microsoft Word - IVF15.0.1J_Install.doc

Intel® Compilers Professional Editions

KSforWindowsServerのご紹介

IntelR Compilers Professional Editions

チュートリアル: インテル® MPI ライブラリー向け MPI Tuner (Windows*)

Click to edit title

THE PARALLEL Issue UNIVERSE James Reinders Parallel Building Blocks: David Sekowski Parallel Studio XE Cluster Studio Sanjay Goil John McHug

Tutorial-GettingStarted

Code Modernization Online training plan

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成

Intel Software Presentation Template

hotspot の特定と最適化

目次 1 はじめに 製品コンポーネント 動作環境 インストールを行う前に 製品版と評価版 製品のインストール手順 製品の登録 製品のダウンロード ライセンスファイルの取得

PowerPoint プレゼンテーション

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

DPD Software Development Products Overview

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) *

Control Manager 6.0 Service Pack 3 System Requirements

InfiniDB最小推奨仕様ガイド

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

Microsoft Word - PV-WAVE12 0_ReleaseNotes.docx

VXPRO R1400® ご提案資料

インテル(R) Visual Fortran Composer XE 2013 Windows版 入門ガイド

インテル® Parallel Studio XE 2017 for Linux* インストール・ガイド

PGRelief C/C++ 強化ポイント説明書

PowerPoint プレゼンテーション

01_OpenMP_osx.indd

アカ版特定ユーザーライセンス INT7006 INT7007 INT7008 INT6685 インテル System Studio 2018 Ultimate on \217,080 r インテル System Studio 2018 Ultimate on \217,080 r インテル Syst

Contents Windows* /Linux* C++/Fortran... 3 Microsoft* embedded Visual C++* C Microsoft* Windows* CE.NET Platform Builder C IP

1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します これにより コードの信頼性が向上し 開

PRIMERGY 性能情報 SPECint2006 / SPECfp2006 測定結果一覧

ウイルスバスター コーポレートエディション 10.6 SP3 システム要件

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

Oracle Enterprise Linux 5における認証

Silk Central Connect 15.5 リリースノート

1. 検証概要 目的及びテスト方法 1.1 検証概要 既に Red Hat Enterprise Linux 5.5 for x86-64 で動作保証されている Micro Focus Server Express 5.1 J を Red Hat Enterprise Linux Server 6.

(速報) Xeon E 系モデル 新プロセッサ性能について

PowerPoint Presentation

ウイルスバスター コーポレートエディション XG システム要件

テクニカルガイド

Microsoft Word - osce_10.6_sp3_p2_sys_req.doc

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

CheckPoint Endpoint Security メトロリリース製品について 株式会社メトロ 2018 年 07 月 25 日

PRIMERGY 性能情報 SPECint2006 / SPECfp2006 測定結果一覧

Veritas System Recovery 16 Management Solution Readme

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ

インテル® Parallel Studio XE 2017 Composer Edition for Fortran Windows - インストール・ガイド -

目次 Windows 2003 への新規インストール... 3 Windows 2008 への新規インストール... 4 Windows 2012 への新規インストール... 6 Microsoft SQL のサポート... 8 IPv4/IPv6 のサポート... 8 制限事項... 9 Web

提案書

Intel Integrated Performance Premitives 4.1 Linux

目次 1 はじめに 本文書の概要 PVF ソフトウェアと VISUAL STUDIO PVF ソフトウェアの種類 MICROSOFT VISUAL STUDIO の日本語化について VISUAL STUDIO

ウイルスバスター コーポレートエディション システム要件

Click to edit title

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

インテル® キャッシュ・アクセラレーション・ソフトウェア (インテル® CAS) Linux* 版 v2.8 (GA)

Veritas System Recovery 16 Management Solution Readme

インテル® Parallel Studio XE 2016 Update 1 for Linux* インストール・ガイド

テクニカルガイド

並列アプリケーション向けインテル® TBB スケーラブル・メモリー・アロケーターの活用

Total Disc Makerサイレントインストールガイド

Microsoft Word - p2viewer_plus_jpn20.doc

IBM Rational Software Delivery Platform v7.0 What's

型名 RF007 ラジオコミュニケーションテスタ Radio Communication Tester ソフトウェア開発キット マニュアル アールエフネットワーク株式会社 RFnetworks Corporation RF007SDK-M001 RF007SDK-M001 参考資料 1

Oracle Database Clientクイック・インストレーション・ガイド, 10gリリース1( ) for Microsoft Windows

Transcription:

インテル Parallel Studio XE 205 の概要 James Reinders インテルコーポレーションのソフトウェア エバンジェリスト兼ディレクター james.r.reinders@intel.com

高速なコードを迅速に開発インテル Parallel Studio XE 205 高速なコード 明示的なベクトル プログラミングでより多くのコードをスピードアップ インテル Xeon Phi コプロセッサー Skylake および Broadwell マイクロアーキテクチャー向けの最適化 最新の MPI-3 標準をサポートするインテル MPI ライブラリー 小さな行列と大きな演算問題を高速処理 迅速な開発 総合的なコンパイラーによる最適化レポート Mac* 上で Windows* または Linux* のプロファイル データを解析 最新の標準規格をサポート C++ および Fortran 2003 ( フルサポート ) MPI-3 OpenMP* 4 スライド 20 スライド 7 スライド 7 スライド 8 開発コード名 2

構成 インテル Parallel Studio XE 205 Composer Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* バンドルまたはアドオン : ローグウェーブ IMSL* ライブラリー インテル Parallel Studio XE 205 Professional Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* Advisor XE Inspector XE VTune Amplifier XE アドオン : ローグウェーブ IMSL* ライブラリー インテル Parallel Studio XE 205 Cluster Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* Advisor XE Inspector XE VTune Amplifier XE MPI Trace Analyzer & Collector アドオン : ローグウェーブ IMSL* ライブラリー フローティング ライセンスおよびアカデミック ライセンスを含むその他の構成については http://intel.ly/perf-tools を参照してください 3

詳細 4

インテル コンパイラーについて 5

インテル C++ / Fortran コンパイラー 5.0 アプリケーション パフォーマンスを向上する効率良い言語レベルの並列モデルを提供する最適化コンパイラー 共通機能 新しい OpenMP* 4.0 のベクトル化により SIMD 命令を利用してインテル Xeon プロセッサーおよびインテル Xeon Phi コプロセッサーで優れたパフォーマンスを実現 強化されたコンパイラーの最適化レポートにより最適化の可能性を素早く特定 Windows* では Visual Studio* 200 202 203 に統合 Linux* OS X* Windows* Android* に対応 開発ニーズに合わせてさまざまな設定が可能 : C++ の詳細 Fortran の詳細 インテル C++ コンパイラー インテル Cilk Plus の並列化キーワードにより タスクとデータ並列処理を簡単に実装 C++ をフルサポート インテル Fortran コンパイラー Fortran 2003 をフルサポート 多くの Fortran 2008 機能をサポート ローグウェーブ IMSL* Fortran 数値ライブラリー : Windows* Fortran* スイート向けのパフォーマンス アドオン 6

Visual C++* 203 インテル C++ 5.0 GCC* 4.9.0 インテル C++ 5.0 Visual C++* 203 インテル C++ 5.0 GCC* 4.9.0 インテル C++ 5.0 インテル Fortran 5.0 Absoft* 4.0.3 PGI Fortran* 4.7 インテル Fortran 5.0 Absoft* 4.0.3 Open64* PGI Fortran 4.7 gfortran* 4.9.0 インテル C++/Fortran コンパイラー Windows* および Linux* でアプリケーション パフォーマンスを向上 インテル C++ コンパイラーによる優れた C++ アプリケーション パフォーマンス - Windows*/Linux* ( 数値が大きいほど高性能 ) 浮動小数点.23.24.46 整数.5 インテル Fortran コンパイラーによる優れた Fortran アプリケーション パフォーマンス - Windows*/Linux* ( 数値が小さいほど高性能 ) 0.54 0.73 0.99 0.64 0.78 0.83 Windows* Linux* Windows* Linux* SPECfp*_base2006 の推定値 SPECint*_base2006 の推定値 相対 ( 相乗平均 ) パフォーマンス SPEC* ベンチマーク ( 数値が大きいほど高性能 ) システム構成 : ハードウェア : HP ProLiant DL360p Gen8 ( インテル Xeon プロセッサー E5-2680 v2 @ 2.80GHz 搭載 ) 256 GB RAM ハイパースレッディング有効; ソフトウェア : インテル C++ コンパイラー 5.0, Microsoft* Visual C++* 203, GCC* 4.9;Linux*: Red Hat* Enterprise Linux* Server release 6.5 (Santiago), カーネル 2.6.32-43.el6.x86_64;Windows*: Windows* 7 Enterprise SP ;SPEC* ベンチマーク (www.spec.org) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 Windows* Linux* 相対 ( 相乗平均 ) パフォーマンス Polyhedron* ベンチマーク ( 数値が小さいほど高性能 ) システム構成 : ハードウェア : インテル Core i7-4770k プロセッサー @ 3.50GHz 6GB RAM ハイパースレッディング無効 ソフトウェア : インテル Fortran コンパイラー 5.0 Absoft*4.0.3 PGI Fortran* 4.7 Open64* gfortran* 4.9.0 Linux*: Red Hat* Enterprise Linux* Server release 6.4 (Santiago), カーネル 2.6.32-358.el6.x86_64;Windows*: Windows* 7 Enterprise SP ;Polyhedron* Fortran ベンチマーク (www.polyhedron.com) Windows* コンパイラー オプション : Absoft*: -m64 -O5 -speed_math=0 -fast_math -march=core -xinteger -stack:0x80000000 インテル Fortran コンパイラー : /fast /Qparallel /link /stack:64000000 PGI Fortran*: -fastsse - Munroll=n:4 -Mipa=fast,inline -Mconcur=numa Linux* コンパイラー オプション : Absoft*: -m64 -mavx -O5 -speed_math=0 -march=core xinteger gfortran: -Ofast -mfpmath=sse -flto -march=native -funroll-loops -ftree-parallelize-loops=4 インテル Fortran コンパイラー : -fast parallel PGI Fortran*: -fast -Mipa=fast,inline - Msmartalloc -Mfprelaxed -Mstack_arrays -Mconcur=bind Open64*: -march=bdver -mavx -mno-fma4 -Ofast -mso apo 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 7

スピードアップ パフォーマンスを大幅に向上するインテル コンパイラーの OpenMP* 4.0 による明示的なベクトル化 たった 2 行を追加するだけでインテル SSE とインテル AVX を利用可能 プラグマは OpenMP* 4.0 仕様をサポートしないほかのコンパイラーでは無視されるため移植性には影響しない typedef float complex fcomplex; const uint32_t max_iter = 3000; #pragma omp declare simd uniform(max_iter), simdlen(6) uint32_t mandel(fcomplex c, uint32_t max_iter) { uint32_t count = ; fcomplex z = c; while ((cabsf(z) < 2.0f) && (count < max_iter)) { z = z * z + c; count++; } return count; } uint32_t count[imagewidth][imageheight];.. for (int32_t y = 0; y < ImageHeight; ++y) { float c_im = max_imag - y * imag_factor; #pragma omp simd safelen(6) for (int32_t x = 0; x < ImageWidth; ++x) { fcomplex in_vals_tmp = (min_real + x * real_factor) + (c_im *.0iF); count[y][x] = mandel(in_vals_tmp, max_iter); } } 右側は実際にサンプルコードによって測定された結果 6.0 5.0 4.0 3.0 2.0.0 0.0.00 ( 正規化された ) マンデルブロー 2.28 5.29 Serial SSE 4.2 AVX2 システム構成 : インテル Xeon プロセッサー E3-270 v3 @ 3.50 GHz (4 コア ハイパースレッディング有効 ) 32.0GB RAM L キャッシュ 256KB L2 キャッシュ MB L3 キャッシュ 8MB Windows Server* 202 R2 Datacenter (64 ビット版 ) コンパイラー オプション: -O3 Qipo QxSSE4.2 (SSE4.2 の場合 ) または -O3 Qipo QxCORE-AVX2 (AVX2 の場合 ) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 8

インテル コンパイラー Visual Studio* ([ ツール ] > [ オプション ]) で設定できる再設計された最適化レポート 9

インテル コンパイラー簡単に利用できる最適化レポート 分かりやすいメッセージ 関数名 データ変数 制御構造への参照 問題のコードをピンポイントで特定 次のステップをアドバイス 例 : 動作を変更するためのオプション プラグマ 節など int size(); void foo(double *restrict a, double *b){ int i; for (i=0;i<size();i++){ a[i] += b[i]; } } icpc c -O3 restrict opt-report x.cpp インテル コンパイラー 5.0: LOOP BEGIN at x.cpp(6,5) remark #5523: loop was not vectorized: cannot compute loop iteration count before executing the loop. LOOP END 最適化レポートは デフォルトで.*.optrpt ファイルに生成されるようになりました 0

OpenMP* 4.0 サポート インテル コンパイラー ユーザー定義のリダクションを除くすべての機能をサポート CANCEL 宣言子 : 最内領域の取り消しを要求 CANCELLATION POINT 宣言子 : 取り消し要求があったかどうかを 暗黙的または明示的なタスクがチェックするポイントを定義 TASK 宣言子の DEPEND 節 : タスク領域の兄弟タスクの依存性を定義することでタスクのスケジュールを制御 複合構造 (TEAMS DISTRIBUTE など ) インテル VTune Amplifier XE OpenMP* のスケーラビリティー解析 ( スライド 24) OpenMP* のスケーラビリティー解析

インテル C++ コンパイラー 5.0 C++ 標準言語機能をフルサポート 仮想関数オーバーライド 継承コンストラクター : struct Derived { using Base::Base; } 例外宣言の廃止 ユーザー定義リテラル Thread_local (C++ セマンティクス ) (Linux* のみ ) C++ ライブラリー機能は プラットフォームの標準 C++ ライブラリーでサポートされている場合のみ利用できます Windows*: msvcrt/libcmt Linux*: libstdc++ OS X*: libc++/libstdc++ 2

インテル Fortran コンパイラーの OpenMP* 4.0 サポート WORKSHARE 宣言子は多くのケースで並列処理を可能にする A = B + C のような単純な配列代入は並列化される A = A + B + C のようなオーバーラップを含む単純な配列代入は並列化される A = A + F (B) のようなユーザー定義関数を含む配列代入は並列化される (F は ELEMENTAL でなければならない ) A = A + B(:4) + C(:4) のような代入文の右辺に配列スライスを含む配列代入は並列化される 左辺の下限 配列スライスの下限 または右辺の配列スライスのストライドが でない場合は並列化されない 3

Fortran 2003 のパラメーター化された派生型 KIND および長さ無指定の引数型のテンプレートを作成可能 KIND 型引数はコンパイル時定数 長さ引数は実行時定数例 : TYPE humongous_matrix(k, d) INTEGER, KIND :: k = kind(0.0) INTEGER(selected_int_kind(2)), LEN :: d REAL(k) :: element(d,d) END TYPE TYPE(humongous_matrix(8,0000000)) :: giant 4

Fortran 2008 の BLOCK 構文 実行可能な構文に宣言を含めることができる 構文内で宣言された変数はその範囲のローカル変数となる COMMON EQUIVALENCE NAMELIST IMPLICIT は許可されていない SAVE は構文のローカルで許可されている 範囲外の SAVE は BLOCK に影響しない ラベルと書式はローカルではない スレッドローカルな DO CONCURRENT で便利 5

Fortran の BLOCK 構文例 BLOCK 構文例 IF (swaxpy) THEN BLOCK REAL(KIND(x)) tmp tmp = x x = y y = tmp END BLOCK END IF F08: BLOCK を含む DO CONCURRENT の例 DO CONCURRENT (I = :N) BLOCK REAL T T = A(I) + B(I) C(I) = T + SQRT(T) END BLOCK END DO BLOCK を使用せずに各反復でローカルな (threadprivate) 一時変数を作成することはできない 6

ライブラリー製品について

インテル MKL.2 の新機能 クラスター直接法スパースソルバー : インテル MKL の PARDISO が拡張され クラスター上で大規模なスパース連立方程式の解を算出 小さな行列乗算 : 小さな問題サイズ (20x20 未満 ) において平均.3 倍のパフォーマンス向上を達成 BLAS DFT VML の最適化を含む次世代のインテル アドバンスト ベクトル エクステンション 52 ( インテル AVX-52) 命令セットをサポート インテル MKL クックブック : インテル MKL 関数を用いて一般的な演算問題を解くステップを提供 verbose モード : プログラムでのインテル MKL の動作をユーザーが理解できるように支援 詳細なインテル MKL バージョン情報を提供 呼び出された関数と渡された引数を特定 各関数呼び出しで費やされた時間を提供 8

インテル MPI ライブラリー 5.0 最新の標準をサポート (MPI-3.0) 非ブロッキングな集合操作により通信と計算を完全にオーバーラップ 隣接集合操作による通信ネットワークのサポートを強化 キャッシュ コヒーレントなシステムで効率良く動作するように一方向操作が向上 非常に大きなメッセージ (2GB 超 ) をサポートする新しいデータ型の追加 既存の MPI-2.x およびインテル MPI ライブラリー 4.x アプリケーションとの下位互換性 9

スピードアップ ( 倍 ) 2.2 2.5 3. 2.9 3.4 スピードアップ ( 倍 )..6 2.0.9.8 インテル MPI ライブラリーでレイテンシーを軽減してより高速なパフォーマンスを実現 インテル MPI ライブラリー 5.0 による優れたパフォーマンス 92 プロセス 8 ノード (InfiniBand* + 共有メモリー ) Linux* 64 相対 ( 相乗平均 ) MPI レイテンシー ベンチマーク ( 数値が大きいほど高性能 ) インテル MPI ライブラリー 5.0 による優れたパフォーマンス 64 プロセス 8 ノード (InfiniBand* + 共有メモリー ) Linux* 64 相対 ( 相乗平均 ) MPI レイテンシー ベンチマーク ( 数値が大きいほど高性能 ) 3.0 2 2.0.0.5 0.5 0.0 4 bytes 52 bytes 6 Kbytes 28 Kbytes 4 Mbytes 0 4 bytes 52 bytes 6 Kbytes 28 Kbytes 4 Mbytes Intel MPI 5.0 Platform MPI 9..2 CE MVAPICH2 2.0rc2 OpenMPI.7.3 Intel MPI 5.0 MVAPICH2-2.0 RC2 システム構成 : ハードウェア : CPU: デュアルインテル Xeon プロセッサー E5-2697v2@2.70Ghz 64GB RAM インターコネクト: Mellanox Technologies* MT27500 Family [ConnectX*-3] FDR ソフトウェア: RedHat* RHEL 6.2; OFED 3.5-2; インテル MPI ライブラリー 5.0 インテル MPI ベンチマーク 3.2.4 ( デフォルトのパラメーター ; インテル C++ コンパイラー XE 3.. Linux* 版でビルド ); 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 システム構成 : ハードウェア : インテル Xeon プロセッサー E5-2680 @ 2.70GHz RAM 64GB; インターコネクト : InfiniBand* ConnectX* アダプター ; FDR MIC: C0-KNC 238095 khz; 6 コア RAM: カードごとに 5872MB ソフトウェア: RHEL 6.2 OFED.5.4. インテル MPSS 3.2 インテル C/C++ コンパイラー XE 3.. インテル MPI ベンチマーク 3.2.4 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 20

解析ツールについて

インテル VTune Amplifier XE 205 の新機能 パフォーマンス プロファイラー 優れたデータ解析 OpenMP* スレッドのパフォーマンスをチューニング CSV インポートによりデータを統合 タイムラインのグループ化 任意のプログラム単位で解析 簡単な使用 OS X* - Mac* 上で Windows* または Linux* データを解析 Linux* システムのデータを簡単にリモート収集 Linux* - 自動ドライバーリビルドによる容易な管理 より多くの CPU および GPU プロファイル データ インテル TSX のトランザクション解析 Windows* での GPU オフロードのチューニング Windows* での OpenCL* カーネルのチューニング 最新のプロセッサーおよび OS のサポート OpenMP* のスケーラビリティー解析 OS X* からのリモート解析 GPU オフロードとインテル TSX 同期のチューニング OS X* でデータ収集はできません 22

OS X* ホストのサポートインテル VTune Amplifier XE OS X* でのホストの実行 Linux* からのデータを解析 Windows* からのデータを解析 OS X* でのローカルデータ収集は不可 追加料金なし 別途ダウンロード Windows* 版または Linux* 版のライセンスで利用可能 簡単なリモート収集 Linux* リモートに SSH 接続 23

OpenMP* のスケーラビリティー解析インテル VTune Amplifier XE シリアル時間とロード インバランスを特定 シリアル領域で多くの時間を費やしていないか? 並列領域で一部のスレッドがほかよりも極端に速く完了していないか? 領域で時間がかかっているインスタンスを特定してチューニング インテル Xeon プロセッサーおよびインテル Xeon Phi コプロセッサー ベースのシステム インテルと gcc* のランタイム 優れたチューニング データ 並列領域内と並列領域外で費やされた時間 オーバーヘッド スピン時間 インスタンス数を確認 すべてのインスタンスの平均データでは不十分 時間がかかっているインスタンスを選択し その原因を究明 24

ランタイム オーバーヘッド (log) ランタイム オーバーヘッド (log) Windows* および Linux* 上における高速なスレッドチェックインテル Inspector XE 205 な競合およびデッドロック解析 - Linux* ( 数値が小さいほど高性能 ) 高速な競合およびデッドロック解析 - Windows* ( 数値が小さいほど高性能 ) 000 5-3 + 000.8-6 + 00 5.x 00 0 3x 0.3x 0.8x 6.8x 6.7x Intel Inspector XE 203 update 3 7zip blender firefox RHEL 6u3 (64 ビット ) + オープンソース アプリケーション 7zip Blender* Firefox* で検証 実行時間の向上はアプリケーションにより異なることがあります 7zip blender firefox Intel Inspector XE 203 update 3 Intel Inspector XE 205 Windows* 8 (64 ビット ) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします 設定情報 25

メモリー使用量の増加を段階的に診断インテル Inspector XE 205 New! アプリケーションの実行中に メモリー使用量グラフにメモリー使用量の増加が描画される メモリー使用量の増加の原因を選択 対応するコード領域とコールスタックを表示 26

インテル Advisor XE 205 の新機能スレッド設計 / プロトタイプの作成を支援 New! 新しいターゲット プラットフォーム 次のプラットフォーム ベースのモデリング インテル Xeon プロセッサー インテル Xeon Phi コプロセッサー インテル Xeon Phi コプロセッサーを利用可能な領域 インテル Xeon Phi コプロセッサーを利用できない領域 より確実に効率良い設計判断を下すことができる 27

インテル Advisor XE 205 の新機能スレッド設計 / プロトタイプの作成を支援 New! 反復空間のモデリング スライダーを調整して異なるタスクの数と実行時間を検証 情報ゾーン 並列パフォーマンス ロスに関する高レベルの分析 : ロード インバランス 競合 並列ランタイム オーバーヘッドの影響 迅速なプロトタイプの作成により効率良いソフトウェア設計を支援 28

インテル Inspector XE ベンチマークのシステム構成 7zip ベンチマークのシステム構成 SW バージョン : 7zip 9.22beta (Windows*) 9.20(Linux*); Microsoft* Visual Studio* 0.0 (Windows*) GCC* 4.4.6 (Linux* 64 ビット ) GCC* 4.3.4 (Linux* 32 ビット ); ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; Blender* ベンチマークのシステム構成 SW バージョン : Blender* 2.69; インテル C++ コンパイラー 4.0.0; ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; Firefox* ベンチマークのシステム構成 SW バージョン : Firefox* 20.0; Microsoft* Visual Studio*.0 (Windows* 64 ビット ) Microsoft* Visual Studio* 0.0 (Windows* 32 ビット ) GCC* 4.4.6 (Linux*); ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; 29

著作権と商標について 本資料の情報は 現状のまま提供され 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスも許諾するものではありません 製品に付属の売買契約書 Intel's Terms and Conditions of Sale に規定されている場合を除き インテルはいかなる責任を負うものではなく またインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性 商品性に関する保証 第三者の特許権 著作権 その他 知的財産権の侵害への保証を含む ) をするものではありません 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします 204 Intel Corporation. 無断での引用 転載を禁じます Intel インテル Intel ロゴ Intel Core Xeon Intel Xeon Phi Cilk VTune は アメリカ合衆国および / またはその他の国における Intel Corporation の商標です インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 30