Click to edit title

Similar documents
2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し

PowerPoint Presentation

インテル® VTune™ Amplifier XE を使用したストレージ向けの パフォーマンス最適化

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート

システムソリューションのご紹介

PowerPoint プレゼンテーション

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート

VXPRO R1400® ご提案資料

Microsoft* Windows* 10 における新しい命令セットの利用

スライド 1

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート

Mission Statement

バトルカードでゲーマーやエンスージアストへの販売促進

PowerPoint Presentation

Microsoft PowerPoint Quality-sama_Seminar.pptx

Click to edit title

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows : インストール・ガイド

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート

PowerPoint プレゼンテーション

Notices and Disclaimers This document contains information on products, services and/or processes in development. All information provided here is sub

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進

InfiniDB最小推奨仕様ガイド

Hundreds of Thousands of Customers in 190 Countries

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

PowerPoint プレゼンテーション

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft PowerPoint - 1_コンパイラ入門セミナー.ppt

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

(速報) Xeon E 系モデル 新プロセッサ性能について

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版 : インストール・ガイド

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

ムーアの法則 : インテルでは順調に存続中 65nm 2005 製造中 45nm nm nm 2011 * 開発中 15nm 2013 * リサーチ 11nm 2015 * 8nm 2017 * インテルの革新的技術を順次適用予定 2 インテル製品は 予告なく

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) *

MAGNIA Storage Server Configuration Guide

Intel_ParallelStudioXE2013_ClusterStudioXE2013_Introduction.pptx

第 2 世代インテル® Xeon® スケーラブル・プロセッサー向けインテル® VTune™ Amplifier チューニング・ガイド

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

目次 1 はじめに 製品に含まれるコンポーネント 動作環境... 4 オペレーティング システム... 4 Microsoft Visual Studio* 製品 製品のダウンロード 製品版をインストールする場合 評価版を

Microsoft PowerPoint - handai.pptx

インテル® ソフトウェア・カンファレンス福岡 インテル® コンパイラーを使用する際に直面するよくある問題と課題

KSforWindowsServerのご紹介

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

Microsoft Word - SSTC_Intel_Core.doc

Silk Central Connect 15.5 リリースノート

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

IBM Rational Software Delivery Platform v7.0 What's

スライド 1

HP Workstation 総合カタログ

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル Parallel Studio XE 2017 Composer Edition for Fortran Windows* インストール ガイド Rev (2017/06/08) エクセルソフト株式会社

Jackson Marusarz 開発製品部門

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成

HP Workstation 総合カタログ

インテル(R) Visual Fortran コンパイラ 10.0

スレッド化されていないアプリケーションでも大幅なパフォーマンス向上を容易に実現

Veritas System Recovery 16 Management Solution Readme

PowerPoint プレゼンテーション

HP_PPT_Standard_16x9_JP

CELSIUSカタログ(2012年7月版)

Intel® Compilers Professional Editions

StoreEasy 1x40 RAID構成ガイド

議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示 姫野ベンチマークを用いたインテル Xeon Phi

テクニカルホワイトペーパー HP Sure Run HP PC のハードウェア強制されたアプリケーション永続性 HP Sure Run は ハードウェア強制アプリケーション永続化ソリューションで OS の実行中にポリシー適用ハードウェアとの通信を維持する機能を備えています OS 内の HP Sure

2014年春 Power Systems テクニカル・セミナー POWER8超解説

IntelR Compilers Professional Editions

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

Microsoft PowerPoint - Intel Parallel Studio XE 2019 for Live

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

PowerPoint プレゼンテーション

新しい 自律型データ ウェアハウス

Click to edit title

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

Control Manager 6.0 Service Pack 3 System Requirements

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ

CELSIUSカタログ(2012年5月版)

改版履歴 版数 改版 内容 新規作成 Microsoft.NET Framework のダウンロード先 URL を追記 バージョンアップに伴い改版 i

パソコン工房、インテル® Core™ X搭載ハイエンドパソコンをiiyama 4つの∞シリーズにて発売開始

Touch Pen Utility

Windows Server Update Services (WSUS) 設定ガイド Dell EMC PowerEdge タワー型サーバーを活用した Windows 10 パソコンの更新管理設定ガイド デル株式会社 2019 年 4 月 Windows Server 2019 : The ope

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

1

Touch Pen Utility

Touch Panel Settings Tool

本文ALL.indd

Express5800 WSUS 導入セットご紹介資料

Introducing Intel® Parallel Studio XE 2015

ウイルスバスター コーポレートエディション XG システム要件

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

日立アドバンストサーバ「HA8000シリーズ」の2プロセッサーモデル3機種を強化

インテル® VTune™ Amplifier : Windows 環境向けスタートガイド

PowerPoint プレゼンテーション

目次 USBドライバダウンロードの手順...2 USBドライバインストールの手順...3 インストール結果を確認する...19 USBドライバアンインストール / 再インストールの手順...21 USB ドライバダウンロードの手順 1. SHL21 のダウンロードページからダウンロードしてください

世界の技術を日本の品質で すべてはお客様の ベストパートナーであるために 1 2 納入分野 斬 新な 企画 展開力 高 品質 ダックスが持つ つの特長 3 交通機器 金融機器 医療機器 製造機器 工作機器 あらゆる分野へ 高信頼性 3 最 新 最適な 技術と開発 主な開発 生産製品 ダックスは産業用

HP BladeSystem

Transcription:

コードの現代化と最適化 ソフトウェアの最適化において注目すべきこと 2019 年 4 月 isus 編集部すがわらきよふみ

目的 ソフトウェア開発時の最適化において注目すべき点を理解します ソフトウェアの要件を理解します ソフトウェアに影響するハードウェアの機能を評価します 2

盲目の男たちと象 ヒィンドスタンに 盲目の 6 人の男たちがいました 学ぼうという気持ちが強く 象を見に出かけました 全員 目が見えなかったが じっくりと観察すれば心が満たされるだろう と皆が考えていました 男たちは長いこと大声で言い争い それぞれが自分の意見を譲らず それぞれの主張をするだけでした それぞれが正しいところもありますが 誰も全体を捉えていません 3

ソフトウェア開発における盲目の男たち プロセッサー向けのマイクロアーキテクチャー チューニング インテル マイクロアーキテクチャー開発コード名 Nehalem インテル マイクロアーキテクチャー開発コード名 Ivy Bridge インテル マイクロアーキテクチャー開発コード名 Sandy Bridge インテル マイクロアーキテクチャー開発コード名 Haswell インテル マイクロアーキテクチャー開発コード名 Broadwell インテル マイクロアーキテクチャー開発コード名 Skylake インテル マイクロアーキテクチャー開発コード名 Coffee Lake ベクトル化と並列化 など 4

10 年前と現在のプロセッサー インテル マイクロアーキテクチャー開発コード名 Nehalem インテル マイクロアーキテクチャー開発コード名 Skylake 5

ちなみに 似ているところもあれば ちょっと違うところも 出典 : Software Optimization Guide for AMD Family 17h Processors 6

多くの内部的な改良 マイクロオペレーション (μop) キューおよびループストリーム検出器 (LSD) アンラミネーション 非インクルーシブなラスト レベル キャッシュ () スタックポインター追尾 デコード済み命令キャッシュ メモリー ディスアンビゲーション ストア フォワーディング 実行ポート マイクロフュージョン これらの大部分は プログラマーが容易に制御できませんコンパイラーがその役割を果たします 7

あまり変化のないものもある インテル マイクロアーキテクチャー開発コード名 Nehalem キャッシュの階層構造 キャッシュ容量と連想性 インテル マイクロアーキテクチャー開発コード名 Skylake ラインサイズ パフォーマンス特性 8

サーバー アーキテクチャーは進化 Broadwell から Skylake Server へ 9

VEC INT Skylake Server Skylake Server は Skylake をベースに機能強化が行われています インテル AVX-512 実装は Port 0/1 を融合して単一の 512 ビット実行ユニットを構成します Skylake の外部に 2 番目の FMA を追加することで Port 5 は完全な 512 ビットに拡張 L1-D ロードとストアの帯域幅は 2 x 64B ロードと 1 x 64B ストアを可能にするため倍に拡大 Skylake の外部に L2 キャッシュ 768KB が追加 Port 0 Port 1 ALU ALU Shift LEA JMP 2 MUL FMA FMA ALU ALU Shift Shift DIV Port 5 ALU LEA FMA ALU Shuffle Port 6 ALU Shift JMP 1 拡張インテル AVX Skylake 拡張された L2 キャッシュ 開発コード名 Skylake Server : データセンターのワークロード向けに最適化 10

L2 & L3 キャッシュ階層を再構成 これまでのアーキテクチャー 共有 L3 2.5MB/ ( インクルーシブ ) Skylake Server アーキテクチャー 共有 L3 1.375MB/ ( 非インクルーシブ ) L2 (256KB プライベート ) L2 (256KB プライベート ) L2 (256KB プライベート ) L2 (1MB プライベート ) L2 (1MB プライベート ) L2 (1MB プライベート ) オンチップキャッシュは 共有分散型からプライベート ローカル型へ移行 : 共有分散型 共有分散 L3 が主なキャッシュ プライベート ローカル型 プライベート L2 が主なキャッシュとなり 共有 L3 はオーバーフロー キャッシュとして使用 共有 L3 キャッシュは インクルーシブから非インクルーシブへ変更 : インクルーシブ L3 は L2 のすべてのキャッシュラインのコピーを持つ 非インクルーシブ L2 のラインは L3 に存在しない可能性があります Skylake Server のキャッシュ階層をデータセンターでの利用向けに再構成 開発コード名 11

インクルーシブと非インクルーシブ L3 インクルーシブ L3 ( これまでのアーキテクチャー ) L2 256kB 2 3 非インクルーシブ L3 (Skylake Server アーキテクチャー ) L2 1MB 2 3 1. メモリーリードは 直接 L2 に取り込まれ L3 には格納されません 2. L2 からラインが削除される場合 モディファイおよび非モディファイにかかわらずライトバックされます 3. 間で共有されるデータは 以降に L2 ミスを補うため L3 にコピーされます 2.5MB L3 1.375MB L3 データセンターでの利用に合わせて設計および最適化されたキャッシュ階層 : 仮想化では大きなプライベート L2 キャッシュにより干渉を軽減できます 1 メモリー 1 メモリー マルチスレッド化されたワークロードでは (L2 の増加により ) スレッドごとに大きなデータを操作して アンのアクティビティーを軽減できます 開発コード名 12

インクルーシブと非インクルーシブ L3 機能 BDX 1 SKX 2 L2 サイズ (MB/ ) 0.25 1.00 L3 サイズ (MB/ ) 2.50 1.375 L2 + L3 (MB/ ) 2.75 2.375 有効 / ユニークなライン容量 2.50 共有のレベルに応じて 1.375 から 2.375MB 1 Broadwell-EX ( 開発コード名 ) 2 Skylake-EX ( 開発コード名 ) 開発コード名 Skylake Server の非インクルーシブ L3 は これまでの世代と同等の L3 サイズを提供 14

インテル SSE4.2 へ正規化した GFLOPs/GHz GFLOPs, システム電力 周波数 インテル SSE4.2 へ正規化した GFLOPs/ ワット インテル AVX-512 のパフォーマンスと効率 10.00 GFLOPs/ ワット 4000 3000 2000 1000 0 3.1 669 LINPACK パフォーマンス 2.8 2.5 1178 2034 3259 2.1 760 768 791 767 SSE4.2 AVX AVX2 AVX512 GFLOPs 電力 (W) 周波数 (GHz) 1.00 4 3 2 1 0 Source as of June 2017: Intel internal measurements on platform with Xeon Platinum 8180, Turbo enabled, UPI=10.4, SNC1, 6x32GB DDR4-2666 per CPU, 1 DPC. Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. 10.00 インテル AVX-512 は劇的なパフォーマンスと効率のゲインを提供 5.00 0.00 5.00 0.00 1.00 1.74 GFLOPs/GHz 1.95 2.92 3.77 4.83 SSE4.2 AVX AVX2 AVX-512 7.19 SSE4.2 AVX AVX2 AVX-512 15

インテル Core プロセッサー 32KB L1D 256KB L2 32KB L1I 統合グラフィックス 共有 この図は一般的な CPU レイアウトを示しており ここで説明する概念の理解に役立ちます マイクロアーキテクチャーを正確に表現するものではありません システム エージェントメモリーと I/O GPU 16

インテル Xeon プロセッサー E5 ファミリー QPI IO QPI Sbo Sbo 256KB L2 32KB L1D 32KB L1I Sbo Sbo ホーム エージェント ホーム エージェント 17

メモリー制御 Skylake Server のサブ NUMA クラスタリング 1MB L2 ソケット間リンク I/O I/O I/O I/O ソケット間リンク 32KB L1D 32KB L1I メモリー制御 開発コード名 18 18

インテル マイクロアーキテクチャー Skylake Server のサブ NUMA クラスタリング サブ NUMA クラスタリング (SNC) は ラスト レベル キャッシュ () からメモリーへの平均レイテンシーを改善するモードです これは 以前の世代のインテル Xeon プロセッサー E5 ファミリーにおけるクラスターオンダイ (COD) の実装を置き換えるものです 単一のウルトラ パス インターコネクト (UPI) キャッシュ エージェントが必要です リモートクラスターへのメモリー アクセス レイテンシーは小さく UPI フローは必要ありません でラインが複製されることはないため の容量をより効率良く利用できます リモートクラスターのアドレスがローカルクラスターの にキャッシュされることがないため クラスターオンダイ (COD) 方式に比べレイテンシーが大きくなることがあります 開発コード名 19

NUMA は重要 ベースのアーキテクチャーを理解しましょう AMD Ryzen* Threadripper 2970WX と 2990WX ( 英語 ) インテル Xeon W-3175X プロセッサー 引用 : https://community.amd.com/community/gaming/blog/2018/10/05/previewingdynamic-local-mode-for-the-amd-ryzen-threadripper-wx-series-processors ( 英語 ) 20

皆さんのアプリケーションに影響しそうなアーキテクチャーの変更は見つかりましたか? 21

への集約 トレードオフ 一般的にプロセッサーには多くの用途があります モバイル ( ラップトップ ) デスクトップ サーバー /HPC ワークロードは? トレードオフ? 22

への集約 トレードオフ モバイル ( ラップトップ ) 2 ~ 4 の選択肢があり スケーラブルなキャッシュを搭載すること CPU と GPU の TDP 電力が低いこと 平均消費電力が低いこと スリープ状態の消費電力が低いこと 稼働中は低い電圧で電力効率を高める 低コスト 積極的な動的電力管理 デスクトップサーバー /HPC ワークロードは? - 生産性アプリ メディアトレードオフ? 23

への集約 トレードオフ モバイル ( ラップトップ ) デスクトップ 2 ~ 8 の選択肢があり スケーラブルなキャッシュを搭載すること メディア処理 ハイエンドゲームのパフォーマンス ( 高性能 CPU と GPU) 適度な DRAM 帯域幅 低コスト ( 容易な換装 ) 優れたシングルスレッドのパフォーマンス サーバー /HPC ワークロードは? - 生産性アプリ メディア ゲーム トレードオフ? 24

への集約 トレードオフ モバイル ( ラップトップ ) デスクトップサーバー /HPC さらに多くの物理アドレスビット ( 高速アドレス検索 広範囲 電力 ) 多くの RAS 機能 ( キャッシュ ECC TLB など ) 大きなキャッシュ TLB BTB 複数ソケッスヌープなど 高速ロックとマルチスレッド最適化 さらに多くの DRAM チャンネル ( 帯域幅と容量 ) メニー (10 以上 ) NUMA ワークロードは? - ワークステーション サーバーアプリ トレードオフ? 25

アプリケーションが要求するリソースは? 26

ここで盲目の男たちと象を思い出してみましょう 伝統的にインテル社のプロセッサーが持つ特性 モバイル : 低消費電力 低めのプロセッサー周波数 2 から 4 物理 ( あたり 1.5M の ) 1 から 2 のメモリースロットデスクトップ : 低消費電力 最高のプロセッサー周波数 2 から 8 物理 ( あたり 2M の ) 2 から 4 のメモリースロットサーバー : 多くの物理最大 28 ( あたり 2M の ) と複数ソケット デスクトップほどは高くないプロセッサー周波数 8 本以上のメモリースロット 27

最近のちょっとした変化第 8 世代と第 9 世代プロセッサーの違い 第 9 世代インテル Core i9/i7/i5 プロセッサー製品仕様 第 7 8 世代インテル Core i7/i5 プロセッサー製品仕様 モデル Core i9-9900k Core i7-9700k Core i5-9600k モデル Core i7-8700k Core i7-7700k Core i5-8600k / スレッド 8/16 8/8 6/6 キャッシュ 16MB 12MB 9MB ベースクロック 3.60GHz 3.60GHz 3.70GHz TB 時最大 5.00GHz (1/2 Core) 4.90GHz (1 Core) 4.60GHz (1 Core) 対応メモリー DDR4 2666 DDR4 2666 DDR4 2666 TDP 95W 95W 95W ソケット LGA1151 LGA1151 LGA1151 / スレッド 6/12 4/8 6/6 キャッシュ 12MB 8MB 9MB ベースクロック 3.70GHz 4.20GHz 3.60GHz TB 時最大 4.70GHz (1/2 Core) 4.50GHz (1/2 Core) 4.30GHz (1 Core) 対応メモリー DDR4 2666 DDR4 2400 DDR4 2666 TDP 95W 91W 95W ソケット LGA1151 LGA1151 LGA1151 さて 次世代ではどのように 28

パフォーマンスに直結するプロセッサーの機能 SIMD 命令セット SSE2 SSE3 SSSE3 SSE4.1 SSE4.2 AVX AVX2 AVX-512 数 2 4 6 8 28 メモリー構造とキャッシュ階層 メモリー帯域幅 NUMA とマルチソケット コンパイル時の最適化オプションや コードを変更することで利点が得られます 29

Parallel + SIMD は前進への鍵 インテル Xeon プロセッサーは 両者とも並列性を高めています インテル Xeon プロセッサー 64 ビット インテル Xeon プロセッサー開発コード名 Woodcrest EP インテル Xeon プロセッサー開発コード名 Nehalem EP インテル Xeon プロセッサー開発コード名 Westmere EP インテル Xeon プロセッサー開発コード名 Sandy Bridge EP インテル Xeon プロセッサー開発コード名 Ivy Bridge EP インテル Xeon プロセッサー開発コード名 Haswell EP インテル Xeon プロセッサー開発コード名 Skylake Server 1 2 4 6 8 12 18 28 スレッド 2 2 8 12 16 24 36 56 SIMD 幅 128 128 128 128 256 256 256 512 さらに多いさらに多くのスレッドより広いベクトル OpenMP* は Parallel + SIMD を前進させる最も重要な機能の 1 つ * ark.intel.com で公開されている出荷済の製品仕様 30

Think Parallel or Perish あれから 10 年 https://www.isus.jp/file/pu/parallel_mag_issue1_j.pdf 31

Vectorize or Die Think Parallel or Perish Code Modernization https://jp.xlsoft.com/documents/intel/magazine/intel_paralleluniverse_issue22_jpn.pdf 32

スレッド並列 Code Modernization ( コードのモダン 化 ) マルチ プロセッサー 大きなキャッシュ 高帯域プロセッサー間通信 高速 I/O 高速メモリー メニー プロセッサー 33

マルチレベルの並列性を実装する 5 つのステップ ステージ 2: 5: 4: 1: 3: スカラーとシリアルの最適化マルチからメニーへスケール並列化最適化ツールとライブラリーの活用ベクトル化 http://www.isus.jp/article/article-parallel/what-is-code-modernization/ 34

ここまでのまとめ : 並列処理とは パイプライン MPI が注目する並列処理 OpenMP* が注目する並列処理 プロセス スレッド化 ベクトル化 17 53 37 4 63-9 42 81 80 44 79 85 スレッド Main () スレッドスレッド コード データ スレッド Main () スレッドスレッド コード データ 35

オンラインのライブセミナー isus では定期的にオンラインのライブセミナーを開催中です https://www.isus.jp/products/psxe/webinar-2018/ 2018 年秋のシリーズ ( 録画も公開中 ) 日時 ( 日本時間 ) タイトル内容対象レベル インテル VTune Amplifier 2019 によるアプリケーションのパ 11 月 26 日 ( 月 ) 11:00am 12:00pm インテル VTune Amplifier 2019 活用パート 2 フォーマンス解析例を使用して ツールが表示する情報を理解するアプリケーションの最適化に注目する開発者向け 方法を紹介します 11 月 9 日 ( 金 ) 11:00am 12:00pm インテル VTune Amplifier 2019 の新機能活用 インテル VTune Amplifier 2019 の一新されたユーザー インターフェイスと関連する機能について説明します アプリケーションの最適化に注目する開発者向け 11 月 1 日 ( 木 ) 10:05am 11:00am 最新のインテルインテルの最新プロセッサーとソフトウェア開発製品のアッ現代のニーズに応えるためにインテルが拡張している最新ハードアーキテクチャーとその開発環境について知りたい方 インテル技術と製品 およびそれらをサポートするためのソフトウェア開発アーキテクチャーやインテプデートルの展開する最新製品を用いた機器のパフォーマンス用のツールについてご説明します 向上のための情報に関心のある方向け 10 月 19 日 ( 金 ) 1:00pm 2:00pm インテル Advisor 2019 の新機能の活用 インテル Advisor 2019 の新機能を使用した整数 / 浮動小数点演算を行うアプリケーションの解析とキャッシュを考慮したメモリーアクセスの解析方法を紹介します 10 月 12 日 ( 金 ) 1:00pm 2:00pm インテル C/C++ および Fortran コンパイラーの OpenMP* インテル コンパイラー バージョン 19.0 でサポートされる機能レビュー Part 2 OpenMP* 5.0 の機能を確認します インテル 9 月 28 日 ( 金 ) 1:00pm 2:00pm C/C++ および Fortran コンパイラーの OpenMP* インテル コンパイラー バージョン 19.0 でサポートされる機能レビュー Part 1 OpenMP* 5.0 の機能を確認します アプリケーションのベクトル化効率とメモリーアクセスの最適化に注目する開発者向け OpenMP を使用して C/C++ または Fortran で開発を行う開発者向け OpenMP を使用して C/C++ または Fortran で開発を行う開発者向け isus が独自に開発したインテル Advisor 2018 の日本語版コンインテル Advisor 2018 を導入済みの開発者 または 9 月 22 日 ( 土 ) 9:00am 10:00am インテル Advisor 2018 日本語版の紹介と 2019 の新機能ポーネントの導入方法とインテル Advisor の概要 およびインテルベクトル化やスレッド化向けに支援ツールを検討され Advisor の今後の日本語版開発の動向をお知らせします ている開発者向け 9 月 14 日 ( 金 ) 9:30am 10:30am インテル Parallel Studio XE 製品の次期バージョンの案内 今後発売される予定の インテル Parallel Studio XE 製品の次期バージョンを インテル Parallel Studio XE 2019 ベータ版の新機能を参考にご紹介します すでにインテル ソフトウェア開発製品を導入されている開発者向けに 新バージョンの新機能や改善点を紹介します 36

インテル ソフトウェア開発ツール日本語版パッケージを提供中 インテル Advisor 2018 update 1,2,3 インテル Advisor 2019 Initial, update 1,2 https://www.isus.jp/products/advisor/advisor_jp/ インテル VTune Amplifier 2019 Initial, update 1, 2 https://www.isus.jp/products/vtune/vtune_jp/ インテル 64 アーキテクチャーおよび IA-32 アーキテクチャー最適化リファレンス マニュアル ( 参考訳最新 040 版 ) 公開中のインテル Parallel Universe マガジン日本語版 37

Intel インテル Intel ロゴ Intel Inside ロゴは アメリカ合衆国および / またはその他の国における Intel Corporation またはその子会社の商標です * その他の社名 製品名などは 一般に各社の商標または登録商標です インテル ソフトウェア製品のパフォーマンス / 最適化に関する詳細は Optimization Notice ( 最適化に関する注意事項 ) を参照してください 2019 Intel Corporation. 無断での引用 転載を禁じます Copyright 2019 isus 38