スライド 1

Size: px
Start display at page:

Download "スライド 1"

Transcription

1 ATI Stream SDK による 天文 物理計算の高速化 会津大学中里直人

2 計算事例 : 重力 N 体計算 No.2

3 プログラム :N 体の重力計算 (1) No.3 既存のアルゴリズムやアプリケーションを CAL で実装するには 前提として 並列計算可能な問題でなくては 利用する意味がない GPU のアーキテクチャにあわせて アルゴリズムを変更する必要あり GPU のメモリに合わせた 効率のよいデータ構造を考える必要あり 以下 例題として 重力多体問題の計算を実装した場合を説明

4 プログラム :N 体の重力計算 (2) No.4 計算すべきモノ : 重力加速度とポテンシャル a ( m r i j ( r r j i 2 r j ) 2 ) 3/ 2 p ( r i m r j j 2 2 ) 1/ 2 入力 : 位置ベクトルと質量 ベクトル 3 成分 + スカラー 1 出力 : 加速度ベクトルとポテンシャル ベクトル 3 成分 + スカラー 1

5 プログラム :N 体の重力計算 (3) No.5 データ構造 (array of structure) 入力 : (x,y,z,w) の 4 成分を 1 粒子にわりあて 単精度浮動小数点変数を利用 ホスト上 x[n], y[n], z[n], m[n] GPU メモリ上 x[0] y[0] z[0] m[0] x[1] y[1] z[1] m[1] x[2] y[2] z[2] m[2] x[0] y[0] z[0] m[0] x[1] y[1] z[1] m[1] x[2] y[2] z[2] m[2] x[0] y[0] z[0] m[0] x[1] y[1] z[1] m[1] x[2] y[2] z[2] m[2] x[0] y[0] z[0] m[0] x[1] y[1] z[1] m[1] x[2] y[2] z[2] m[2] 出力 : (x,y,z,w) の 4 成分を 1 粒子にわりあて ホスト上 ax[n], ay[n], az[n], p[n] GPU メモリ上 ( 入力と同様 ) ax[0] ay[0] az[0] p[0] ax[1] ay[1] z[1] p[1] ax[2] ay[2] az[2] p[2]

6 プログラム :N 体の重力計算 (4) No.6 ループ計算の詳細 1. r i (x,y,z,m) を読み込む (1 回のみ ) 2. r j を読み込む 3. r i とr j の間の相互作用を計算する a 4. 結果を積算する 以上の 2 から 4 の繰り返し ( m r i j ( r r j i 2 r j ) 2 ) 3/ 2

7 プログラム :N 体の重力計算 (5) No.7 ループによる計算部分 whileloop ige r88.x, r100.x, r77.x break_logicalnz r88.x sample_resource(0)_sampler(0) r0, r2 sub r5.xyz, r0.xyz, r4.xyz dp4 r6, r5, r5 rsq r7, r6 mul r8, r7, r7.xyz1 mul r8, r8, r7.xyz1 mul r9, r8, r5.xyz1 mad r3, r9, r0.w, r3 add r2.x, r2.x, l1.x iadd r100.x, r100.x, l0.z umod r101.x, r100.x, r77.y if_logicalz r101.x add r2.0y, r2.0y, l1.x endif endloop loop 終了判定 相互作用計算 index 更新

8 プログラム :N 体の重力計算 (6) No.8 相互作用計算の注意点 2 2 r i r j dp4 によるの計算 rsq による x -0.5 の計算 r2.xy によるデータ読み込み GPU メモリを 2 次元メモリとして定義しているので r2.xy を正しく update する必要がある x,y の update pattern (domain = {10,10}) 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 GPU 上の粒子メモリの構造

9 プログラム :N 体の重力計算 (7) No.9 IL プログラム全体 il_ps_2_0 dcl_input_interp(linear) v0.xy dcl_output_generic o0 dcl_cb cb0[1] dcl_resource_id(0)_type(2d,unnorm)_fmtx(float)_fmty(float)_fmtz(float)_fmtw(float) dcl_literal l0, 1.0, 0x0, 0x1, 1.0 mov r100.0, r100 mov r2.00, r2 mov r3.0000, r3 ftoi r77.xy, cb0[0].zw mov r5. w, cb0[0].y sample_resource(0)_sampler(0) r4, v0.xy whileloop ige r88.x, r100.x, r77.x break_logicalnz r88.x sample_resource(0)_sampler(0) r0, r2 sub r5.xyz, r0.xyz, r4.xyz dp4 r6, r5, r5 rsq r7, r6 mul r8, r7, r7.xyz1 mul r8, r8, r7.xyz1 mul r9, r8, r5.xyz1 mad r3, r9, r0.w, r3 add r2.x, r2.x, l0.x iadd r100.x, r100.x, l0.z umod r101.x, r100.x, r77.y if_logicalz r101.x add r2.0y, r2.0y, l0.x endif endloop mov o0, r3 ret_dyn end

10 プログラム :N 体の重力計算 (8) No.10 ホストプログラムの流れ 1. 初期化 データ読み込み GPUメモリの設定 2. 座標データの送信 3. GPU kernelの実行 4. kernel 終了待ち 5. 結果を回収 6. 積分して新しい座標を得る 以上の 2 から 6 を繰り返し実行

11 プログラム :N 体の重力計算 (9) No.11 性能の測定 (Radeon 4870) ボードのピーク性能 : ~ 1.2 TFLOPS 160 (VLIW units) x 5 (FP units) x 2 (FPMAD) x 750 (MHz) ~ 1200 GFLOPS 積和演算 (FPMAD) A = αb + C (2 浮動小数点演算 ) 1 interaction 38 演算で count した実測値 ~ 200 GFLOPS 全命令で積和演算の活用は不可能 4 要素の演算になっていない部分がある

12 プログラム :N 体の重力計算 (10) No.12 VLIW 命令の解析 CAL APIによりVLIW 命令を取得可能 VLIWのスロットが多く埋まるほど性能が高い slot 命令数 割合 (%) 計 19 おおよそ 50% は効率が 2 割以下

13 N 体計算の最適化 (1) No.13 高速化の余地 今の実装は array of structure を利用 個々のkernelが1 粒子を担当 1 粒子読み込み 1 粒子の計算 one iterationで1 相互作用を計算 計算数 / メモリの比率が小さい 4 要素のベクトル SIMD 命令が効率的でない Structure of Array にすると 個々のkernelが4 粒子を担当 4 粒子読み込みして 4 x 4 = 16 相互作用 計算数 / メモリの比率が大幅増加 ベクトル SIMD 命令が少し効率的になる

14 N 体計算の最適化 (2) No.14 1 度に 1 相互作用 (AoS 構造の場合 ) 1 度に 4 相互作用 (AoS でアンローリング )

15 N 体計算の最適化 (3) No.15 1 度に 16 相互作用 (SoA でアンローリング ) Structure of Arrayに変更 個々のTPが4 粒子を担当 イテレーションごとに4 粒子読み込み メモリ読み出しあたりの演算量が増加する

16 N 体計算の最適化 (4) No.16 最適化結果 slot 命令数 割合 (%) 計 19 slot 命令数 割合 (%) 計 81 VLIW 命令の実行効率が大幅に増加 演算性能は約 4 倍 (~ 800 Gflops)

17 N 体計算の最適化 (5) No.17 ループ制御構造の最適化 slot 命令数 割合 (%) 計 81 slot 命令数 割合 (%) 計 66 命令数の削減と効率の更なる向上 さらに 20% ほど性能が向上

18 N 体計算の最適化 (6) No.18 結果のまとめ 最新 GPU における性能 ~ 2.6 Tflops

19 計算事例 : 高精度数値積分 No.19

20 高精度演算の必要性 No.20 倍精度では十分ではない問題 条件数が非常に大きい (>10 16 ) 行列 メッシュを再帰的に分割するAMR 分割数が 50 以上となると倍精度では不足 ファインマンループの数値積分 二重指数関数型積分公式 ε 算法 精度の足りない例 : ~1.1726@ 倍精度 a b f b 6 a 2 (11a 2 b 2 b 6 121b 4 2) 5.5b 8 a 2b

21 高精度演算の実現 No.21 整数演算でエミュレーション 2 進数による浮動小数点演算をそのまま実装 仮数部を整数配列で表現 単純な実装では分岐命令が多くなる FP 演算でエミュレーション Knuth (1969), Dekkar (1971) 数値をFP 変数の和と考える A ai :( a1 a a b a 1.0, b a n )

22 FP 演算でエミュレーション No.22 四倍精度 (DD) 演算の場合 変数 2つの倍精度変数で表現 精度仮数部 106 bit, 指数部 11 bit 加算 20 回の倍精度演算 演算密度 5.0 演算 /1 語読み出し 乗算 23 回の倍精度演算 演算密度 5.7 演算 /1 語読み出し 演算密度が高いため GPU での計算にむいている キャッシュありの現代の CPU にも向いている?

23 DD 演算の CPU での性能 No.23 CPU での演算性能まとめ 加算の場合で Mflops 乗算の場合で Mflops 演算器のレイテンシがボトルネック x86 アーキテクチャでは論理レジスタが少ないため ループアンローリングは効かない

24 GPU での DD 計算 (1) No.24 IL により実装 IL は VLIW の機械語に翻訳される 以下 VLIW 命令数での結果 加算 21 step 乗算 25 step 除算 53 step 性能予測 750 MHz 時秒間 1.2x10 11 個の VLIW 命令 加算, 乗算, 除算 : 5.7, 5.2, 2.3 Gflops

25 GPU での DD 計算 (2) No.25 単独演算での VLIW スロットの分布 命令 5 slots 4 slots 3 slots 2 slots 1 slots 計 加算 乗算 除算 演算器の利用率が低いため 演算性能が低めになっている 演算が連続するとスロットがより埋まるため 演算性能が向上すると予測される

26 高精度演算の応用例 No.26 ファインマンループの積分 素粒子衝突実験の検証に必要とされる 情報落ちが発生するため倍精度では困難 多重積分を100 万組のパラメータについて計算 一例では 5.5x10 16 FP operations

27 実性能の評価 (1) No.27 我々が開発中のコンパイラによる結果 ILコードは 555 行 VLIW 命令は481 step 81% は 4または5 slotsが埋まっている 命令融合の効果を確認 利用レジスタ数は 39 個 性能向上の余地がある slot 命令数 割合 (%) 計 481

28 実性能の評価 (2) No.28 CPU, GPU, GRAPE-DR において 級数の項数を変化させて 実機で計算した CPU ~ 80 Mflops GPU ~ Gflops ( 経過時間 sec ) I/Oが高速のためN 依存が小さい 倍精度演算器の利用率 ~ Gflops 相当

29 計算事例 : 複雑な N 体計算 No.29

30 実用的な N 体計算 No.30 O(N 2 ) アルゴルリズムは 演算精度がフルに必要な場合のみ利用 必ずしも高精度は必要ない N ~ 100 k くらいまでに実用的 近似的だが高速な計算方法 O(N log N) アルゴリズム Particle-Mesh method (FFT based) Oct-tree method O(N) アルゴリズム Fast-Multipole Method

31 Oct-tree Method No.31 ツリーデータ構造を利用して 遠方の粒子集団を多重極モーメントに置き換える n 個を置き換えると演算量を 1/n にできる O(N log N) の演算量 << O(N 2 )

32 ツリーデータ構造 No.32

33 No.33 Program Flow of Oct-tree Method 1. ツリーデータ構造の構築 ツリーはノード ( 複数粒子 ) と粒子からなる 2. ツリーを根から走査して 個々のノードの多重極を計算 3. それぞれの粒子に対して 1. ツリーを根から走査する 1. もし対象が粒子なら 力の計算 2. もし対象がノードなら 置換条件をテストして力の計算 またはノードの子ノードを走査する

34 Oct-tree on GPU No.34 第 3 ステップを GPU に実装した 個々の粒子に対するツリー走査は並列計算可能 GPU での効率よく動作する可能性がある ツリー法のベクトル化と同等の手法 単純な N 体手法との大きな違いは メモリアクセスが一様から ランダムになること 重力計算以外にも応用あり Coulomb force short-range MD force Hydrodynamics (SPH) Any algorithm required neighbor particles

35 Flow of Oct-tree on GPU No ツリーデータ構築 2. 多重極計算 3. ツリーデータを GPU メモリに書き込み 4. 個々の粒子について (on GPU) 1. ツリーを走査して展開条件をテスト 2. テスト結果に基づき力の計算または更なるツリー走査 5. 結果を GPU メモリから回収する

36 Oct-tree on GPU: 最適化 No.36 データ配置の最適化 粒子の分布を最適化することで性能が向上 キャッシュヒット率

37 キャッシュヒット率の高い粒子配置 No.37 Morton-order

38 Performance No.38

Microsoft PowerPoint - CAL1

Microsoft PowerPoint - CAL1 AMD GPU プログラミング N.Nakasato GPU のプログラミング (1)! 2000 年頃以降 " programable shader が搭載されるようになる HLSL, GLSL, Cg 等のシェーディング言語で shader をプログラム可能になった " ただし 制限が多かった " General Purpose GPU programming GPU での汎用計算 (GPGPU)!

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

スライド 1

スライド 1 演算精度に応じた高性能計算を実現するコンパイラの提案と実装 会津大学中里直人 概要 No.2 問題設定 アクセラレータの紹介 問題特化型のコンパイラ 性能評価 GRAPE-DRでの性能評価 RV770での性能評価 他の応用例 発展のアイデア Grand Challenge problems No.3 Grand Challenge problems No.4 Simulations with very

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長計算手法 平成 年度第 四半期 今回はパラメータ の設定と精度に関してまとめて記述しました ループ積分と呼ばれる数値積分計算では 質量 の光子や質量が非常に小さい事はわかっているが その値は不明なニュートリノに対して赤外発散を防ぐため微小量を与えて計算しています この設定する微少量の値により 結果の精度及び反復に要する時間が大きく作用したり 誤った値を得る事があります ここでは典型的な つのケースで説明します

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - qcomp.ppt [互換モード] 量子計算基礎 東京工業大学 河内亮周 概要 計算って何? 数理科学的に 計算 を扱うには 量子力学を計算に使おう! 量子情報とは? 量子情報に対する演算 = 量子計算 一般的な量子回路の構成方法 計算って何? 計算とは? 計算 = 入力情報から出力情報への変換 入力 計算機構 ( デジタルコンピュータ,etc ) 出力 計算とは? 計算 = 入力情報から出力情報への変換 この関数はどれくらい計算が大変か??

More information

アクセラレータのデモと プログラミング手法

アクセラレータのデモと プログラミング手法 アクセラレータのデモと プログラミング手法 会津大学中里直人 アクセラレータボードを使った高速化スクール 2009/12/07 アクセラレータとは (1) ホスト計算機を補佐して特定の計算を高速化する計算機デバイス ホスト (CPU) で動作するプログラムを補佐 アクセラレータの例 Cell/PowerXCell8iブレード ボード : 計算 GPU ボード (NVIDIA, AMD, S3) :

More information

( ) ( ) HPC SPH FPGA Web http://galaxy.u-aizu.ac.jp/trac/note/ : 1 4 : 2 6 : 3 6 GPU : ~ 100 1000 : ~ 1000-100000 Google : ~ 10000 : ~ 100000000 GPU, Cell, FPGA GRAPE-DR/GRAPE-MP ( ) GPU GPU : Matsumoto,

More information

N 体問題 長岡技術科学大学電気電子情報工学専攻出川智啓

N 体問題 長岡技術科学大学電気電子情報工学専攻出川智啓 N 体問題 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 天体の運動方程式 天体運動の GPU 実装 最適化による性能変化 #pragma unroll 855 計算の種類 画像処理, 差分法 空間に固定された観測点を配置 観測点 ( 固定 ) 観測点上で物理量がどのように変化するかを追跡 Euler 型 多粒子の運動 観測点を配置せず, 観測点が粒子と共に移動 Lagrange 型 観測点

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

FIT2018( 第 17 回情報科学技術フォーラム ) CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel

FIT2018( 第 17 回情報科学技術フォーラム ) CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel processing 八木武尊 長谷川秀彦 石渡恵美子 Hotaka Yagi Hidehiko Hasegawa Emiko Ishiwata 1. はじめに

More information

sinfI2005_VBA.doc

sinfI2005_VBA.doc sinfi2005_vba.doc MS-ExcelVBA 基礎 (Visual Basic for Application). 主な仕様一覧 () データ型 主なもの 型 型名 型宣言文字 長さ 内容 整数型 Integer % 2 バイト -32,768 32,767 長整数型 Long & 4 バイト -2,47,483,648 2,47,483,647 単精度浮動小数点数 Single 型!

More information

プログラミング実習I

プログラミング実習I プログラミング実習 I 03 変数と式 人間システム工学科井村誠孝 m.imura@kwansei.ac.jp 3.1 変数と型 変数とは p.60 C 言語のプログラム中で, 入力あるいは計算された数や文字を保持するには, 変数を使用する. 名前がついていて値を入れられる箱, というイメージ. 変数定義 : 変数は変数定義 ( 宣言 ) してからでないと使うことはできない. 代入 : 変数には値を代入できる.

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

Microsoft PowerPoint SIGAL.ppt

Microsoft PowerPoint SIGAL.ppt アメリカン アジアンオプションの 価格の近似に対する 計算幾何的アプローチ 渋谷彰信, 塩浦昭義, 徳山豪 ( 東北大学大学院情報科学研究科 ) 発表の概要 アメリカン アジアンオプション金融派生商品の一つ価格付け ( 価格の計算 ) は重要な問題 二項モデルにおける価格付けは計算困難な問題 目的 : 近似精度保証をもつ近似アルゴリズムの提案 アイディア : 区分線形関数を計算幾何手法により近似 問題の説明

More information

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt Cell プロセッサへの分子軌道法 プログラムの実装と評価 林徹生 九州大学大学院システム情報科学府九州大学情報基盤センター 本田宏明稲富雄一井上弘士村上和彰九州大学大学院システム情報科学研究院 背景と目的 Cell アーキテクチャ 構成と特徴 分子軌道法プログラム アルゴリズムと特徴 タスク分配法 ( 実装方法 ) 粒度と割り当て 同期方法 評価 評価対象モデル 評価結果 おわりに 発表手順 背景と目的

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 10. 組合せ回路 ( 教科書 3.4~3.5 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 組合せ論理回路 x1 x2 xn 組合せ論理回路 y1 y2 ym y i = f i (x 1, x 2,, x

More information

ソフトウェア基礎技術研修

ソフトウェア基礎技術研修 算術論理演算ユニットの設計 ( 教科書 4.5 節 ) yi = fi (x, x2, x3,..., xm) (for i n) 基本的な組合せ論理回路 : インバータ,AND ゲート,OR ゲート, y n 組合せ論理回路 ( 復習 ) 組合せ論理回路 : 出力値が入力値のみの関数となっている論理回路. 論理関数 f: {, } m {, } n を実現.( フィードバック ループや記憶回路を含まない

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

MS-ExcelVBA 基礎 (Visual Basic for Application)

MS-ExcelVBA 基礎 (Visual Basic for Application) MS-ExcelVBA 基礎 (Visual Basic for Application). 主な仕様一覧 () データ型 ( 主なもの ) 型型名型宣言文字長さ内容整数型 Integer % バイト -, ~, 長整数型 Long & バイト -,,, ~,,, 単精度浮動小数点数型倍精度浮動小数点数型 Single! バイト負値 : -.0E ~ -.0E- 正値 :.0E- ~.0E Double

More information

演習1

演習1 神戸市立工業高等専門学校電気工学科 / 電子工学科専門科目 数値解析 2019.5.10 演習 1 山浦剛 (tyamaura@riken.jp) 講義資料ページ http://r-ccs-climate.riken.jp/members/yamaura/numerical_analysis.html Fortran とは? Fortran(= FORmula TRANslation ) は 1950

More information

パソコンシミュレータの現状

パソコンシミュレータの現状 第 2 章微分 偏微分, 写像 豊橋技術科学大学森謙一郎 2. 連続関数と微分 工学において物理現象を支配する方程式は微分方程式で表されていることが多く, 有限要素法も微分方程式を解く数値解析法であり, 定式化においては微分 積分が一般的に用いられており. 数学の基礎知識が必要になる. 図 2. に示すように, 微分は連続な関数 f() の傾きを求めることであり, 微小な に対して傾きを表し, を無限に

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 応用数理概論 準備 端末上で cd ~/ mkdir cppwork cd cppwork wget http://271.jp/gairon/main.cpp wget http://271.jp/gairon/matrix.hpp とコマンドを記入. ls とコマンドをうち,main.cppとmatrix.hppがダウンロードされていることを確認. 1 準備 コンパイル c++ -I. -std=c++0x

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2018 年度クラス C3 D1 D2 D3 情報科学基礎 I 10. 組合せ回路 ( 教科書 3.4~3.5 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 組合せ論理回路 x1 x2 xn 組合せ論理回路 y1 y2 ym y i = f i (x 1, x 2,, x n ), i

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

復習 プログラミング 1 ( 第 4 回 ) 関数の利用 2 ループ処理 (while 文 ) 1. Chapter の補足 2 1. 関数とローカル変数 2. Chapter 3.1 の補足 1. Iteration, looping ( 反復処理 ) 2. ループ処理の例 実行例 3

復習 プログラミング 1 ( 第 4 回 ) 関数の利用 2 ループ処理 (while 文 ) 1. Chapter の補足 2 1. 関数とローカル変数 2. Chapter 3.1 の補足 1. Iteration, looping ( 反復処理 ) 2. ループ処理の例 実行例 3 復習 プログラミング 1 ( 第 4 回 ) 関数の利用 2 ループ処理 (while 文 ) 1. Chapter 4.1.1 の補足 2 1. 関数とローカル変数 2. Chapter 3.1 の補足 1. Iteration, looping ( 反復処理 ) 2. ループ処理の例 実行例 3. 3 種類の処理流れ制御 3. 演習 4. 宿題 処理の流れは逐次 条件分岐 反復処理の 3 タイプのみ

More information

Microsoft PowerPoint - 7.Arithmetic.ppt

Microsoft PowerPoint - 7.Arithmetic.ppt 第 7 章デジタル演算回路 1 デジタル信号処理音声, 音楽, 通信信号 信号 = 符号付き 2 進データ 負の数値の表現方法 2 2 進数 n ビット n-1 =Σb i 2 i 0 2 の補数 +=2 n n-1 n-1 2 n =1+Σb i 2 i +Σb i 2 i 0 0 n-1 =2 n ー =1+Σb i 2 i 0 3 2 進数の補数 2 の補数 各桁のビットを反転した後で最下位に

More information

図 2 AVX の SIMD レジスタの構造 Figure 2 Architecture of AVX SIMD register 図 1 倍々精度のビット数 Figure 1 Bit pattern of Double-Double precision number る Double-Double

図 2 AVX の SIMD レジスタの構造 Figure 2 Architecture of AVX SIMD register 図 1 倍々精度のビット数 Figure 1 Bit pattern of Double-Double precision number る Double-Double AVX を用いた倍々精度疎行列ベクトル積の高速化 1 菱沼利彰 1 藤井昭宏 1 田中輝雄 2 長谷川秀彦 計算性能の向上に伴い, 高精度による計算が多くの場面で可能となっている.4 倍精度を効率良く実現する手法として,2 つの倍精度変数で 1 つの 4 倍精度変数を表現する倍々精度演算がある. 本研究では, 疎行列とベクトルの演算に使われる基本演算を AVX 命令を用いて高速化し, 性能を決定するパラメタについて分析を行うことにより,

More information

ex04_2012.ppt

ex04_2012.ppt 2012 年度計算機システム演習第 4 回 2012.05.07 第 2 回課題の補足 } TSUBAMEへのログイン } TSUBAMEは学内からのログインはパスワードで可能 } } } } しかし 演習室ではパスワードでログインできない設定 } 公開鍵認証でログイン 公開鍵, 秘密鍵の生成 } ターミナルを開く } $ ssh-keygen } Enter file in which to save

More information

Microsoft PowerPoint - ca ppt [互換モード]

Microsoft PowerPoint - ca ppt [互換モード] 大阪電気通信大学情報通信工学部光システム工学科 2 年次配当科目 コンピュータアルゴリズム 良いアルゴリズムとは 第 2 講 : 平成 20 年 10 月 10 日 ( 金 ) 4 限 E252 教室 中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nakamr@is.naist.jp http://narayama.naist.jp/~y-nakamr/ 第 1 講の復習

More information

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ 4 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プログラミング技術 工業 333 実教出版 ) 共通 : 科目 プログラミング技術 のオリエンテーション プログラミング技術は

More information

< B8CDD8AB B83685D>

< B8CDD8AB B83685D> () 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに アウトオブオーダ処理 工学部講義 はじめに 本講義の目的 の基本を学ぶ 場所 火曜日 8:40-0:0 工学部 号館 4 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書 坂井修一

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

char int float double の変数型はそれぞれ 文字あるいは小さな整数 整数 実数 より精度の高い ( 数値のより大きい より小さい ) 実数 を扱う時に用いる 備考 : 基本型の説明に示した 浮動小数点 とは数値を指数表現で表す方法である 例えば は指数表現で 3 書く

char int float double の変数型はそれぞれ 文字あるいは小さな整数 整数 実数 より精度の高い ( 数値のより大きい より小さい ) 実数 を扱う時に用いる 備考 : 基本型の説明に示した 浮動小数点 とは数値を指数表現で表す方法である 例えば は指数表現で 3 書く 変数 入出力 演算子ここまでに C 言語プログラミングの様子を知ってもらうため printf 文 変数 scanf 文 if 文を使った簡単なプログラムを紹介した 今回は変数の詳細について習い それに併せて使い方が増える入出力処理の方法を習う また 演算子についての復習と供に新しい演算子を紹介する 変数の宣言プログラムでデータを取り扱う場合には対象となるデータを保存する必要がでてくる このデータを保存する場所のことを

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード

More information

る連続なアクセスができるなどの利点がある. 倍々精度浮動小数は, 符号部 1 bit, 指数部 11 bit, 仮数部 14 (52 2) bit からなる. これは符号部 1bit, 指数部 15 bit, 仮数部 112 bit からなる IEEE754 準拠の 4 倍精度と比 べて指数部が 4

る連続なアクセスができるなどの利点がある. 倍々精度浮動小数は, 符号部 1 bit, 指数部 11 bit, 仮数部 14 (52 2) bit からなる. これは符号部 1bit, 指数部 15 bit, 仮数部 112 bit からなる IEEE754 準拠の 4 倍精度と比 べて指数部が 4 AVX2 を用いた倍々精度反復解法の高速化 1 菱沼利彰 1 藤井昭宏 1 田中輝雄 2 長谷川秀彦 大規模数値シミュレーションの核である Krylov 部分空間法は, 丸め誤差により収束に影響を受ける. 高精度演算を用いれば収束を改善できるが, 計算時間が多くかかる. 我々はこれまで,SIMD 拡張命令 AVX を用いて, 高精度演算の 1 つである倍々精度演算を高速化してきた. その成果として,AVX2

More information

を用いて実装している.. 対象となる演算. による実装と高速化 本研究では反復法ライブラリをベースとしたため, 表 に示す演算のみを実装した. ただしこの実装は一般的な用 途にも適用可能なものである. 演算の名称 Name of calculation 表 演算の一覧 Table list of c

を用いて実装している.. 対象となる演算. による実装と高速化 本研究では反復法ライブラリをベースとしたため, 表 に示す演算のみを実装した. ただしこの実装は一般的な用 途にも適用可能なものである. 演算の名称 Name of calculation 表 演算の一覧 Table list of c Vol.-HPC-5 No.6 /8/ 反復法ライブラリ向け倍々精度演算の を用いた高速化 菱沼利彰 田中輝雄 浅川圭介 長谷川秀彦 藤井昭宏 計算性能の向上に伴い, 高精度で計算を行うことが多くの場面で必要になってきている.4 倍精度で効率良く計算する手法の中に, 倍精度変数を つ用いて つの変数の値を保持する倍々精度演算がある. 反復解法ライブリ Lis ではこの倍々精度演算が を用いて実装されている.

More information

簡単な検索と整列(ソート)

簡単な検索と整列(ソート) フローチャート (2) アルゴリズム論第 2 回講義 2011 年 10 月 7 日 ( 金 ) 反復構造 ( 一定回数のループ処理 ) START 100 回同じ処理を繰り返す お風呂で子供が指をおって数を数える感じ 繰り返し数を記憶する変数をカウンター ( 変数名 I をよく使う ) と呼ぶ カウンターを初期化して, 100 回繰り返したかどうか判定してそうならば終了そうでなければ処理を実行して

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 復習 ) 時系列のモデリング ~a. 離散時間モデル ~ y k + a 1 z 1 y k + + a na z n ay k = b 0 u k + b 1 z 1 u k + + b nb z n bu k y k = G z 1 u k = B(z 1 ) A(z 1 u k ) ARMA モデル A z 1 B z 1 = 1 + a 1 z 1 + + a na z n a = b 0

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 仮想マシン (2), コード生成 http://cis.k.hosei.ac.jp/~asasaki /lect/compiler/2007-1204.pdf ( 訂正版 ) 1 概要 仮想マシン 概要 ( 復習 ) 制御命令 出力命令 コード生成 式のコード生成 文 文の列のコード生成 記号表 2 演習で作るコンパイラの例 test.hcc Int main() { int i j; i = 3;

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

太陽系における地球型惑星の水の起源ーー惑星形成の大域シミュレーションーー 小南淳子 ( 東京工業大学地球生命研究所 ) 台坂博 ( 一橋 ) 似鳥啓吾 ( 理研 ) 牧野淳一郎 ( 東工大 )

太陽系における地球型惑星の水の起源ーー惑星形成の大域シミュレーションーー 小南淳子 ( 東京工業大学地球生命研究所 ) 台坂博 ( 一橋 ) 似鳥啓吾 ( 理研 ) 牧野淳一郎 ( 東工大 ) 太陽系における地球型惑星の水の起源ーー惑星形成の大域シミュレーションーー 小南淳子 ( 東京工業大学地球生命研究所 ) 台坂博 ( 一橋 ) 似鳥啓吾 ( 理研 ) 牧野淳一郎 ( 東工大 ) 太陽系 http://www.astroarts.co.jp/news/2006/08/28planet_5/ 惑星の形成シナリオ 微惑星 (~km サイズ ) 暴走成長 寡占成長 原始惑星 ( 火星サイズ

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

コンピュータの仕組み(1)ハードウェア

コンピュータの仕組み(1)ハードウェア Copyright 守屋悦朗 2005 コンピュータの仕組み (1) ハードウェア 2.1 CPU の基本原理 2 つの整数の和を出力するプログラムを考えよう main() { int a, b, c; /* 変数 a,b が整数値をとる変数であることを宣言する */ a = 1; /* a に 1 を代入する */ b = 2; /* b に 2 を代入する */ c = a+b; /* a と

More information

適応フィルタのSIMD最適化

適応フィルタのSIMD最適化 茂木和洋 @ まるも製作所 今回は省略 初めての方は #1 の資料を参照 適応フィルタとは 適応フィルタの問題点 ( 速度面で ) SIMD 比較命令でマスク処理 ベンチマーク 固定のフィルタではなく 入力値によって処理を変更し 最適な結果を求める 例 基準値との差異を閾値と比較して 参照画素として使うか使わないかを切り替える 最小自乗法でフィッティングしてフィルタ係数自体を動的に作成する 他いろいろ

More information

Microsoft Word _VBAProg1.docx

Microsoft Word _VBAProg1.docx 1. VBA とマクロ 1.1 VBA とは VBA(Visual Basic for Applications) は 1997 年に Microsoft 社がマクロを作成するために開発された言語である Windows 対応のアプリケーションを開発するためのプログラミング言語 Visual Basic をもとにしているため 次のような特徴がある 1 VBA は Excel Word, Access,

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 概要 NEC は ビッグデータの分析を高速化する分散処理技術を開発しました 本技術により レコメンド 価格予測 需要予測などに必要な機械学習処理を従来の 10 倍以上高速に行い 分析結果の迅速な活用に貢献します ビッグデータの分散処理で一般的なオープンソース Hadoop を利用 これにより レコメンド 価格予測 需要予測などの分析において

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 数字を扱う変数 目的 整数の型 少数点を含む型 Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) バイト型サイズ :1 バイト範囲 0~255 Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) 長整数型サイズ :4 バイト範囲

More information

enshu5_1.key

enshu5_1.key 情報知能工学演習V (前半第1週) 政田洋平 システム情報学研究科計算科学専攻 TA : 菅 新 菅沼智史 水曜 新行紗弓 馬淵隼 木曜 演習 V( 前半 ) の内容 第 1 週 : 高性能計算 (High Performance Computing = HPC) 向けプログラミングの基礎 第 2 週 : シミュレーションの基礎 第 3 週 : 波の移流方程式のシミュレーション 第 4,5 週 :

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンパイラとプログラミング言語 第 11 週 条件分岐文と繰り返し文のコード生成 2014 年 6 月 18 日 金岡晃 授業計画 第 1 週 (4/9) コンパイラの概要 第 8 週 (5/28) 下向き構文解析 / 構文解析プログラム 第 2 週 (4/16) コンパイラの構成 第 9 週 (6/4) 中間表現と意味解析 第 3 週 (4/23) プログラミング言語の形式的な記述 第 10 週

More information

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc 2.2.3. 書式付 I/O 性能 上智大学南部伸孝富士通株式会社内藤俊也 杉崎由典 1. はじめに I/O 処理に要する時間の内訳は システムの実 I/O 時間 + ランタイムの書式処理時間となっている プログラムを用いた書式付 I/O 時間を富士通コンパイラで評価した所 システム時間が約 12% であり ランタイム時間が約 88% ということが確認された 即ち 書式付 I/O 性能は ランタイムの性能に大きく影響される

More information

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI プロジェクト @ 宮崎県美郷町 熊本大学副島慶人川村諒 1 実験の目的 従来 信号の受信電波強度 (RSSI:RecevedSgnal StrengthIndcator) により 対象の位置を推定する手法として 無線 LAN の AP(AccessPont) から受信する信号の減衰量をもとに位置を推定する手法が多く検討されている

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション シミュレーション基礎 (8) 第 6 章ファイル入出力 7.2 テキストファイルの読み書き ファイルに書き込む : EX70201: X=1:10;Y=[X;X.^2]; Fid=fopen('datal.txt', wt'); fprintf(fid,'%2d%5d n',y); C 言語と同じ手順 : ファイルをオープンするファイルに変数の値を書き込む ( 整数 2 桁, 整数 5 桁, 改行

More information

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ Rev. 2018.01.20 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価 コンピュータの構成装置 中央処理装置 (CPU) 主記憶装置から命令を読み込み 実行を行う 主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する 補助記憶装置

More information

Presentation Title

Presentation Title コード生成製品の普及と最新の技術動向 MathWorks Japan パイロットエンジニアリング部 東達也 2014 The MathWorks, Inc. 1 MBD 概要 MATLABおよびSimulinkを使用したモデルベース デザイン ( モデルベース開発 ) 紹介ビデオ 2 MBD による制御開発フローとコード生成製品の活用 制御設計の最適化で性能改善 設計図ですぐに挙動確認 MILS:

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2008.07.22 今日の内容 ビジュアルサーボのようなリアルタイム応用を考える場合, 画像処理を高速に実装することも重要となる いくつかの基本的な知識を押さえておかないと, 同じアルゴリズムを実行しているのに性能が上がらないということがしばしば生じる 今日は, あくまで普通の

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

PowerPoint Presentation

PowerPoint Presentation 付録 2 2 次元アフィン変換 直交変換 たたみ込み 1.2 次元のアフィン変換 座標 (x,y ) を (x,y) に移すことを 2 次元での変換. 特に, 変換が と書けるとき, アフィン変換, アフィン変換は, その 1 次の項による変換 と 0 次の項による変換 アフィン変換 0 次の項は平行移動 1 次の項は座標 (x, y ) をベクトルと考えて とすれば このようなもの 2 次元ベクトルの線形写像

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンパイラとプログラミング言語 第 10 週 Java 仮想マシンとその機械語 2014 年 6 月 11 日 金岡晃 授業計画 第 1 週 (4/9) コンパイラの概要 第 8 週 (5/28) 下向き構文解析 / 構文解析プログラム 第 2 週 (4/16) コンパイラの構成 第 9 週 (6/4) 中間表現と意味解析 第 3 週 (4/23) プログラミング言語の形式的な記述 第 10 週 (6/11)

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

4.7講義.key

4.7講義.key スーパーコンピュータとアプリケーションの性能 2016 年 4 月 国立研究開発法人理化学研究所 計算科学研究機構 運用技術部門 ソフトウェア技術チーム チームヘッド 南 一生 minami_kaz@riken.jp RIKEN ADVANCED INSTITUTE FOR COMPUTATIONAL SCIENCE 講義の概要 スーパーコンピュータとアプリケーションの性能 アプリケーションの性能最適化

More information

cp-7. 配列

cp-7. 配列 cp-7. 配列 (C プログラムの書き方を, パソコン演習で学ぶシリーズ ) https://www.kkaneko.jp/cc/adp/index.html 金子邦彦 1 本日の内容 例題 1. 月の日数配列とは. 配列の宣言. 配列の添え字. 例題 2. ベクトルの内積例題 3. 合計点と平均点例題 4. 棒グラフを描く配列と繰り返し計算の関係例題 5. 行列の和 2 次元配列 2 今日の到達目標

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション SMYLE OpenCL における 組込み関数の開発と評価 江谷典子立命館大学総合科学技術研究機構 2012 年 12 月 5 日 2012 Noriko Etani, Ritsumeikan University 1 発表の内容 背景 目的 要素技術 関連研究 SMYLE OpenCLにおける組込み関数の開発 性能評価 まとめ 2012 Noriko Etani, Ritsumeikan University

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

1 はじめに このアプリケーションは 計算機ハードウェア論 のアセンブリ言語 ( 超簡単命令セット ) の理解を助けるために製作されました 便宜的に機能を追加 削除した箇所があるため このアプリケーション上での動き方が実際のCPUでの動き方と異なる場合があることに留意してください このアプリケーショ

1 はじめに このアプリケーションは 計算機ハードウェア論 のアセンブリ言語 ( 超簡単命令セット ) の理解を助けるために製作されました 便宜的に機能を追加 削除した箇所があるため このアプリケーション上での動き方が実際のCPUでの動き方と異なる場合があることに留意してください このアプリケーショ アセンブリ言語 ( 超簡単命令セット版 ) 取扱説明書 平成 26 年 2 月改訂版 目次 1 はじめに 2 1.1 利用できるデータの範囲やアドレス空間 命令長についての注意 2 2 プログラムの書き方と実行の方法 3 2.1 このマニュアルでの表記について 3 2.2 入力上の注意 3 2.2.1 使用できる文字について 3 2.2.2 ラベルの付け方 3 2.3 命令長の書き方 4 2.3.1

More information

スライド 1

スライド 1 RL78/G13 周辺機能紹介安全機能 ルネサスエレクトロニクス株式会社 ルネサス半導体トレーニングセンター 2013/08/02 Rev. 0.00 00000-A コンテンツ 安全機能の概要 フラッシュ メモリ CRC 演算機能 RAM パリティ エラー検出機能 データの保護機能 RAM ガード機能 SFR ガード機能 不正メモリ アクセス機能 周辺機能を使用した安全機能 周波数検出機能 A/D

More information

dlshogiアピール文章

dlshogiアピール文章 第 28 回世界コンピュータ将棋選手権 dlshogi アピール文章 山岡忠夫 2018 年 5 月 1 日更新 下線部分は 第 5 回将棋電王トーナメントからの差分を示す 1 特徴 ディープラーニングを使用 指し手を予測する Policy Network 局面の勝率を予測する Value Network 入力特徴にドメイン知識を活用 モンテカルロ木探索 並列化 自己対局による強化学習 既存将棋プログラムの自己対局データを使った事前学習

More information

スライド 1

スライド 1 Dispatch 0 年後学期 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ ALU Dispatch 命令フェッチ, デコード, リネーミング バックエンド ディスパッチ (dispatch) : 命令ウィンドウに命令を格納する動作 発行 (issue, fire) : 命令ウィンドウから, データ依存が解消された命令を機能ユニットに送り出す動作

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

Microsoft Word - no02.doc

Microsoft Word - no02.doc 使い方 1ソースプログラムの入力今回の講義では C++ 言語用の統合環境ソフトといわれるプログラムを利用します デスクトップにある CPad for C++ のアイコン ( 右参照 ) をダブルクリ ックしましょう ( 同じアイコンで Java_pad とかい エディタ部 てあるものもありますので気をつけてください ) これで 起 動します 統合環境を立ち上げると エディタ部とメッセージ部をもった画面が出てきます

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション オペレーションズリサーチとゲーム理論 (3 日目 ) 兵庫県立大学 円谷友英 今日の対象 : 待ち行列 (Queuing theory) はじめに 質問です 待つことは好きですか? 最近, あなたは待ちましたか? どこかで? どんな場面で? なにを? 何のために? どのように? なぜ待つことになりましたか? 何かが待っている ( と思われる ) 状態に気が付きましたか? 今日の対象 : 待ち行列 (Queuing

More information

VelilogHDL 回路を「言語」で記述する

VelilogHDL 回路を「言語」で記述する 2. ソースを書く 数値表現 数値表現形式 : ss'fnn...n ss は, 定数のビット幅を 10 進数で表します f は, 基数を表します b が 2 進,o が 8 進,d が 10 進,h が 16 進 nn...n は, 定数値を表します 各基数で許される値を書くこ Verilog ビット幅 基数 2 進表現 1'b0 1 2 進 0 4'b0100 4 2 進 0100 4'd4 4

More information

物質工学科 田中晋

物質工学科 田中晋 電気 機械実習 物質工学科 4 年 C 言語によるプログラミング基礎 物質工学科 Version 2.2 評価について 評価 : 演習 1~9 9 点 9 テーマ =81 点 演習 10 19 点 提出 : 1 週目に貸し出した USB メモリに自分の学籍番号のフォルダを作る 各演習の.c ファイルを指定されたファイル名で保存する ( 演習 10 については.exe ファイルも併せて保存 ) 最終週の翌週火曜日

More information

平成 24 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の研究開発目標 成果と今後の研究計画 1. 実施機関 研究開発期間 研究開発費 実施機関同志社大学 ( 幹事者 ), 北陸先端科学技術大学院大学, 東北大学 研究開発期間平成 21 年度から平成 24 年度 (4

平成 24 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の研究開発目標 成果と今後の研究計画 1. 実施機関 研究開発期間 研究開発費 実施機関同志社大学 ( 幹事者 ), 北陸先端科学技術大学院大学, 東北大学 研究開発期間平成 21 年度から平成 24 年度 (4 平成 24 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の研究開発目標 成果と今後の研究計画 1. 実施機関 研究開発期間 研究開発費 実施機関同志社大学 ( 幹事者 ), 北陸先端科学技術大学院大学, 東北大学 研究開発期間平成 21 年度から平成 24 年度 (4 年間 ) 研究開発費総額 54.9 百万円 ( 平成 24 年度 12.5 百万円 ) 2. 研究開発の目標

More information