Microsoft PowerPoint - Lecture ppt

Size: px
Start display at page:

Download "Microsoft PowerPoint - Lecture ppt"

Transcription

1 2007 年前学期 Bus Network 計算機アーキテクチャ第一 (E) Bidirectional network switch Processor node 12. チップマルチプロセッサ, その他 吉瀬謙二計算工学専攻 W641 講義室木曜日 13:20-14:50 N processors, 1 switch ( ), 1 link (the bus) Only 1 simultaneous transfer at a time NB (best case) = link (bus) bandwidth * 1 BB (worst case) = link (bus) bandwidth * 1 Ring Network Crossbar (Xbar) Network N processors, N switches, 2 links/switch, N links N simultaneous transfers NB (best case) = link bandwidth * N BB (worst case) = link bandwidth * 2 If a link is as fast as a bus, the ring is only twice as fast as a bus in the worst case, but is N times faster in the best case N processors, N 2 switches (unidirectional), 2 links/switch, N 2 links N simultaneous transfers NB = link bandwidth * N BB = link bandwidth * N/2 2D and 3D Mesh/Torus Network A Typical I/O System ( 代表的な入出力装置 ) Processor Interrupts Cache Mesh Torus Memory - I/O Bus N processors, N switches, 2, 3, 4 (2D torus) or 6 (3D torus) links/switch, 4N/2 links or 6N/2 links Main Memory I/O I/O I/O N simultaneous transfers NB = link bandwidth * 4N or link bandwidth * 6N Disk Disk Graphics Network BB = link bandwidth * 2 N 1/2 or link bandwidth * 2 N 2/3

2 Interrupt-Driven Input Direct Memory Access (DMA) Processor Memory Receiver Keyboard 1. input interrupt 2.1 save state 2.2 jump to interrupt service routine 2.4 return to user code add sub and or beq lbu sb... jr user program 2.3 service interrupt input interrupt service routine For high-bandwidth devices (like disks) interruptdriven I/O would consume a lot of processor cycles DMA the I/O controller has the ability to transfer data directly to/from the memory without involving the processor There may be multiple DMA devices in one system Processor Cache Interrupts Memory - I/O Bus memory Main Memory I/O I/O I/O Disk Disk Graphics Network マイクロプロセッサ プロセッサ 出荷年 トランジスタ数 ,250 出典 : フリー百科事典 ウィキペディア (Wikipedia), Intel ミュージアム 先端マイクロプロセッサ Intel Montecito 先端マイクロプロセッサ Intel Core 2 Duo Core2 Duo (2006 7/27 発表 ) 65nmプロセス 143mm 2 291M トランジスタ 65W Core Micro Architecture Intelligent power capability Micro-Fusion RISC vs CISC Advanced Smart Cache 2005 年 11 月 JEITA 情報システム技術シンポジウム, 次世代計算機システムの中核技術を探る の資料から, データは ISSCC-2005 Intel Developer Forum

3 先端マイクロプロセッサ Intel Core 2 Duo 先端マイクロプロセッサ IBM BlueGene/L Advanced Smart Cache Intel Developer Forum 2005 年 11 月 JEITA 情報システム技術シンポジウム, 次世代計算機システムの中核技術を探る の資料から, データは ISSCC-2005 先端マイクロプロセッサ Cell Broadband Engine 先端マイクロプロセッサ Cell Broadband Engine ヘテロジニアスチップマルチプロセッサ PowerPC Processor Element (PPE) 1 個 Synergistic Processor Element (SPE) 8 個 PlayStation3 の写真は PlaySation.com (Japan) から Synergistic Processor Element (SPE) 128bitのSIMD 演算 インオーダー命令発行 2 命令同時発行 パイプと命令アドレスの Even/Oddがそろっている時のみ キャッシュを持たない load/storeの対象は 256KBのLocal Storeのみ DMA 転送 SPE SPU 論理演算 Local Store 整数加減算 (256KByte) 浮動小数点演算 整数乗算 SIMDシフト SIMDローテート Register 128bit 128Entry Evenパイプ実行ユニット Oddパイプ実行ユニット Instruction Issue ロード ストア チャネル命令 128bitシフト 128bitローテート シャッフル演算 分岐命令 Channel Interface Memory Flow Diagram created by IBM to promote the CBEP, 2005 WIKIPEDIAより SWoPP2007 発表スライド ( 吉瀬, 佐々木 ) からの引用 EIB Element Interconnect Bus 先端マイクロプロセッサ Cell Broadband Engine ピーク性能 1 サイクルで積和演算を 1 回実行できる演算器 (2 FLOP/cycle) SIMD 構成で,SPE あたりの並列性 4 チップ内の SPE の数 8 動作周波数 4GHz =256 GFLOPS 積和演算 SIMD 化 マルチコア 動作周波数 ペンティアムは 8GFLOPS 程度 IEEE Micro, Cell Multiprocessor Communication Network: Built for Speed 性能を引き出す鍵は DMA 転送とローカルストアの使い方,SIMD 化, 並列化...

4 メニーコアへの流れ, ムーアの法則 プロセッサ 出荷年トランジスタ数 , , , , , processor , DX processor ,180,000 Pentium processor ,100,000 Pentium II processor ,500,000 Pentium III processor ,000,000 Pentium 4 processor ,000,000 出典 : Intel 社, メニーコアへの流れ, 配線遅延の増大 メニーコアへの流れ, 動作周波数の劇的向上の終焉 ( 動作周波数 ) 10 年で 300 倍の動作周波数の向上 Kerry Bernstein, Caution Flag Out Microarchitecture s Race for Power Performance, MICRO-36, 2003 The Optimal Useful Logic Depth Per Pipeline Stage is 6-8 FO4, International Symposium on Computer Architecture (ISCA-2002) pp マルチコア (2 個 ~10 個程度 ) からメニーコア ( 多数 ) へ マルチコア (2 個 ~10 個程度 ) からメニーコア ( 多数 ) へ 数世代の RISC プロセッサのサイズ Single-ISA Heterogeneous Multi-Core Architectures: The Potential for Processor Power Reduction, MICRO Platform 2015: Intel Processor and Platform Evolution for the Next Decade

5 タイルアーキテクチャ 小さいサイズの機能ブロック ( タイル ) を規則的に敷きつめることで高速なプロセッサを構成する方式 タイルのサイズを小さくすることで, タイルの内部で発生する配線遅延の問題を軽減 近くに配置されているタイル間でのみデータの送受信をおこなうことで, タイル間の通信遅延を軽減 同じ構成のタイルを複製して, 設計と検証の作業の簡略化 スーパースカラの Pentium 4 プロセッサと, タイルアーキテクチャの MIT Raw プロセッサとの比較 MIT Raw タイルプロセッサのパイオニア MIT Raw sample assembly 豊富な並列資源の活用, 配線遅延の克服, 限られたピンの有効利用 同じ構成のタイルを16 個敷きつめる構成 MIPSライクな compute pipeline Static router, 静的に決まるネットワーク, 隣接したタイルにデータを送信 Dynamic router, 動的に宛先を指定して利用するネットワーク MIT Raw RawCC コンパイラによる命令の割り当て MIT Raw プロトタイプシステム 2002 年の 10 月に,IBM から 120 個の Raw chip (180nm, ASIC) を受け取る. 1 個の Raw chip を搭載するマザーボードを試作 Michael Taylor,, Evaluation of the Raw Microprocessor: An Exposed-Wire-Delay Architecture for ILP and Streams, The 31st Annual International Symposium on Computer Architecture, June 2004.

6 MIT Raw 様々なアーキテクチャとの性能比較 Pentium 3 の性能を基準とした速度向上率. Raw は, 様々なアプリケーションを動作可能. 多くのアプリケーションで,Raw はベストに近い性能を達成する. Michael Taylor,, Evaluation of the Raw Microprocessor: An Exposed-Wire-Delay Architecture for ILP and Streams, The 31st Annual International Symposium on Computer Architecture, June 2004.

7

8 SIMD アクセラレータ IMAP 43 FIT2006 イベント企画これからが面白いプロセッサアーキテクチャ FIT2006 イベント企画これからが面白いプロセッサアーキテクチャ コアフュージョンのコンセプト コアフュージョン, フロントエンドと集団命令フェッチ 8 個のコアによるチップの例 それぞれのコアは 2-way (2-issue). この例では, 左の4 個のコア ( 赤色 ) が融合して 8-way のコアとして動作している. 2 個のコア ( 緑色 ) が融合して 4- way として動作している. 右の2 個のコアは, それぞれ 2- way として動作している. Fetch management unit (FMU) が集団フェッチを管理する. コアの情報を受け取り, 必要な指令を送る. コアから FMU, FMU からコアへの通信レイテンシ ( ラウンドトリップ ) は 2 サイクル. Core 0 Core 1 Core 2 Core 3 i0 i1 i2 i3 i4 i5 i6 i7 Core 0 Core 1 Core 2 Core 3 i8 i9 i10 i11 jump i8 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007

9 評価環境 評価結果, 逐次プログラムにおける性能比較 過去の研究から,2-way と比較して,4-way のコアのエリアは1.9 倍, 6-wayのコアのエリアは3.5 倍 CoarseGrain-4i は 4-way のコアを4 個 CoarseGrain-6i は 6-way のコアを 2 個 コアフュージョンのために追加したエリアは, トータルで 8.64mm 2 コアの半分程度なので, 保守的に1 個分程度と見積もる. FineGrain-2i は 9 個のコア CoreFusion は 8 個のコア Asymmetric-4i, Asymmetric-6i SPECINT Figure 7 FineGrain-2i の性能を1とした相対性能の比較 逐次プログラムでは, コアを強力にすることで性能向上 6-issue で 47% の性能向上 CoreFusion は 30% の性能向上, 4-issue の 27% よりも高い性能 逐次プログラムでは 2-issue の性能が最も悪い. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 並列アプリケーションの評価 インクリメンタルに並列化した場合 コアの数が多い FineGrain-2i が最も高い性能を達成する. CoarseGrain-6i の性能が最も低い. CoreFusion は ( ベストではないが ) 高い性能. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June i はステージが逐次 (stage0) で有利, 進むに従って不利. -2i は並列化された場合に有利, 逐次の部分で不利 CoreFusion はすべての領域で, 高い性能を示す. 扱いやすい. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Cell スピードチャレンジ 2007 における試み ( 規定課題 ) 主催 : 協賛 : 情報処理学会計算機アーキテクチャ研究会情報処理学会組込みシステム研究会情報処理学会ハイパフォーマンスコンピューティング研究会 東芝セミコンダクター社株式会社ソニー コンピュータエンタテインメント日本アイ ビー エム株式会社

10 プログラミング例 Cell スピードチャレンジにおける試み ちょっと複雑なソーティングをの上でどれだけ高速に解くことができるか. 1 要素は キーとデータのリスト からなる キーとデータは単精度浮動小数点実数 図ではリスト長は 7, リスト長は可変でパラメータ まずデータのリストからキーを計算する! データの最大値, あるいは データの 2 乗和 要素数 N, リスト長 M, キーの計算方法で様々な問題パターン 要素 key data[0] data[1] data[2] data[3] data[4] data[5] data[6] 4byte 4byte 4byte 4byte 4byte 4byte 4byte 4byte 要素 ソーティング対象のデータ Cell スピードチャレンジ参加チーム分布 規定課題部門決勝 予選ラウンドの合計 北海道 1 宮城県 1 茨城県 3 千葉県 1 東京都 17 神奈川県 1 新潟県 1 石川県 1 静岡県 1 愛知県 4 京都府 3 大阪府 2 兵庫県 2 岡山県 1 広島県 1 高知県 1 福岡県 2 宮崎県 1 沖縄県 1 44 チームの参加 3 ヶ月程度のプログラミング期間 25 チームがプログラムを提出

11 ソースコード (C 言語 ) の行数と実行回数 Cell スピードチャレンジ決勝ラウンドの結果 ソースコードの行数 ソースコードの行数プログラムの実行回数 プログラムの実行回数 10 問を出題, それぞれの問題の得点の合計で順位 赤色の部分は実行エラーあるいはタイムアウト マルチコアのプログラミングの難しさ ポイントを獲得した 11 チームの順位 0 Cell Broadband Engine Roadmap OpenMP on Cell 授業評価アンケート 授業科目名 計算機アーキテクチャ第一 (E) 科目コード : 7225 レポート提出方法 8 月 6 日 ( 午後 5 時 ) までに電子メールで提出 report@arch.cs.titech.ac.jp 電子メールのタイトル Computer Architecture Report ( 学籍番号 ) 電子メールの内容 氏名, 学籍番号 回答 テキスト形式, あるいはPDFファイルを添付

12 レポート問題 研究としてのプロセッサアーキテクチャ 1. プログラム go.txt におけるロードとストアのそれぞれの実行回数を測定せよ.( ヒント, ロードとストアの合計は ) 2. ページサイズを2KBとする.2エントリ, ダイレクト マップ方式のTLB( アドレス変換バッファ ) のヒット率を測定するプログラム ( 変更点のみ ) と測定結果を示せ. エントリ数を 4, 8, 16, 32, 64 に変更した場合のヒット率を測定せよ. 3. ページサイズを2KBとする.2エントリ,2ウェイ セット アソシアティブ方式の TLBのヒット率を測定プログラムと測定結果を示せ. 置き換えアルゴリズムはLRUとする. エントリ数を 4, 8, 16, 32, 64 に変更した場合のヒット率を測定せよ. 4. ページサイズを2KBとする.8, 16エントリ, フルアソシアティブ方式のTLBのヒット率を測定するプログラムと測定結果を示せ. 置き換えアルゴリズムは LRUとする. 5. 余裕があれば. TLB のヒット率の向上を目指す方式を考え, その効果を議論せよ. プロセッサアーキテクチャ (1) 何を作るの? 命令セット, プロセッサの機能, 構成 (2) どうやって作るの? アイデアを実現するアルゴリズム, 戦略, トレードオフ (3) 性能は? ソフトウェアシミュレータによる評価 FPGA を用いるプロトタイプシステムによる評価 これから面白くなるプロセッサアーキテクチャ 参考書 背景 潤沢なハードウェア資源 制約 動作周波数は抑えたい, 配線遅延からモジュール化 作れること, 正しく動くこと, 使えること 要求 速い, 低消費電力 ( 低温 ), 高信頼, 低価格など コンピュータの構成と設計第 3 版 パターソン & ヘネシー ( 成田光彰訳 ) 日経 BP 社 2006 コンピュータアーキテクチャ, 村岡洋一著, 近代科学社,1989 計算機システム工学, 富田真治, 村上和彰著, 昭晃堂,1988 コンピュータハードウヱア, 富田真治, 中島浩著, 昭晃堂,1995 計算機アーキテクチャ, 橋本昭洋著, 昭晃堂, 計算機アーキテクチャ What's Computer Architecture? Computer Architecture is the science and art of selecting and interconnecting hardware components to create computers that meet functional, performance and cost goals. Computer architecture is not about using computers to design buildings. アナウンス 期末試験 7 月 26 日 ( 木 ) 13:20 本館 H121 教室 講義スライド 計算機アーキテクチャのホームページから 72

スライド 1

スライド 1 講義用の計算機の使い方 計算機アーキテクチャ特論 (Advanced Computer Architectures) マルチコアプロセッサ 吉瀬謙二計算工学専攻 kise _at_ cs.titech.ac.jp www.arch.cs.titech.ac.jp W831 講義室木曜日 9:00 10:30 ユーザ名 advance で serv.arch.cs.titech.ac.jp にログイン

More information

Microsoft PowerPoint - NxLec ppt

Microsoft PowerPoint - NxLec ppt 2009 年後学期 プロセッサのデータパス ( シングル サイクル ) 計算機アーキテクチャ第二 (O) 5. パイプライン処理 大学院情報理工学研究科計算工学専攻吉瀬謙二 kise _at_ cs.titech.ac.jp S321 講義室月曜日 5,6 時限 13:20-14:50 1 プロセッサのデータパス ( パイプライン処理 ) ハザード (hazard) Clock 1: 命令を適切なサイクルで実行できないような状況が存在する.

More information

Microsoft PowerPoint - NxLec ppt

Microsoft PowerPoint - NxLec ppt MIPS R3000 Instruction Set Architecture (ISA) 計算機アーキテクチャ特論 (Advanced Computer Architectures) 2. スカラプロセッサ, スーパースカラプロセッサ Instruction Categories Computational Load/Store Jump and Branch Floating Point coprocessor

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft PowerPoint - NxLec-2010-11-01.ppt

Microsoft PowerPoint - NxLec-2010-11-01.ppt 2010 年 後 学 期 レポート 問 題 計 算 機 アーキテクチャ 第 二 (O) 4. シングルサイクルプロセッサの 実 装 とパイプライン 処 理 大 学 院 情 報 理 工 学 研 究 科 計 算 工 学 専 攻 吉 瀬 謙 二 kise _at_ cs.titech.ac.jp S321 講 義 室 月 曜 日 5,6 時 限 13:20-14:50 1 1. 1から100までの 加 算

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1];

More information

スライド 1

スライド 1 2011 年後学期 アウトオブオーダ実行プロセッサの命令パイプライン Instruction Fetch Decode Rename Dispatch 計算機アーキテクチャ第二 (O) Issue Register Read Execute Commit データ値予測, データフロー実行モデル 1 The Alpha 21264 Microprocessor Architecture R E Kessler,

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2015 年度 5 セメスター クラス D 計算機工学 5. 命令セットアーキテクチャ ( 教科書 6.1 節, 6.2 節 ) 大学院情報科学研究科鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 計算機の基本構成 メモリ プロセッサ データ領域 データデータデータ load store レジスタ PC プログラム領域

More information

Microsoft PowerPoint - NxLecture ppt [互換モード]

Microsoft PowerPoint - NxLecture ppt [互換モード] 011-05-19 011 年前学期 TOKYO TECH 命令処理のための基本的な 5 つのステップ 計算機アーキテクチャ第一 (E) 5. プロセッサの動作原理と議論 吉瀬謙二計算工学専攻 kise_at_cs.titech.ac.jp W61 講義室木曜日 13:0-1:50 IF(Instruction Fetch) メモリから命令をフェッチする. ID(Instruction Decode)

More information

Microsoft PowerPoint - Lecture ppt [互換モード]

Microsoft PowerPoint - Lecture ppt [互換モード] 2012-07-19 2012 年前学期 TOKYO TECH コンピュータ ( ハードウェア ) の古典的な要素 コンピュータ 計算機アーキテクチャ第一 (E) プロセッサ 入力 制御 出力記憶 入出力制御, 割り込み データパス 出力 吉瀬謙二計算工学専攻 kise_at_cs.titech.ac.jp W641 講義室木曜日 13:20-14:50 プロセッサは記憶装置から命令とデータを取り出す

More information

Microsoft Word - SSTC_Intel_Core.doc

Microsoft Word - SSTC_Intel_Core.doc 技術メモ インテル Core マイクロアーキテクチャ スケーラブルシステムズ株式会社 技術メモ インテル Core マイクロアーキテクチャ 1. はじめに... 2 2. Intel Core マイクロアーキテクチャ... 3 3. マイクロプロセッサの性能を左右するものは?... 5 4. Intel Core マイクロアーキテクチャに投入された主要技術... 6 Advanced Digital

More information

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076%

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076% 2013 (409812) FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT 6 1000 IPC FabCache 0.076% Abstract Single-ISA heterogeneous multi-core processors are increasing importance in the processor architecture.

More information

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt Cell プロセッサへの分子軌道法 プログラムの実装と評価 林徹生 九州大学大学院システム情報科学府九州大学情報基盤センター 本田宏明稲富雄一井上弘士村上和彰九州大学大学院システム情報科学研究院 背景と目的 Cell アーキテクチャ 構成と特徴 分子軌道法プログラム アルゴリズムと特徴 タスク分配法 ( 実装方法 ) 粒度と割り当て 同期方法 評価 評価対象モデル 評価結果 おわりに 発表手順 背景と目的

More information

15群(○○○)-8編

15群(○○○)-8編 6 群 ( コンピュータ - 基礎理論とハードウェア ) - 5 編 ( コンピュータアーキテクチャ (II) 先進的 ) 1 章命令レベル並列コンピュータ ( 執筆者 : 佐藤寿倫 )[2010 年 5 月受領 ] 概要 単一プロセッサの性能向上には命令レベル並列性の抽出が必須である. 本章では, 成熟した技術である制御投機方式から話を始め, 研究段階から実用化に移行しつつあるタイル型コンピュータに至るまで,

More information

Microsoft PowerPoint - Lecture ppt [互換モード]

Microsoft PowerPoint - Lecture ppt [互換モード] 2012-05-31 2011 年前学期 TOKYO TECH 固定小数点表現 計算機アーキテクチャ第一 (E) あまり利用されない 小数点の位置を固定する データ形式 (2) 吉瀬謙二計算工学専攻 kise_at_cs.titech.ac.jp W641 講義室木曜日 13:20-14:50-2.625 符号ビット 小数点 1 0 1 0 1 0 1 0 4 2 1 0.5 0.25 0.125

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

Cell/B.E. BlockLib

Cell/B.E. BlockLib Cell/B.E. BlockLib 17 17115080 21 2 10 i Cell/B.E. BlockLib SIMD CELL SIMD Cell Cell BlockLib BlockLib NestStep libspe1 Cell SDK 3.1 libspe2 BlockLib Cell SDK 3.1 NestStep libspe2 BlockLib BlockLib libspe1

More information

26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1

26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1 FPGA 272 11 05340 26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1 FPGA skewed L2 FPGA skewed Linux

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 5. 命令セットアーキテクチャ ( 教科書 6.1 節, 6.2 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 計算機の基本構成 メモリ プロセッサ データ領域 データデータデータ load store レジスタ PC プログラム領域 命令命令命令

More information

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

imai@eng.kagawa-u.ac.jp No1 No2 OS Wintel Intel x86 CPU No3 No4 8bit=2 8 =256(Byte) 16bit=2 16 =65,536(Byte)=64KB= 6 5 32bit=2 32 =4,294,967,296(Byte)=4GB= 43 64bit=2 64 =18,446,744,073,709,551,615(Byte)=16EB

More information

Microsoft PowerPoint - ICD-ARCパネル

Microsoft PowerPoint - ICD-ARCパネル ICD-ARC 共 催 研 究 会 パネル 討 論 新 時 代 におけるマルチコア 戦 略 ( 株 ) 東 芝 セミコンダクター 社 2008 年 5 月 13 日 斎 藤 光 男 プロセッサ 周 波 数 の 年 代 別 の 伸 び 10000 CISCプロセッサの 時 代 アウトオブオーダーの 導 入 3.2GHz P4 3.0GHz P4 3.8GHz P4 3.4GHz 3.6GHz P4 P4

More information

Microsoft PowerPoint - Lec ppt [互換モード]

Microsoft PowerPoint - Lec ppt [互換モード] 0 年後学期 アウトオブオーダ実行プロセッサの構成 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ 命令ウィンドウ ALU レジスタファイル ALU スケジューラ等 Register Dispatch 命令フェッチ, デコード, リネーミング バックエンド アウトオブオーダ実行プロセッサの構成 ディスパッチ

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

Microsoft PowerPoint - Lec ppt [互換モード]

Microsoft PowerPoint - Lec ppt [互換モード] 2012 年後学期 アウトオブオーダ実行プロセッサの命令パイプライン Instruction Fetch Decode Rename Dispatch 計算機アーキテクチャ第二 (O) Issue Register Read Execute Commit データ値予測, データフロー実行モデル 1 The Alpha 21264 Microprocessor Architecture R E Kessler,

More information

スライド 1

スライド 1 Dispatch 0 年後学期 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ ALU Dispatch 命令フェッチ, デコード, リネーミング バックエンド ディスパッチ (dispatch) : 命令ウィンドウに命令を格納する動作 発行 (issue, fire) : 命令ウィンドウから, データ依存が解消された命令を機能ユニットに送り出す動作

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

cmpsys13w03_cpu_hp.ppt

cmpsys13w03_cpu_hp.ppt 情報システム論 第 3 章! CPU! 根来 均 Outline! u CPU の主な働き! u CPU での命令実行処理! u CPU の高速化技術! u CPU の性能評価方法 手段! u 並列計算機! u 現在の CPU の動向 CPU の主な働き u 制御装置 (Control Unit, CU)! プログラム制御 ( 命令の解読 実行 分岐命令 データ転送命令 )! 入出力制御 ( 入出力動作と内部処理

More information

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378>

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378> 1 コーチ 802001677 宮崎 744500076 2 コーチ 802004883 宮崎 744500098 3 コーチ 802006099 宮城 740400015 4 コーチ 802009308 大阪 742700351 5 コーチ 802012742 沖縄 744700018 6 コーチ 802012867 静岡 742100061 7 コーチ 803001619 青森 740200007

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード

More information

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378>

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378> 1 コーチ 802001677 宮崎 744500076 2 コーチ 802004883 宮崎 744500098 3 コーチ 802005298 北海道 740100003 4 コーチ 802006099 宮城 740400015 5 コーチ 802009308 大阪 742700351 6 コーチ 802012742 沖縄 744700018 7 コーチ 802012867 静岡 742100061

More information

Microsoft PowerPoint - NxLec ppt

Microsoft PowerPoint - NxLec ppt 動的スケジューリング ( アウトオブオーダ実行 ) 計算機アーキテクチャ特論 (Advanced Computer Architectures) (1) DIV.D F0, F2, F4 (2) ADD.D F10, F0, F8 (3) SUB.D F12, F8, F14 9. アウトオブオーダプロセッサステートと例外回復 DIV.D とADD.Dの依存がパイプラインをストールさせ,SUB.D

More information

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

単位、情報量、デジタルデータ、CPUと高速化  ~ICT用語集~ CPU ICT mizutani@ic.daito.ac.jp 2014 SI: Systèm International d Unités SI SI 10 1 da 10 1 d 10 2 h 10 2 c 10 3 k 10 3 m 10 6 M 10 6 µ 10 9 G 10 9 n 10 12 T 10 12 p 10 15 P 10 15 f 10 18 E 10 18 a 10 21

More information

4.1 % 7.5 %

4.1 % 7.5 % 2018 (412837) 4.1 % 7.5 % Abstract Recently, various methods for improving computial performance have been proposed. One of these various methods is Multi-core. Multi-core can execute processes in parallel

More information

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation 1 1 1 1 SPEC CPU 2000 EQUAKE 1.6 50 500 A Parallelizing Compiler Cooperative Multicore Architecture Simulator with Changeover Mechanism of Simulation Modes GAKUHO TAGUCHI 1 YOUICHI ABE 1 KEIJI KIMURA 1

More information

Microsoft PowerPoint - os ppt [互換モード]

Microsoft PowerPoint - os ppt [互換モード] 4. メモリ管理 (1) 概要メモリ管理の必要性静的メモリ管理と動的メモリ管理スワッピング, 仮想記憶ページングとセグメンテーション 2008/5/ 20 メモリ管理 (1) 1 メモリはコンピュータの 5 大構成要素 装置 ( キーボード, マウス ) CPU ( 中央演算装置 ) 出 装置 ( モニタ, プリンタ ) 主記憶装置 ( メインメモリ ) 外部記憶装置 (HDD) 2008/5/ 20

More information

スライド 1

スライド 1 計算機構成論 II 第 1 回 ( 全 15 回 ) 2017 年 10 月 5 日 ( 木 ) 知能情報工学科 横田孝義 1 授業計画 10/6 10/12 10/19 10/28 11/2 11/9 11/16 11/21 12/7 12/14 12/21 1/11 1/18 1/25 2/1 2/8 定期テスト 2 テキスト 朝倉書院尾内理紀夫著 ISBN978-4-254-12701-0 C3341

More information

スライド 1

スライド 1 swk(at)ic.is.tohoku.ac.jp 2 Outline 3 ? 4 S/N CCD 5 Q Q V 6 CMOS 1 7 1 2 N 1 2 N 8 CCD: CMOS: 9 : / 10 A-D A D C A D C A D C A D C A D C A D C ADC 11 A-D ADC ADC ADC ADC ADC ADC ADC ADC ADC A-D 12 ADC

More information

Microsoft PowerPoint - ICD2011UenoSlides.pptx

Microsoft PowerPoint - ICD2011UenoSlides.pptx 画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1 概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

Logistello 1) playout playout 1 5) SIMD Bitboard playout playout Bitboard Bitboard 8 8 = black white 2 2 Bitboard 2 1 6) position rev i

Logistello 1) playout playout 1 5) SIMD Bitboard playout playout Bitboard Bitboard 8 8 = black white 2 2 Bitboard 2 1 6) position rev i SIMD 1 1 1 playout playout Cell B. E. SIMD SIMD playout playout Implementation of an Othello Program Based on Monte-Carlo Tree Search by Using a Multi-Core Processor and SIMD Instructions YUJI KUBOTA,

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

< B8CDD8AB B83685D>

< B8CDD8AB B83685D> () 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに アウトオブオーダ処理 工学部講義 はじめに 本講義の目的 の基本を学ぶ 場所 火曜日 8:40-0:0 工学部 号館 4 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書 坂井修一

More information

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Hans J. MATTAUSCH, and Tetsushi KOIDE 1 1 2 0.5 µm CMOS

More information

プロセッサ・アーキテクチャ

プロセッサ・アーキテクチャ 2. NII51002-8.0.0 Nios II Nios II Nios II 2-3 2-4 2-4 2-6 2-7 2-9 I/O 2-18 JTAG Nios II ISA ISA Nios II Nios II Nios II 2 1 Nios II Altera Corporation 2 1 2 1. Nios II Nios II Processor Core JTAG interface

More information

Core1 FabScalar VerilogHDL Cache Cache FabScalar 1 CoreConnect[2] Wishbone[3] AMBA[4] AMBA 1 AMBA ARM L2 AMBA2.0 AMBA2.0 FabScalar AHB APB AHB AMBA2.0

Core1 FabScalar VerilogHDL Cache Cache FabScalar 1 CoreConnect[2] Wishbone[3] AMBA[4] AMBA 1 AMBA ARM L2 AMBA2.0 AMBA2.0 FabScalar AHB APB AHB AMBA2.0 AMBA 1 1 1 1 FabScalar FabScalar AMBA AMBA FutureBus Improvement of AMBA Bus Frame-work for Heterogeneos Multi-processor Seto Yusuke 1 Takahiro Sasaki 1 Kazuhiko Ohno 1 Toshio Kondo 1 Abstract: The demand

More information

スライド 1

スライド 1 入出力,OS, 計算機の高速化 1 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算, 浮動小数点数 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか 組合せ回路 論理関数 論理式の標準形, 論理式の簡単化 順序回路 有限状態機械 メインメモリ, キャッシュメモリ 2 目次 プロセッサとメモリ

More information

Microsoft PowerPoint - sp ppt [互換モード]

Microsoft PowerPoint - sp ppt [互換モード] システムプログラム概論 メモリ管理 (1) 第 x 講 : 平成 20 年 10 月 15 日 ( 水 ) 2 限 S1 教室 今日の講義概要 メモリ管理の必要性 静的メモリ管理と動的メモリ管理 スワッピング, 仮想記憶 ページングとセグメンテーション 中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nakamr@is.naist.jp http://narayama.naist.jp/~y-nakamr/

More information

Microsoft PowerPoint - Lec pptx

Microsoft PowerPoint - Lec pptx Course number: CSC.T341 コンピュータ論理設計 Computer Logic Design 10. シングルサイクルプロセッサのデータパス Datapath for Single Cycle Processor 吉瀬謙二情報工学系 Kenji Kise, Department of Computer Science kise _at_ c.titech.ac.jp www.arch.cs.titech.ac.jp/lecture/cld/

More information

24 LED A visual programming environment for art work using a LED matrix

24 LED A visual programming environment for art work using a LED matrix 24 LED A visual programming environment for art work using a LED matrix 1130302 2013 3 1 LED,,,.,. Arduino. Arduino,,,., Arduino,.,, LED,., Arduino, LED, i Abstract A visual programming environment for

More information

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ 中央処理装置 Rev. 2019.01.16 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価 コンピュータの構成装置 中央処理装置 (CPU) 主記憶装置から命令を読み込み 実行を行う 主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する

More information

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ Rev. 2018.01.20 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価 コンピュータの構成装置 中央処理装置 (CPU) 主記憶装置から命令を読み込み 実行を行う 主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する 補助記憶装置

More information

Microsoft PowerPoint mm

Microsoft PowerPoint mm システムプログラム概論 Memory management 1/2 2005/4/26 門林雄基 ( インターネット工学講座 ) 奈良先端科学技術大学院大学 今日の講義のポイント 問題は何か? memory hierarchy ( メモリ階層 ) この複雑な技術を 単純なプログラミングで使いこなせるようにできないか memory management in operating system 今日の講義のポイント

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

untitled

untitled AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 数字を扱う変数 目的 整数の型 少数点を含む型 Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) バイト型サイズ :1 バイト範囲 0~255 Byte Integer Long 整数の型の種類 LongLong(64bit 版のみ ) 長整数型サイズ :4 バイト範囲

More information

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部システムコア技術統括部 * 1 shimizu.toru@renesas.com * 2 hasegawa.atsushi@renesas.com * 3 hattori.toshihiro@renesas.com

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション オープンソース カンファレンス 2017 OSAKA ライトニング トーク あのクラウドと比べてみたよ IBM クラウドのリアルベンチマーク 2017 年 1 月 28 日 日本アイ ビー エム株式会社 クラウド事業統括 クラウドエバンジェリスト 安田智有 @ytomoari tomoari.yasuda 話 日本 IBM クラウドマイスター 安田智有 1 お客様の よしやってみるか を応援してきました

More information

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit) 2016.4.1 II ( ) 1 1.1 DRAM RAM DRAM DRAM SRAM RAM SRAM SRAM SRAM SRAM DRAM SRAM SRAM DRAM SRAM 1.2 (DRAM, Dynamic RAM) (SRAM, Static RAM) (RAM Random Access Memory ) DRAM 1 1 1 1 SRAM 4 1 2 DRAM 4 DRAM

More information

九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター

九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター 九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター http://hdl.handle.net/2324/9112 出版情報 :SLRC プレゼンテーション, 2005-03-08

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

16.16%

16.16% 2017 (411824) 16.16% Abstract Multi-core processor is common technique for high computing performance. In many multi-core processor architectures, all processors share L2 and last level cache memory. Thus,

More information

TopSE並行システム はじめに

TopSE並行システム はじめに はじめに 平成 23 年 9 月 1 日 トップエスイープロジェクト 磯部祥尚 ( 産業技術総合研究所 ) 2 本講座の背景と目標 背景 : マルチコア CPU やクラウドコンピューティング等 並列 / 分散処理環境が身近なものになっている 複数のプロセス ( プログラム ) を同時に実行可能 通信等により複数のプロセスが協調可能 並行システムの構築 並行システム 通信 Proc2 プロセス ( プログラム

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

6. パイプライン制御

6. パイプライン制御 6. パイプライン制御 パイプライン (Pipelining) 命令のスループットをあげて性能を向上する Program eection order Time (in instrctions) lw $, ($) fetch 2 4 6 8 2 4 6 8 Data access lw $2, 2($) 8 ns fetch Data access lw $3, 3($) Program eection

More information

Microsoft PowerPoint - Lec ppt [互換モード]

Microsoft PowerPoint - Lec ppt [互換モード] 2011-10-03 2011 年後学期 関連科目 履修条件等 計算機アーキテクチャ第二 (O) 1. 導入 大学院情報理工学研究科計算工学専攻吉瀬謙二 kise _at_ cs.titech.ac.jp S321 講義室月曜日 5,6 時限 13:20-14:50 1 4 学期 : 計算機論理設計 計算機を構成するプロセッサとその制御部に関し, 具体構成と設計の原理を講義する. 特に, レジスタトランスファ言語を用いて計算機の内部動作を記述し,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 高性能計算基盤 第 7 回 CA1003: 主記憶共有型システム http://arch.naist.jp/htdocs-arch3/ppt/ca1003/ca1003j.pdf Copyright 2019 奈良先端大中島康彦 1 2 3 4 マルチスレッディングとマルチコア 5 6 7 主記憶空間の数が 複数 か 1 つ か 8 ただしプログラムは容易 9 1 つの主記憶空間を共有する場合 10

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

ムーアの法則に関するレポート

ムーアの法則に関するレポート 情報理工学実験レポート 実験テーマ名 : ムーアの法則に関する調査 職員番号 4570 氏名蚊野浩 提出日 2019 年 4 月 9 日 要約 大規模集積回路のトランジスタ数が 18 ヶ月で2 倍になる というムーアの法則を検証した その結果 Intel 社のマイクロプロセッサに関して 1971 年から 2016 年の平均で 26.4 ヶ月に2 倍 というペースであった このことからムーアの法則のペースが遅くなっていることがわかった

More information

橡3_2石川.PDF

橡3_2石川.PDF PC RWC 01/10/31 2 1 SCore 1,024 PC SCore III PC 01/10/31 3 SCore SCore Aug. 1995 Feb. 1996 Oct. 1996 1997-1998 Oct. 1999 Oct. 2000 April. 2001 01/10/31 4 2 SCore University of Bonn, Germany University

More information

Microsoft PowerPoint - MieruPC_BOF.pptx[読み取り専用]

Microsoft PowerPoint - MieruPC_BOF.pptx[読み取り専用] 1 SimMips/MieruPC ~ システムシミュレータから計算機システムへ ~ 藤枝直輝 ( 東京工業大学 ) 2010/08/05 SWoPP2010 BOF セッション シンプルハードウェアがもたらす計算機システム研究 / 教育の新展開 発表者について 2 東京工業大学吉瀬研究室 D1 2008 年 4 月 ~ MieruPC プロジェクト : 中身がみえる計算機システムを構築する研究 教育プロジェクト

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 仮想マシン () 仮想マシン 復習 仮想マシンの概要 hsm 仮想マシン プログラム言語の処理系 ( コンパイラ ) 原始プログラム (Source program) コンパイラ (Compiler) 目的プログラム (Object code) 原始言語 (Source language) 解析 合成 目的言語 (Object Language) コンパイルする / 翻訳する (to compile

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンピュータアーキテクチャ 第 13 週 割込みアーキテクチャ 2013 年 12 月 18 日 金岡晃 授業計画 第 1 週 (9/25) 第 2 週 (10/2) 第 3 週 (10/9) 第 4 週 (10/16) 第 5 週 (10/23) 第 6 週 (10/30) 第 7 週 (11/6) 授業概要 2 進数表現 論理回路の復習 2 進演算 ( 数の表現 ) 演算アーキテクチャ ( 演算アルゴリズムと回路

More information

はじめに

はじめに IT 1 NPO (IPEC) 55.7 29.5 Web TOEIC Nice to meet you. How are you doing? 1 type (2002 5 )66 15 1 IT Java (IZUMA, Tsuyuki) James Robinson James James James Oh, YOU are Tsuyuki! Finally, huh? What's going

More information

設計現場からの課題抽出と提言 なぜ開発は遅れるか?その解決策は?

設計現場からの課題抽出と提言 なぜ開発は遅れるか?その解決策は? Work in Progress - Do not publish STRJ WS: March 4, 2004, WG1 1 WG1: NEC STARC STARC Work in Progress - Do not publish STRJ WS: March 4, 2004, WG1 2 WG1 ITRS Design System Drivers SoC EDA Work in Progress

More information

1 142

1 142 7 1 2 3 4 5 6 7 8 1 142 PhoenixBIOS Setup Utility MainSystem DevicesSecurityPowerOthersBootExit System Time: [XX:XX:XX] Item Specific Help System Date: [XX/XX/XXXX] Floppy Drive: 1.44MB, 3 1 / 2" Hard

More information

計算機構成: トップダウンの解説

計算機構成: トップダウンの解説 コンピュータアーキテクチャ : ここでやったこと これからやること 計算機構成同演習最終回 天野 コンピュータの構成 この授業でやったところ Disk Display Key I/O Bus Bridge CPU System Bus Memory System コンピュータの 3 要素 来年以降何をやっていくか? 3 年春第 2Q コンピュータアーキテクチャ I/Oはサボったため 最初から 割り込みも

More information

10-vm1.ppt

10-vm1.ppt オペレーティングシステム ~ 仮想記憶 (1) ~ 山田浩史 hiroshiy @ cc.tuat.ac.jp 2015/06/19 OS の目的 裸のコンピュータを抽象化 (abstraction) し より使いやすく安全なコンピュータとして見せること OS はハードウェアを制御し アプリケーションの効率的な動作や容易な開発を支援する OS がないと メモリをアプリケーション自身が管理しなければならない

More information

IPSJ SIG Technical Report Vol.2017-ARC-225 No.12 Vol.2017-SLDM-179 No.12 Vol.2017-EMB-44 No /3/9 1 1 RTOS DefensiveZone DefensiveZone MPU RTOS

IPSJ SIG Technical Report Vol.2017-ARC-225 No.12 Vol.2017-SLDM-179 No.12 Vol.2017-EMB-44 No /3/9 1 1 RTOS DefensiveZone DefensiveZone MPU RTOS 1 1 RTOS DefensiveZone DefensiveZone MPU RTOS RTOS OS Lightweight partitioning architecture for automotive systems Suzuki Takehito 1 Honda Shinya 1 Abstract: Partitioning using protection RTOS has high

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

6 2. AUTOSAR 2.1 AUTOSAR AUTOSAR ECU OSEK/VDX 3) OSEK/VDX OS AUTOSAR AUTOSAR ECU AUTOSAR 1 AUTOSAR BSW (Basic Software) (Runtime Environment) Applicat

6 2. AUTOSAR 2.1 AUTOSAR AUTOSAR ECU OSEK/VDX 3) OSEK/VDX OS AUTOSAR AUTOSAR ECU AUTOSAR 1 AUTOSAR BSW (Basic Software) (Runtime Environment) Applicat AUTOSAR 1 1, 2 2 2 AUTOSAR AUTOSAR 3 2 2 41% 29% An Extension of AUTOSAR Communication Layers for Multicore Systems Toshiyuki Ichiba, 1 Hiroaki Takada, 1, 2 Shinya Honda 2 and Ryo Kurachi 2 AUTOSAR, a

More information

高速バックボーンネットワークにおける公平性を考慮した階層化パケットスケジューリング方式

高速バックボーンネットワークにおける公平性を考慮した階層化パケットスケジューリング方式 Advanced Network Architecture Research Group 高速バックボーンネットワークにおける 公平性を考慮した 階層化パケットスケジューリング方式 大阪大学大学院基礎工学研究科情報数理系専攻博士前期課程 牧一之進 発表内容 研究の背景 研究の目的 階層化パケットスケジューリング方式の提案 評価モデル シミュレーションによる評価 まとめと今後の課題 研究の背景 インターネットのインフラ化

More information

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP Android 1 1 1 1 1 Dominic Hillenbrand 1 1 1 ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GPIO API GPIO API GPIO MPEG2 Optical Flow MPEG2 1PE 0.97[W] 0.63[W] 2PE 1.88[w] 0.46[W] 3PE 2.79[W] 0.37[W] Optical

More information

A Responsive Processor for Parallel/Distributed Real-time Processing

A Responsive Processor for Parallel/Distributed Real-time Processing E-mail: yamasaki@{ics.keio.ac.jp, etl.go.jp} http://www.ny.ics.keio.ac.jp etc. CPU) I/O I/O or Home Automation, Factory Automation, (SPARC) (SDRAM I/F, DMAC, PCI, USB, Timers/Counters, SIO, PIO, )

More information

計算機アーキテクチャ特論 後半第2回 アウトオブオーダー実行 Out-of-Order Execution

計算機アーキテクチャ特論 後半第2回  アウトオブオーダー実行 Out-of-Order Execution 計算機アーキテクチャ特論 後半第 2 回 アウトオブオーダー実行 Out-of-Order Execution 講師加藤真平 本資料は授業用です 無断で転載することを禁じます 前回の理解度クイズ 問 1 マルチコア (CMP) 化が進んだ理由を簡潔に述べよ 答え消費電力や発熱の問題により 単一プロセッサの動作周波数を上げることができなくなったため 複数のプロセッサコアを並べることで性能を改善するようになった

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

N Express5800/R320a-E4 N Express5800/R320a-M4 ユーザーズガイド

N Express5800/R320a-E4  N Express5800/R320a-M4  ユーザーズガイド 7 7 Phoenix BIOS 4.0 Release 6.0.XXXX : CPU=Pentium III Processor XXX MHz 0640K System RAM Passed 0127M Extended RAM Passed WARNING 0212: Keybord Controller Failed. : Press to resume, to setup

More information

137 6 1 2 3 4 5 6 138 6 139 1 2 3 4 5 6 140 6 141 1 2 1 2 142 6 3 143 1 2 144 6 145 1 2 3 4 5 146 6 147 1 1 148 6 1 2 149 1 2 1 2 150 6 151 152 6 1 2 153 1 2 3 154 1 2 6 3 155 156 6 157 158 1 6 2 159 1

More information

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド 7 7 Phoenix BIOS 4.0 Release 6.0.XXXX : CPU=Pentium III Processor XXX MHz 0640K System RAM Passed 0127M Extended RAM Passed WARNING 0212: Keybord Controller Failed. : Press to resume, to setup

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

ex04_2012.ppt

ex04_2012.ppt 2012 年度計算機システム演習第 4 回 2012.05.07 第 2 回課題の補足 } TSUBAMEへのログイン } TSUBAMEは学内からのログインはパスワードで可能 } } } } しかし 演習室ではパスワードでログインできない設定 } 公開鍵認証でログイン 公開鍵, 秘密鍵の生成 } ターミナルを開く } $ ssh-keygen } Enter file in which to save

More information