総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5
座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後 GPUクラウドコンピューティングを説明します 分散化技術のイメージを紹介後 クラウドにおける分散化技術の利用方法を説明します 講座構成 [1] 注目されているクラウドの使い方 [2]GPUクラウドコンピューティング [3] クラウドにおける分散化技術 学習のゴール PC やサーバを構成する基本パーツの構成を理解する GPU による高速計算の特性を把握し GPU クラウドコンピューティングの概要を理解する 分散化技術のイメージを把握し クラウドにおける分散化技術の利用方法を把握する
注目されているクラウドの新たな使い方 [1] 注目されているクラウドの使い方 近年 注目されているクラウドの新しい使い方として クラウド上のGPUを利用して高速計算を行う GPU クラウドコンピューティング クラウド上の複数の物理サーバを利用する 分散化技術 が挙げられます 従来のクラウド利用の主目的は 長期的なデータ蓄積 でしたが データ処理 計算 を主目的とする使い方が現れています GPU クラウドコンピューティングは クラウド上の GPU( 画像処理装置 ) を使って高速計算を行います 通常 コンピューター処理において データ処理 計算 を担うのは CPU(Central Processing Unit: 中央処理装置 ) ですが GPU コンピューティングでは データ処理 計算 に GPU(Graphics Processing Unit: 画像処理装置 ) を使います CPU( 中央処理装置 ) GPU( 画像処理装置 ) が搭載されたグラフィックボード 分散化技術は 複数の物理サーバを統合して 一体として利用する技術です 仮想化技術は 物理サーバの中に仮想サーバを構築する使い方が一般的ですが 分散化技術は物理サーバの枠を広げる発想です この講座では 近年注目されているクラウドの新しい使い方を説明します
コンピュータを構成するパーツ 物理サーバや PC は それぞれの役割を持つ 5 つの主要パーツで構成されています データセンターにある物理サーバ ( サーバコンピュータ ) でも主要なコンピュータパーツの構成は 一般の人が普段利用する PC と変わりません 普段利用しているデスクトップ PC やノートパソコンも ウェブサーバやデータベースサーバとして利用することができます [1] 注目されているクラウドの使い方 PC のパーツ構成と一般的な利用における各パーツの役割 マザーボードコンピュータパーツを連結し データのやりとりを仲介 CPU ( 中央処理装置 ) データ処理 計算 メインメモリ一時的なデータ蓄積 (CPU とのデータのやりとりは高速 ) ハードディスクドライブ長期的なデータ蓄積 (CPU とのデータのやりとりは低速 ) グラフィックボードグラフィックボード上の GPU で画像処理 ディスプレイへの表示 メインメモリに蓄積したデータは電源を切ると消えますが ハードディスクドライブに蓄積したデータは電源を切っても消えません 長期的なデータ蓄積として 磁気ディスクに記録するハードディスクドライブの代わりに 半導体メモリに記録する SSD( ソリッドステートドライブ ) を利用するケースもあります グラフィックボードは個別のパーツになっておらず マザーボード上に一体化している オンボードグラフィック のケースもあります 上記のパーツの写真はデスクトップ PC のものですが ノート PC ではこれらのパーツが小型化 凝縮される形で格納されています
サーバコンピュータで行う データ処理 計算 [2]GPU クラウドコンピューティング サーバコンピュータの主要な役割を データ処理 計算 とする利用方法が着目されています 一般にインターネットにつながっているサーバコンピュータの主要な役割は 長期的なデータ蓄積 でした サーバコンピュータ内のパーツとしても 長期的なデータ蓄積 を担う HDD が特に重要視され HDD のセキュリティに着目されていました 近年 サーバコンピュータを データ処理 計算 のために利用する HPC( ハイパフォーマンスコンピューティング ) が着目を浴びています HPC は スーパーコンピュータで実施するような高速計算 手元の PC では時間のかかる計算をサーバ上で短時間で処理する利用が考えられます HPC では データ処理 計算 を担うコンピュータパーツは CPU およびメインメモリの性能が重要視されます HPC の中には グラフィックボード上の GPU を計算に利用する GPU コンピューティングもあります GPU コンピューティングでは 画像データに限らず あらゆるデータを GPU にて処理 計算しします サーバ用途 : 長期的なデータ蓄積 ウェブサイトやデータベースの運用 サーバ用途 : データ処理 計算 HPC( ハイパフォーマンスコンピューティング ) CPU 利用のケース GPUコンピューティング 特に重要な PC パーツはハードディスクドライブ 特に重要な PC パーツは CPU+ メインメモリ 特に重要な PC パーツはグラフィックボード
CPU GPU の比較と GPU クラウドコンピューティング 並列計算が可能なデータ処理は CPU よりも GPU で高速に計算できるケースがあります CPUやGPUには コアと呼ばれる 計算を受け持つ単位 が搭載されており GPUの方がコア数が多く並列計算による高速化の余地が大きくなっています 一般に CPU におけるコア数は 10 個以下ですが GPU におけるコア数は 1000 個以上となるケースもあります 一方で コア 1 つあたりの計算速度は CPU が GPU を上回ります ユニット本体メモリとの関係 [2]GPU クラウドコンピューティング 一般 PC 向けのCPUとGPUの比較 CPU GPU Core i7-6700k GEFORCE GTX 1080 コア数 / スレッド数 4/8 2,560 クロック周波数 ( ターボ時 ) 4.0GHz(4.2GHz) 1.607GHz(1.733GHz) 最大メモリー帯域幅 34.1GB/ 秒 320GB/ 秒 対応するメモリの交換 交換 増設できるボードと一体化し交換不可 メーカー Intel NVIDIA 製品の発売 2015 年 8 月 2016 年 5 月 出典 Intel: https://ark.intel.com/ja/products/88195/intel-core-i7-6700k-processor-8m-cache-up-to-4_20-ghz NVIDIA: https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1080/ 近年 着目されている ディープラーニング などの分析手法は 並列計算による大幅な高速化が可能で GPU を利用することで CPU よりも高速に計算できます クラウド上の GPU を利用してデータ処理を行うことを GPU クラウドコンピューティング と言います クラウドサービスでは分単位 時間単位で CPU や GPU を利用することができ 短期間の利用とすることで費用を抑えることができます クラウド上の高性能 GPU を短期間借りることで実施する GPU クラウドコンピューティング が注目を集めています
GPU クラウドコンピューティングのサービス例 [2]GPU クラウドコンピューティング 3 大クラウドプラットフォームでは それぞれ GPU クラウドコンピューティングを提供しています AWS Azure GCP は GPU クラウドコンピューティングのサービスを 2016 年度に増強 新設しました 3 大クラウドプラットフォームが提供するGPUクラウドコンピューティングのサービスの紹介 AWS(Amazon) Azure (Microsoft) GCP(Google) Amazon Web Services は 米国その他の諸国における Amazon.com, Inc. またはその関連会社の商標です Microsoft は 米国 Microsoft Corporation およびその関連会社の商標です 2015 Google Inc. All rights reserved. Google Cloud Platform は Google Inc. の商標です AWS Azure GCP のそれぞれが提供する GPU クラウドコンピューティングは 最も安価なプランであれば 1 時間あたりの利用料金は 1 ドル前後となっています クラウドにおける HPC の進展により スーパーコンピュータが 1 時間単位で安価にレンタルできるようになっています
分散化技術のイメージとクラウドにおける活用 [3] クラウドにおける分散化技術 分散化技術は 複数のコンピュータを一体として運用 し 物理的なコンピュータの枠にとらわれない技術です 分散化技術は 一般的な仮想化とは逆に 複数のコンピュータを一体として利用 することで データ蓄積やデータ処理を分散する手法です 分散化技術によって複数のコンピュータや機器を一体として利用することで 個々のハードウェアの機能を越えた性能や容量を利用することができます 分散化のイメージ 一般的な仮想化のイメージ 物理サーバ (1) 物理サーバ (2) 物理サーバ (3) 物理サーバ 仮想サーバ A 一体としてデータ蓄積 データ処理 仮想サーバ B 仮想サーバ C 分散化技術として Hadoop( ハドゥープ ) Spark( スパーク ) が代表的です Hadoop および Spark は Apache( アパッチ ) ソフトウェア財団が開発しており 無償で利用することができます Hadoop は 第一段階に当たる HDFS(Hadoop Distributed File System) と呼ばれる複数のコンピューターへのデータの分割保存 第二段階に当たる MapReduce と呼ばれる分散処理技術によって構成されています Hadoop の第二段階の Map Reduce は より高速で利便性の高い Spark( スパーク ) に代替されつつあります Hadoop や Spark が利用できるクラウドサービスがあり 個人レベルでも分散化技術を活用したビッグデータ分析ができるようになりました
クラウドにおける分散化技術のサービス例 3 大クラウドプラットフォームでは それぞれ分散化技術を活用したクラウドサービスを提供しています 3 大クラウドプラットフォームが提供する分散化技術を活用したクラウドサービスの紹介 [3] クラウドにおける分散化技術 AWS(Amazon) Azure (Microsoft) GCP(Google) Amazon Web Services は 米国その他の諸国における Amazon.com, Inc. またはその関連会社の商標です Microsoft は 米国 Microsoft Corporation およびその関連会社の商標です 2015 Google Inc. All rights reserved. Google Cloud Platform は Google Inc. の商標です 分散化技術を活用することで 1 台のサーバコンピュータでは取り扱うことが困難な TB( テラバイト ) PB( ペタバイト ) 単位のデータであっても データの蓄積や分析ができるようになっています 半角英数字の 1 文字のデータ容量が 1Byte( バイト ) であり それを 1000 倍ずつ増加させた単位が KB( キロバイト ) MB( メガバイト ) GB ( ギガバイト ) TB( テラバイト ) PB( ペタバイト ) となっています クラウドに分散化技術の適用することで 非常に容量が大きいビッグデータの蓄積 分析が可能となりました