目次 はじめに Introduction Analyzing Big Data Vectorwise and Hadoop Environments Vectorwise Hadoop Connector Perform

Similar documents
はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

平成20年度成果報告書

PowerPoint プレゼンテーション

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

性能を強化した 第 12 世代 Dell PowerEdge サーバの RAID コントローラ Dell PERC H800 と PERC H810 の OLTP ワークロード性能比較 ソリューション性能分析グループ Luis Acosta アドバンストストレージエンジニアリング Joe Noyol

サンプル:OSDL DBT-3によるPostgreSQLの性能評価(SATA HDD&SATA SSD編)

Oracle GoldenGate for Big Data

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

OSS 体験セミナー Hadoop の概要 高スケーラブルな分散管理基盤 2 つのコア機能 分散ファイルシステム (HDFS) 分散処理フレームワーク (Map/Reduce) BigData の管理基盤として注目 分散処理基盤 (Map/Reduce) Hadoop 分散ファイルシステム (HDF

Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版

Hadoop LZO圧縮機能の検証

Microsoft Word - JP-AppLabs-MySQL_Update.doc

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

EMC Isilon X シリーズ EMC Isilon X200 EMC Isilon X400 OneFS オペレーティングシステムで動作する EMC Isilon X シリーズは 優れた汎用性を持ちながらもシンプルなスケールアウトストレージアーキテクチャを採用して 大量のデータへの高速アクセス

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

(Microsoft Word - WhitePaper_EvaluationAvanceNVBU__rev2_\203t\203H\201[\203\200\211\374\222\371\224\305_.doc)

EMC ISILON S シリーズノードの仕様 ISILON S200 ノードの 特長とオプション 300 GB HDD 600 GB HDD 900 GB HDD 1.2 TB HDD (Isilon OneFS 以降が必要 ) 容量 (HDD/SSD) 5.4~7.2 TB/ 10.

InfiniDB最小推奨仕様ガイド

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

Windows Server 2016 Hyper-V ストレージQoS機能の強化

PowerPoint プレゼンテーション

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Oracle Advanced Compression:ディスクの節約とデータベースの高速化を可能にする包括的な圧縮機能

proventia_site_protector_sp8_sysreq

スライド 1

OSS Mtg

Oracle Berkeley Database 11g Release 2パフォーマンスの概要

Microsoft Word - OfficeScan10.6_System_Requirements-jp_ doc

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

hpc141_shirahata.pdf

スライド 1

Oracle Data Pumpのパラレル機能

今さら聞けない!? Oracle入門 ~前編~

Microsoft PowerPoint - 02Hinemosシステムアナライズオプション.pptx

ウイルスバスター コーポレートエディション 10.6 SP3 システム要件

OPENSQUARE

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

Control Manager 6.0 Service Pack 3 System Requirements

EMC Data Domain SISL Scaling Architecture

技術が生み出す魔法!最新ハードウェアとチューニングで激速データベース

はじめに コースの概要と目的 Oracle をより効率的に使用するための SQL のチューニング方法について説明します また 索引の有無 SQL の 記述方法がパフォーマンスにどのように影響するのかを実習を通して理解します 受講対象者 アプリケーション開発者 / データベース管理者の方 前提条件 S

KSforWindowsServerのご紹介

目次 1. 検証目的及び概要...1 1) 検証目的...1 2) 検証概要 検証環境詳細 検証アプリケーション詳細 検証方法 検証結果 考察...9

MySQL Server 5.0 Load Data ベンチマーク

提案書

データ仮想化と NOSQL データ ストア

Hadoop Introduction

MAGNIA Storage Server Configuration Guide

Microsoft PowerPoint - ShadowProtectIT手順書_ ppt

目次 Windows 2003 への新規インストール... 3 Windows 2008 への新規インストール... 4 Windows 2012 への新規インストール... 6 Microsoft SQL のサポート... 8 IPv4/IPv6 のサポート... 8 制限事項... 9 Web

Introduction

Oracle Database 12c

Microsoft Word - 編集用_Ensemble2010.2HL7MessagingThroughput.docx

Python Perl JavaScript および PHP などの ランザクション ID を利用することで 重複する処理 な Tuple が流れるかはグルーピングより決定されま 多くの言語をサポートしています を判別することができます す 6 簡単なデプロイと運用 は簡単にデプロイし 動作させるこ

Corp ENT 3C PPT Template Title

PowerPoint Presentation

Perforce vs. Subversion

富士通株式会社製サーバ「PRIMERGY TX200 S6」とVIRIDENT社製「tachIOn」接続検証結果

タイトルを1~2行で入力 (長文の場合はフォントサイズを縮小)

▼ RealSecure Desktop Protector 7

038_h01.pdf

PowerPoint Presentation

HPE Integrity NonStop NS2300 サーバー

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

サーババンドル版ライセンス NX7700x シリーズ Express5800 シリーズのサーバと同時に購入することで パッケージ製品よりも安価 に導入することのできるライセンスも提供しています ライセンスの注意事項 サーババンドル版のライセンスについてサーババンドル版では 通常のサーバライセンスおよ

スライド 1

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

今さら聞けない!? Oracle入門 ~後編~

PowerPoint プレゼンテーション

Joint Content Development Proposal Tech Docs and Curriculum

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト

Silk Central Connect 15.5 リリースノート

EMC Isilon NLシリーズ

Enterprise Cloud + 紹介資料

MIRACLE System Savior による Red Hat Storage 2.1 on HP ProLiant SL4540 Gen8 バックアップ / リストア検証報告書 ミラクル リナックス株式会社 作成者 : エンタープライズビジネス本部 青山雄一

ライセンスの注意事項 サーババンドル版のライセンスについてサーババンドル版では 通常のサーバライセンスおよび 4 コアライセンスを ベースライセンス 追加サーバライセンスおよび追加 2 コアライセンスを 追加ライセンス と呼びます 1 台の物理サーバに対してベースライセンスは 1 つしか購入すること

PowerPoint プレゼンテーション

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

平成20年度成果報告書

ActiveImage Protector 3.5


Microsoft Word - nvsi_100222jp_oracle_exadata.doc

スライド 1

untitled

使用する前に

Slide 1

<4D F736F F D2091B28BC68CA48B8695F18D908F912E646F63>

Sharing the Development Database

2017/8/2 HP SiteScope software 監視機能対応表 この監視機能対応表は HP SiteScope software v11.33) に対応しています モニタ モニタ説明 モニタ説明 SiteScope for Windows SiteScope for Linux ネット

Transcription:

Vectorwise 3.0 Fast Answers from Hadoop Technical white paper - 1 -

目次 はじめに...- 3 - Introduction...- 3 - Analyzing Big Data...- 4 - Vectorwise and Hadoop Environments...- 5 - Vectorwise Hadoop Connector...- 5 - Performance Tests...- 6 - Conclusion...- 9 - - 2 -

はじめに Vectorwise は パフォーマンスとプライス パフォーマンスにおいて 他を圧倒するデータベースです ( ページ 4 Figure 1 を参照 ) この度発表した Vectorwise Hadoop コネクターを利用することにより Apache Hadoop Distributed File System(HDFS) から Vectorwise に対し 低価格の一般的なハードウェアを使用しながらも 極めて高速でデータをロードできるようになりました Vectorwise はシングルサーバ Hadoop は 4 ノード構成とし 全て 15,000 ドル以下 16 コアの同一ハードウェアを使用し パフォーマンステストをしたところ HDFS から Vectorwise へのロードのスループットとして 1 時間当たり 3 TB 以上を達成しました Vectorwise Hadoop コネクターは Hadoop Distributed File System(HDFS) 上のデータを高速 簡単に読み出し Vectorwise に転送し 高速検索を可能にします 本書では Vectorwise Hadoop コネクターの使用例とパフォーマンスに関して記述します Introduction データ自体がビジネスの中核となっている企業が急速に増加しています そのような企業は Actian Vectorwise や Hadoop といった 高速で費用対効果の高いビッグデータ向けの技術をうまく利用しながら 構造化データや非構造化データからデータの価値を引き出す新しいシステムを構築しています 長い間 リレーショナルデータベースが 構造化データを管理 分析するための標準でした しかし Web ログ ソーシャルメディア ロケーション センサー そして各種の機械が自動生成するデータなど 次々と新しい技術と 様々な構造化されにくいタイプのデータが生成されています このような新しいタイプのデータが増加するにつれ リレーショナルデータベースは徐々に非効率で 高価なストレージエンジンとなってきました Hadoop は 大量のコンテンツ情報を取り込み 取り出すためのマッシブ パラレル アーキテクチャであると同時に 非構造化 半構造化データにほとんど無限のストレージを提供し ビッグデータの一般的なフレームワークになってきました しかし Hadoop はシンプルなアーキテクチャであり Vectorwise のような 多くのリレーショナル データベースが提供する高度にインタラクティブなマルチユーザ検索環境のためのオプティマイゼーション機能が備わってはいません - 3 -

Analyzing Big Data Hadoop は 大量データをクラスター間で分散処理するマッシブ パラレル アーキテクチャです Hadoop は ビッグデータを格納 管理し 取り出すには理想的なアーキテクチャですが データを検索するのは極めて低速です Hadoop は クラスターの全てのノードに並列処理を行なわせるためのオーバーヘッド 独立したディスク 多様なデータなどにより 検索が遅くなってしまいます 特にユーザの検索が競合したりするとなおさらです 結果として Hadoop は 多人数による同時検索はもとより 高速な非定形検索には向いていないことになります Vectorwise は ビッグデータからの高速レポーティング 高速分析向けの記録破りのデータベースです Vectorwise は 今日の x86 CPU の持つ処理能力を使い切るために特別に設計された高パフォーマンスのエンジンを搭載し ACID 特性に準拠した ANSI SQL ベースのリレーショナルデータベースです Vectorwise は データを他のリレーショナルデータベースより超高速で処理するので ユーザはより多くのデータをより速く分析できるようになります 更に 他のデータベースが同等の結果を得るためにかなりのハイスペック機を使用したり クラスター構成を採用したりするのに対して Vectorwise では 全ての作業をシングルサーバでこなします Vectorwise はパフォーマンス プライス パフォーマンス エネルギー効率の分野における TPC-H で数々の記録を有しています しかも これまで考えられなかったような圧倒的な差をつけて従来の記録を塗り替えています (www.tpc.org/tpch) - 4 -

Vectorwise and Hadoop Environments Vectorwise と Hadoop の統合は ビッグデータの分析という課題を実現する強力な組み合わせとなります Vectorwise は現在 NK IsCool Entertainment edo interactive といったソーシャルメディア オンラインゲーム / マッチング データアグリゲータといった 10 を超えるユーザサイトで Hadoop データの分析パフォーマンスを格段に引き上げています 以下の図では Hadoop 及びその他のシステムに対する分析クエリーをスピードアップさせるため Vectorwise がどのように利用されるのかを示しています Vectorwise はリレーショナルデータベースと Hadoop に格納されたデータに対しての分析クエリーに高速で答えを返します Vectorwise Hadoop Connector Vectorwise Hadoop コネクターは Hadoop から Vectorwise へ大量データをロードする最も高速で費用対効果の高い方法です Vectorwise Hadoop コネクターは Hadoop/HDFS と Vectorwise の間において パラレル バルクローダーとして機能します コネクターは Hadoop の並列処理機能を利用してデータをオフロードし Vectorwise の圧縮されたストレージブロックを事前生成した後 データを Vectorwise へロードします その際 データベースサーバ上の Vectorwise に対する影響は極めて限定されたものであり 高速の SQL データ検索には影響を与えないように設計されています - 5 -

Vectorwise Hadoop コネクターは Actian 社によって開発 サポートされ Hadoop の安定したバージョンである 1.0.3 以降のバージョンで稼働します Performance Tests 100GB から 1TB の範囲の様々な量のデータでパフォーマンステストを行いました Configuration Overview データのロード性能は Hadoop と Vectorwise のハードウェア構成 データ量 データのタイプ そしてテーブル定義といった複数の要素によって異なってきます 全てのテストにおいて Intel E5-2650 CPU(8 コア /CPU 2GHz 2.8GHz ターボ 20MB キャッシュ ) を 2 個搭載した Dell R720 と 192GB RAM 及び 12 x 300 GB 10k RPM ドライブが使用されました 合計で 5 台の全く同じサーバを使用しました 1 台で Vectorwise を稼働させ 残り 4 台で小規模な Hadoop クラスター ( マスターノード 1 台 Map/Reduce ジョブを実行する 3 台のスレーブサーバ ) を構成しました Hadoop クラスターのそれぞれのスレーブでは最大で 35Map タスクと 24 の Reducer タスクが実行できるよう設定しました Vectorwise サーバのハードウェア価格は合計で 1 万 5 千ドル以下です - 6 -

Data Load Rates from Hadoop to Vectorwise ロードするデータサイズは 115GB(1,800 万行 ) から 1TB(1 億 5,800 万行 ) です ターゲットテーブルは 48 カラム (2 個の整数カラム 20 文字からなる 1 個の文字型カラム 170 文字からなる 45 個の 2 バイト文字型カラム ) からなります データは完全にランダムに生成しました 以下の Table 1 は reducer がデータを Vectorwise サーバに最初に送った時点からのロード速度が 1 時間当たり 2TB~3TB の辺りにあることを示しています 最も速いのは 230GB をロードした時の 4 分 35 秒で 1 時間当たり 3.03TB のロード速度になっています 1TB では 1 時間当たり 2.14TB で 28 分 30 秒でロードされました 全てのテストは データ量とは無関係に同一のクラスター構成で実行しました 以下の Figure 4 では 500GB 以上の比較的大きなデータ量では 安定的に 1 時間当たり 2TB 程度のロードパフォーマンスを示しているのが分かります テストは 3 台の Hadoop スレーブサーバを使用しました - 7 -

Data Load Size (GB) End-to-End Data Load Rates from Hadoop to Vectorwise 以下のテスト結果は 小規模の Hadoop クラスター上で Hadoop ジョブが開始した時点から最終的にロードが終了するまでのロード時間を計測したものです (Table 1 の数値は Vectorwise データベースにデータの書き込みが始まった時点からの数値です ) Vectorwise データベースに書き込む前に Hadoop 側で Vectorwise を圧縮してデータブロックを生成するため データロードのスループットは低くなり 1 時間当たり 0.59TB から 0.48TB 程度になっています もし Hadoop のスレーブサーバを増やすことができれば Hadoop 側でのデータブロックを生成するための時間を減少させることができ 結果として Vectorwise Hadoop コネクターの全体のスループットを改善することになります - 8 -

Conclusion Hadoop と Vectorwise を組み合わせて使用することにより ビッグデータの抱える問題点を解決することが出来ます Hadoop は 大量データを収集 整理 格納 そして取り出すための 拡張性が極めて高いデータの格納庫です 一方 Vectorwise は ビッグデータの分析スピードという領域では 他のデータベースを圧倒する高速データベースです Vectorwise Hadoop コネクターは Hadoop から Vectorwise へのデータロードを高速 かつ経済的に行います Hadoop と Vectorwise からなるこの 2 層構造により 汎用的 一般的なハードウェア上でビッグデータを高速 かつ経済的に分析出来るようになります Vectorwise Hadoop ローダーは Hadoop データへのシームレスなアクセス そしてリアルタイムに近い分析を可能とし 結果として ビッグデータの分析と それに基づいたアクションを決定することが出来るようになります 関連情報と Vectorwise 及び Hadoop コネクターの評価版は以下から入手可能です http://www.actian.com/vectorwise - 9 -