データベース不要! あ大量データファイルから欲しいデータを即座に取り出す高速 CSV 解析ツール dd 1 解析ブースター は株式会社高速屋の商標です
その山のようなデータ 解析できていますか? データベースによる大量データ解析は敷居が高い 前処理 ( 加工 変換 ) データベース 解析 / 分析 ローディング 蓄積 抽出 欲しいデータを得るまでに とにかく時間がかかる システムの構築や運用に手間やお金がかかる 導入した際の費用対効果が見えない状況にある 解析 / 分析環境を整えられず 利用を諦めることもしばしば 2
解析ブースター とは 欲しいデータを即座に抽出! 大量の CSV ファイルをデータベース化することなく ダイレクトに加工 集計できる高速なデータ解析支援ツールです 大量 CSV ファイル 処理結果 CSV ファイル データ取り込み ( ローディング ) インデクシング 加工集計 省メモリ API (ODBC/JDBC) スクリプト SQL+ プロシージャ 3
解析ブースター の特長 SQL + プロシージャ による CSV ファイルへのダイレクト処理 SQL + プロシージャ を処理系として 高度で柔軟な処理記述が可能実行環境として スクリプトと標準 API(ODBC/JDBC) を装備 大量データの高速処理 独自の高速ツリーアルゴリズム ( 特許取得済み ) と非同期 I/O による ストレージの帯域幅をフル活用した高速データ処理 省メモリ 一時ファイル作成による分割 結合 ( マージ ) 方式により 省メモリで動作 入力ファイルサイズが実用上無制限 テラバイト以上の入力データファイルを指定でき 実用上無制限に処理可能入力データファイルのサイズは製品価格に影響しない 入出力のためのストレージ容量など 本製品の動作要件を満たすことが前提です 4
データ解析の方法 導入 設定が容易 すぐに使える! 5
処理時間の例 対象データ (CSV テキスト ) 販売明細 :3 億件 40GB サプライヤマスタ :5 万件 9MB 各所の販売明細 動作環境 CPU:Intel Xeon x5670 2.93GHz(6 コア ) x 2 メモリ :96GB HDD:600GB(15KRPM) SAS x 16 OS:Windows Server 2008 R2 サプライヤー向け発注データ編集処理 発注データ 指定出荷日のデータ抽出 ( フィルタリング ユニオン ) サプライヤ別出荷数集計 発注データ編集 ( 結合 ) 他社 DB データベース化 ( ローディング ) 21 4 分 50 秒速度比 14 倍!! ( 使用メモリ8GB) 66 分 データベース化不要! 処理時間を大幅短縮 Windows Server 2008 は米国および / または他の国の Microsoft Corporation の登録商標または商標です Intel および Xeon は 米国および / またはその他の国における Intel Corporation の商標です なお 本文中には (TM) (R) マークは明記しておりません 6
処理能力の例 (MB/ 秒 ) 3 億件 40GB のフィルタリング ユニオン MB/ 秒 800 600 400 200 0 1 2 4 8 並列数 並列処理でストレージ帯域幅をフル活用 処理能力 (MB/ 秒 ) の計測は 入力データファイルの読み込み開始から出力ファイルの書き込み完了までが対象です 7
解析ブースター : 利用シーン 1 人 1 台 現場担当者の業務能力が飛躍的に向上! 解析 分析の前処理に 件数絞込み フィルタ / サマリ / 結合 インポート PDCA を高速回転! Excel/Access / 解析ツール 運用 保守時の検証作業に データ検証 OK データ出力 NG 修復処理評価 / テスト検証済みデータ / 処理の投入 迅速なトライ & エラーで精度 UP! 膨大な蓄積データの追跡に追跡時間短縮 早期問題特定! システム間のデータ移行に 移行開発期間短縮 担当案件拡大! 生産ライン / 製造装置 データ収集 設備データ品質データ生産情報 ログトレース / 解析 リコール対応クレーム管理 移行データ出力 移行先データ作成 クレンジング / 名寄せ / マスタ作成 8
システム構成 ノート PC/ デスクトップ PC 上での利用 IA サーバー上での利用 9
製品ラインナップ エントリー版 ユーザー数 1 SQL スクリプト ( バッチ ) 実行 簡易 GUI スタンダード版 5 ( クライアントサーバー型 ) プロシージャ ODBC/JDBC 最大並列処理数 2 16 OS Windows Server 2008 (64bit) R2 / Windows 7 Home Premium(64bit) 以降 標準価格 ( 税別 ) 2 24 万円 90 万円 Windows Server 2008 および Windows 7 は米国および / または他の国の Microsoft Corporation の登録商標または商標です なお 本文中には (TM) (R) マークは明記しておりません 2 別途 年間保守費用として製品価格の 20% が必要です 10
動作環境 スペック CPU 主メモリ ストレージ OS モニター ( 簡易 GUI 使用時 ) Intel Xeon / Core i3 以降 8GB 以上 入力データファイルサイズの 3 倍以上の空き容量 Windows Server 2008 (64bit) R2 / Windows 7 Home Premium(64bit) 以降 WXGA(1280 800) 以上 インターフェース USB2.0 以降 ( ライセンスキー用 ) Windows Server 2008 および Windows 7 は米国および / または他の国の Microsoft Corporation の登録商標または商標です なお 本文中には (TM) (R) マークは明記しておりません 11
dd 適用シーン例 12
適用シーン 1: エクセルや解析ツール向けのデータ抽出 情報システム部業務システム デバイス / センサー ビジネス部門 / 研究部門 事前結合 エクセル CSV ファイル サマリー BI ツール フィルタリング 解析ツール ポイント エクセルや解析ツールは大量データの取り込みが困難 内部処理に時間がかかる エクセルによる複数種 CSV( マスタと明細等 ) の結合は手間がかかる 解析ブースター で対象データを事前に絞り込み / 結合出力 エクセル (Excel ) は Microsoft の登録商標です 13
適用シーン 2: システム間データ移行 リプレス対象システム ターゲットシステム 移行データ抽出 ターゲットデータ作成 抽出 結合 名寄せ 重複排除 マスタ作成など ポイント データ編集プログラムの個別開発はコスト / 期間が膨らんでしまう 高機能なデータ編集ツールは高価 あるいは低速で使い勝手が悪い 解析ブースター でターゲットデータをスマートに高速作成 14
適用シーン 3: バッチ処理 /ETL アクセラレータ Job1 抽出 加工 変換 Job2 処理時間大! ロード Job3 基幹システム データウェアハウス Job2 ボトルネックを解消 ポイント データ量増加に伴いバッチ処理が遅延し サービスへの影響が懸念される 次回リプレスの時期までは ハードウェアを増強せずに運用を継続したい 解析ブースター ( ソフトウェア ) による処理時短で ボトルネックを解消 15
適用シーン 4: Web のアクセスログ解析 サービスシステム 社内向け解析システム データベース 直近ログ データベース 過去ログ ポイント アクセスログの増加に伴い DB への取り込み時間やサーバー資源の圧迫が課題に 膨大な過去ログも解析対象としたいが 全てを DB 化するのは現実的でない 解析ブースター で生ログを直接解析 省資源で手軽な解析環境を併用 16
適用シーン 5: CSV ダウンロードサービス 企業間電子商取引の例 受発注システム ( 本部 ) 取引実績データファイル フィルタ サマリ 抽出 ダウンロード 社内 データベース 取引先 / 店舗 ポイント 従来は 限られた形式でしかダウンロードできず 非効率 きめ細かな集計結果を配信したいが データベースの負荷を上げたくない 解析ブースター で CSV ファイルから高度抽出 DB や転送の負荷を抑制 17
適用シーン 6: サーチャブルなエンコード バックアップ 選択 抽出 ZIP & Password 検索 圧縮 暗号化 復号 ポイント 膨大なテキストファイルのバックアップに手間や時間がかかる ストレージ容量も圧迫 必要データのみを取捨選択し セキュリティにバックアップしたい 解析ブースター でサーチャブルなエンコードファイルを高速作成 18
適用シーン 7: バッチ処理の試作設計 テストツール 稼働中バッチ処理 Job1 Job2 試験出力 新 SQL 文 十分に動作確認が取れた SQL 文をシステムに投入 Job1 Test 新しい処理の評価 確認 ポイント 稼働中のシステムを止めることなく 現行処理の修正 改良を検討したい 出力システムと同等規模の開発システムを用意するための出費は避けたい 解析ブースター で新処理の確認サイクルを短縮し テストを効率化 19
適用シーン 8: IoT におけるデータ整理 各種センサー / デバイス 一定時間 / 一定量毎に処理を起動 データセンター / クラウド RFID Upload 不正 / 不要データフィルタリング統計処理等 ポイント デバイス群などの出力データを少量 一次蓄積し 不正 / 不要データを削除 蓄積データをグループ化し 統計データ ( サマリ ) を作成してデータセンターに送出 解析ブースター でネットワーク トラフィックとサーバー処理負荷を大幅軽減 20
システム開発支援 解析ブースターは 高度処理系 (SQL + プロシージャ ) による豊富な機能を備えたプロフェッショナル向け開発ツール 解析ブースターを活用した効果的なシステム開発を支援します お客様 / パートナー様 システム開発 ご提供 ユーザー 一部受託技術支援 ( スキル移転 ) 21