スケジューリングシステムとレプリカ管理システムによるデータインテンシブアプリケーション実行環境

Similar documents
Microsoft PowerPoint - yamagata.ppt

PowerPoint プレゼンテーション

i Ceph

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

Microsoft PowerPoint - Condor_gt3

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

Arcserve Replication/High Availability 製品の仕組み

Perforce vs. Subversion

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

10年オンプレで運用したmixiをAWSに移行した10の理由

Windows Server 2016 Hyper-V ストレージQoS機能の強化

概要 ここでは先程デモを行った OpenStack の中で仮想マシンのデータがどのように管理されているかをご紹介致します OpenStack の中でデータがどのように配置され 管理されているかを知ることは 可用性を検討する上で非常に重要になります 2

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

Microsoft PowerPoint - 広域分散2005-8pdf用.ppt[読み取り専用]

proventia_site_protector_sp8_sysreq

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2018 年 10 月 Arcserve Japan Ver

DataKeeper for Windows リリースノート

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft PowerPoint - SWoPP2010_Shirahata

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2016 年 06 月 Arcserve Japan Ver

ジョブ管理ソフトウェア LoadStar Scheduler ご紹介資料 ~ システム運用品質の向上とコスト削減を実現 ~

Microsoft PowerPoint VIOPS.ppt

SLAMD導入手順

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

Oracle Real Application Clusters 10g: 第4世代

PowerPoint プレゼンテーション

Corp ENT 3C PPT Template Title

並列分散ワークフロー処理システムの研究開発

Microsoft PowerPoint - hpc0703nakada_slide.ppt

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

KSforWindowsServerのご紹介

SinfonexIDaaS機能概要書

ms_2.pptx

Microsoft Word - nvsi_080177jp_trendmicro_bakbone.doc

クラスタ構築手順書

Microsoft PowerPoint - 【D2-6】IBM_濱田氏

Hadoop LZO圧縮機能の検証

コンポーネントのインストール レプリケーション運用開始までの流れ 1 コンポーネントのインストール 2 シナリオの設定 3 同期処理 レプリケーション開始!! CA ARCserve Replication/HA 構成例 管理用 PC CA ARCserve RHA マネージャ CA ARCserv

Veeam_Corporate_Template_16x9

連絡先リストの一括管理

1.3 ソフトウェア体系および対応表 (1) istorage ソフトウェアは istorage シリーズのディスクアレイを管理 および ディスクアレイが有する機能を制御するソフトウェア群です このソフトウェア群が提供するストレージ管理 制御機能を利用すると 様々なストレージソリューションを実現でき

ActiveImage Protector 3.5

InfiniDB最小推奨仕様ガイド

Windows Embedded 8 Standard

Express5800 シリーズ Windows Server 2019 NIC チーミング (LBFO) 設定手順書 Microsoft Windows Windows Server は 米国 Microsoft Corporation の米国およびその他の国における登録商標です その他 記載され

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

bitvisor_summit.pptx

PowerPoint プレゼンテーション

V8_教育テキスト.dot

CPUスケジューリング

WebSAM Storage ReplicationNavigator WebSAM Storage ReplicationNavigator Oracle RAC Option 本製品を販売する場合 事前に下記問い合わせ先へご連絡をお願いします < 問い合わせ先 > 8. 問い合わせ窓口 を参照し

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

Microsoft Word - site_protector_sp7_sysreq.doc

スライド 1

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

目次 はじめに Introduction Analyzing Big Data Vectorwise and Hadoop Environments Vectorwise Hadoop Connector Perform

StoreEasy 1x40 RAID構成ガイド

Administration of Veritas Cluster Server 6.0 for UNIX の管理練習問題 例題 1. installvcs -installonly が正常に実行されたことが記録されるテキストファイルは次のどれですか (2 つ選択 ) a. インストールログ b.

GGF6 参加報告 担当者 : 建部修見 ( 産総研 ) JPGRID-GGF0204 会員限定 AREA 内容状況 終了 Group 新設 Group DATA 現状でファイル転送 複製管理 永続的データ管理 データベースアクセスグリッドサービスのグループが存在する ファイル転送では GridFT

リソース制約下における組込みソフトウェアの性能検証および最適化方法

Elastic MapReduce bootcamp

Oracle Cloud Adapter for Oracle RightNow Cloud Service

TimeCardView と Cisco Unified Communications Express Historical Reporting Client

PowerPoint プレゼンテーション

Microsoft Word - JP-AppLabs-MySQL_Update.doc

Microsoft Word - nvsi_050080jp_dell_d2d.doc

hpc141_shirahata.pdf

160311_icm2015-muramatsu-v2.pptx

他の章は下記をクリックして PDF 一覧からお入り下さい IT ライブラリー (pdf 100 冊 ) 目次番号 270 番 Windows Server Enterprise 2008 R2 完全解説 ( 再入門 )

HP StorageWorks X9000 Network Storage System

05-scheduling.ppt

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

VNX ファイル ストレージの管理

Q-Chem 5.2 Linux OS へのオンラインインストール 2019 年 6 月 24 日 Q-Chem 5.2 のインストール Linux OS へのオンラインインストール ( 推奨 ) ( 株 ) アフィニティサイエンス 概要 :Linux OS へのインストールには, オンラインインス

リレーショナルデータベース入門 SRA OSS, Inc. 日本支社 Copyright 2008 SRA OSS, Inc. Japan All rights reserved. 1

PostgreSQL による クラスタ構成の可能性 SRA OSS, Inc. 日本支社 取締役支社長 石井達夫

スライド 1

TFTP serverの実装

e-サイエンス基盤としての 計算機センターPOP(Point-of-Presence) 連携

Insert VERITAS™ FAQ Title Here

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

PowerPoint プレゼンテーション

ArcGIS for Server 機能比較表

平成20年度成果報告書

ITdumpsFree Get free valid exam dumps and pass your exam test with confidence

White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

Atlantis Computing 会社概要 ソフトウェア会社 2006 年設立 会社所在地 米国カリフォルニア州マウンテンビュー 世界最大の VDI 導入システムで採用 JP Morgan Chase にて採用 VDI 最適化のイノベータ --- VDI の採用を加速させる! ネットワールドは

PowerPoint プレゼンテーション

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

ソフト活用事例③自動Rawデータ管理システム

Title

EnSightのご紹介

PowerPoint プレゼンテーション

Microsoft Word - nvsi_060132jp_datadomain_restoreDRAFT4.doc

iStorage NSシリーズ管理者ガイド(詳細編)

JP1 Version 11

Transcription:

レプリカ管理システムを利用した データインテンシブアプリケーション 向けスケジューリングシステム 町田悠哉 滝澤真一朗, 中田秀基, 松岡聡 : 東京工業大学 : 産業技術総合研究所 : 国立情報学研究所

研究背景 グリッド環境で扱われるデータサイズの大規模化 高エネルギー物理学 天文学 バイオインフォ etc e.g.) CERN の LHC 計画 [http://lhc.web.cern.ch/lhc/] LHC 加速器を用いた陽子衝突実験 ( 07 稼働予定 ) 毎年ペタバイト級のデータを生成 解析には強力な計算能力が必要 世界中に分散したリソースを利用 計算資源とデータの効率的な管理が必要

グリッド環境での大規模データ処理 グリッド環境でのデータインテンシブジョブ実行 観測された大規模データの解析 バッチスケジューリングシステムによる実行マシン決定 分散ファイルシステム (NFS, AFS, etc) によるデータ共有 転送ツール (GridFTP, Stork, etc) によるステージング ユーザが転送ノードを指定 同一データセットを利用する均質なタスクの集合 解析時のパラメータなどを変更 従来のデータインテンシブ実行環境には問題点が

問題点 分散ファイルシステムなどを利用したデータ共有 ステージングによるデータの利用 Scheduler Data Server Submit Machine F Job F I/O ノードにおいてアクセス集中が発生

大規模データ処理の問題点 計算資源の利用効率を評価 核酸 アミノ酸の相同性検索ツール BLAST[NCBI] クエリに類似した配列をデータベースから検索 5 クエリの検索を行うジョブを 80 個サブミット 約 3GB のデータベースを使用 20 分弱の計算時間が必要 PrestoIII クラスタの 16 ノードを実行マシンとして使用 1 ノードあたり平均 5 ジョブを実行 CPU Opteron 242 Memory 2GBytes OS Linux 2.4.27 Network 1000Base-T

実行中ジョブ数の推移 実行中ジョブ数 16 14 12 10 8 6 4 2 0 データベースファイルをあらかじめ各実行 NFSによる共有マシンに格納 scpによるステージング 0 50 100 150 200 250 経過時間 (min) 共有手法ステージング理想状態 理想状態と比較して大きくパフォーマンスが低下

実行中ジョブ数の推移 - ステージング 実行中ジョブ数 16 14 12 10 8 6 4 2 0 0 50 100 150 200 250 経過時間 (min) 共有手法ステージング ( 計算 ) ステージング ( 転送 ) データ転送により遊休時間が発生

問題点 レプリカによるアクセス分散 データレプリケーション データの複製 ( レプリカ ) を作成してアクセスを分散 ポリシーに応じたレプリカの作成 削除 ユーザによるレプリカ管理 1 対 1 転送を想定しているためアクセス集中発生 ジョブスケジューリングとは独立なレプリケーション データインテンシブアプリケーションを効率的に実行するためのシステムとして十分ではない

研究目的と成果 研究目的 ユーザ利用負荷を抑えグリッド環境でデータインテンシブアプリケーションを効率的に実行するためのスケジューリング手法の提供 研究成果 バッチスケジューリングシステムを拡張し レプリカ管理システムと連動したジョブ実行手法を提案 従来のシステムよりも効率的にデータインテンシブアプリケーションを実行できることを確認

関連研究 - Stork[Kosar ら, 04] データ転送用スケジューリングシステム DAGMan を介して Condor[Livny ら, 88] と連動 データインテンシブアプリケーション実行環境を提供 DAGMan がジョブの依存関係を解決 計算ジョブは Condor にサブミット データ転送ジョブは Stork にサブミット 転送元 転送先が静的に決定されるためアクセス集中の回避は困難

関連研究 - BAD-FS[Bent ら, 04] ストレージのコントロールをスケジューリングシステムにエクスポーズ WAN 上のファイル転送の最小化 データインテンシブアプリケーションを効率的に実行 利用するデータは静的に決定 ユーザの負荷が高い タスク間のデータの流れ サイズなどを記述する必要あり 理想的には利用するデータ名の記述のみ job a a.condor job b b.condor job c c.condor job d d.condor parent a child b parent c child d volume b1 ftp://home/data 1 GB volume p1 scratch 50 MB volume p2 scratch 50 MB mount b1 a /mydata mount b1 c /mydata mount p1 a /tmp mount p1 b /tmp mount p2 c /tmp mount p2 d /tmp extract p1 x ftp://home/out.1 extract p2 x ftp://home/out.2

関連研究 レプリカ管理 Globus データ管理サービス [Allock ら, 01] Replica Location Service(RLS) による論理ファイルと物理ファイルのマッピング管理 GridFTP や Reliable File Transfer(RFT) によるデータ転送サービス ユーザによるレプリカ管理が必要で利用負荷が高い 1 対 1 転送を想定しているためアクセス集中が不可避 ジョブのスケジューリングとは独立な処理

提案手法 ジョブスケジューリングとレプリカ管理をタイトに結合 データロケーションを意識したジョブスケジューリング データ再利用性の向上 データへのアクセス効率の向上 同一データ転送リクエストの集約 複数ノードへのマルチキャスト転送 計算資源の遊休時間の有効利用 無視できないアクセスコストの有効利用 データ転送と計算の同時実行 システム全体の資源利用効率が上昇

提案システムの設計 データの仮想化によるユーザ利便性の向上 仮想的な名前空間と物理ロケーションのマッピング管理 レプリカ情報を加味したジョブスケジューリング レプリカ保持ノードへ優先的にスケジューリング 再利用性 転送コストの低いノードへスケジューリング 遊休時間縮小 ローカルディスクへのデータのキャッシング ジョブ実行後にステージングデータを消去せずキャッシング 同一データの転送要求の集約 WAN 上のデータ転送を最小限に抑制 計算資源の遊休時間の削減 データ転送中に計算ジョブを実行

提案システムの概要 サブミットマシン Job job info. 実行マシン A スケジューラ allocate allocate machine info. 実行マシン B query レプリカ管理システム replica info. File F A B F F replicate レプリカ管理システムとの連動によりデータの再利用性の向上 アクセス集中の回避に

プロトタイプシステムの実装 容易に拡張可能なバッチスケジューリングシステムを実装し レプリカ管理との連動のために拡張 バッチスケジューリングシステム Jay[ 町田ら, 04] Condorを規範とした容易に拡張可能なシステム セキュリティ基盤にGSI[Fosterら, 98] を利用 複製管理システム MultiReplication[Takizawa ら, 05] セントラルマネージャー ClassAd ClassAd サブミットマシン 実行マシン

Jay システムの概要 Match notification Job Request Central Manager Negotiator Collector ClassAds Matchmaking Match notification ClassAd Schedd Shadow Submit Machine Startd Starter Execute Machine Computation

スケジューリング機構 受信したマシンとジョブの ClassAd[Livny ら, 97] の中からマッチメイキング [Raman ら, 98] により最適なマシンとジョブの組み合わせを決定 マシンの ClassAd MyType = Machine TargetType = Job Memory = 256 Arch = INTEL OpSys = LINUX Requirements = (Owner == smith ) ジョブの ClassAd MyType = Job TargetType = Machine Cmd = sim Owner = smith Args = 900 Out = sim.out Rank = Memory Requirements = (Arch == INTEL ) && (OpSys == LINUX )

レプリカ管理システムとの連動 実行マシンの Startd が定期的に各ファイルのレプリカ作成コストを見積もり セントラルマネージャに送信するマシン情報 ClassAd に得られたレプリカコストに応じたレプリカ情報を追加 現実装ではレプリカ作成コストとして RTT 値を使用 MyType = Machine TargetType = Job Memory = 256 Arch = INTEL OpSys = LINUX ReplicaInfo = data1,500, data2,294, RTT=0.5 1 RTT=1.2 2

本システムのスケジューリング データロケーションを意識したスケジューリング 実行マシンからセントラルマネージャに送信されたマシン情報に追加されたレプリカ情報を利用 マッチメイキング [Raman ら, 98] 時に rank 値にレプリカのロケーションに応じた値をプラス ユーザが記述するサブミットファイル executable = application input = input.$(process) output = output.$(process) error = error.$(process) arguments = $(Replica_Files) transfer_replica_files = data1, data2 queue 100

レプリカ管理システム MultiReplication[Takizawa ら, 05] を利用 レプリカの位置情報管理する Replica Location Service サイト内では Dolly+[Manabe, 01] による転送 ノード数に対して O(1) の転送時間 アクセス集中回避 Site B Site A HTTP Data Trans Client Data Trans Server F OK request Data Trans Negotiator request F Data Trans Client Data Trans Server F Dolly+ Data Trans Client Data Trans Server F

データ転送と計算の同時実行 データ転送と計算の同時実行 ジョブの特性と実行マシンの状態に応じたスケジューリング データ転送中の実行マシンにコンピュートインテンシブジョブ 計算実行中の実行マシンにデータインテンシブジョブのデータ転送 ジョブ特性の判定基準 ステージングすべきデータサイズにより判定 マシンごとに設定された閾値より小さければコンピュートインテンシブジョブと判定

システム全体図 Central Manager RLS server Data Trans Negotiator request Schedd Shadow ClassAds location list query location list Site A Shadow Startd request OK Startd Starter Site B Starter DataTransClient F DataTransClient DataTransServer F DataTransServer Dolly+ F HTTP

評価実験 計算資源の利用効率を評価 核酸 アミノ酸の相同性検索ツール BLAST[NCBI] クエリに類似した配列をデータベースから検索 5 クエリの検索を行うジョブを 80 個サブミット 約 3GB のデータベースを使用 20 分弱の計算時間が必要 PrestoIII クラスタの 16 ノードを実行マシンとして使用 1 ノードあたり平均 5 ジョブを実行 CPU Opteron 242 Memory 2GBytes OS Linux 2.4.27 Network 1000Base-T

マシン使用率の推移 - 従来手法 100 実行マシン使用率 (%) 80 60 40 20 0 0 50 100 150 200 250 経過時間 ( 分 ) NFS ステージング ( 計算 ) ステージング ( 転送 )

マシン使用率の推移 - 提案手法 実行マシン使用率 (%) 100 80 60 40 20 0 アクセス集中回避 = リクエスト集約 データ再利用性向上性能向上 57.5% の 反復転送を回避性能向上 0 50 100 150 200 250 経過時間 ( 分 ) 44.3% の NFS ステージング提案手法 ( 計算 ) 提案手法 ( 転送 ) システム全体の利用効率アップ

平均実行時間の比較 Average Execution Time (min) 50 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 Number of Nodes 共有手法 ステージング 提案手法 理想状態 従来の手法より高い性能が確認された

データ転送と計算の同時実行 データ転送とコンピュートジョブを同時実行 ジョブ 1 BLAST 40 ジョブサブミット 約 3GB のデータベースファイルを毎回ステージング ジョブ 2 モンテカルロ法による円周率 8 ジョブサブミット 評価環境 PrestoIII クラスタ 8 ノード

計算実行中のジョブの推移 ( 同時実行なし ) 8 7 6 データ転送中の遊休サイクル 計算中ジョブ数 5 4 3 2 1 0 0 10 20 30 40 50 60 70 80 90 100 110 経過時間 (min)

計算実行中のジョブの推移 ( 同時実行あり ) 8 7 計算実行中ジョブ数 6 5 4 3 2 1 遊休サイクルの効率的な利用 20% のスループット向上 0 0 10 20 30 40 50 60 70 80 90 100 110 経過時間 (min) 同時実行なし 同時実行あり システム全体のスループット向上

まとめ バッチスケジューリングシステムJayを拡張しレプリカ管理システムと連動したスケジューリングを実現 サンプルアプリケーションの実行により従来手法と比較して効率的なジョブ実行を確認 遊休サイクルの効率的な利用によるスループット向上

今後の課題 より効率的なデータ転送 WAN 上のデータ転送のさらなる抑制 スケジューリングアルゴリズムの改良 詳細なジョブの特性 マシン状態の把握 スケジューリングコストと最適なマッチングの評価 大規模出力データへの対応 ワークフロー実行 チェックポイント機構の導入 さらなるスループットの向上 複雑なシナリオを用いた大規模環境での評価実験