スケジューリングシステムとレプリカ管理システムによるデータインテンシブアプリケーション実行環境

Similar documents
Microsoft PowerPoint - yamagata.ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - Condor_gt3

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

i Ceph

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

ジョブ管理ソフトウェア LoadStar Scheduler ご紹介資料 ~ システム運用品質の向上とコスト削減を実現 ~

proventia_site_protector_sp8_sysreq

SLAMD導入手順

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

Corp ENT 3C PPT Template Title

概要 ここでは先程デモを行った OpenStack の中で仮想マシンのデータがどのように管理されているかをご紹介致します OpenStack の中でデータがどのように配置され 管理されているかを知ることは 可用性を検討する上で非常に重要になります 2

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

Microsoft Word - site_protector_sp7_sysreq.doc

Windows Server 2016 Hyper-V ストレージQoS機能の強化

Microsoft PowerPoint - SWoPP2010_Shirahata

Elastic MapReduce bootcamp

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2016 年 06 月 Arcserve Japan Ver

コンポーネントのインストール レプリケーション運用開始までの流れ 1 コンポーネントのインストール 2 シナリオの設定 3 同期処理 レプリケーション開始!! CA ARCserve Replication/HA 構成例 管理用 PC CA ARCserve RHA マネージャ CA ARCserv

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

SinfonexIDaaS機能概要書

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2018 年 10 月 Arcserve Japan Ver

DataKeeper for Windows リリースノート

Arcserve Replication/High Availability 製品の仕組み

並列分散ワークフロー処理システムの研究開発

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Microsoft PowerPoint VIOPS.ppt

Perforce vs. Subversion

Microsoft PowerPoint - 【D2-6】IBM_濱田氏

HP StorageWorks X9000 Network Storage System

Veeam_Corporate_Template_16x9

Hadoop LZO圧縮機能の検証

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

Microsoft PowerPoint - 広域分散2005-8pdf用.ppt[読み取り専用]

1.3 ソフトウェア体系および対応表 (1) istorage ソフトウェアは istorage シリーズのディスクアレイを管理 および ディスクアレイが有する機能を制御するソフトウェア群です このソフトウェア群が提供するストレージ管理 制御機能を利用すると 様々なストレージソリューションを実現でき

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

Microsoft Word - nvsi_080177jp_trendmicro_bakbone.doc

VNX ファイル ストレージの管理

Q-Chem 5.2 Linux OS へのオンラインインストール 2019 年 6 月 24 日 Q-Chem 5.2 のインストール Linux OS へのオンラインインストール ( 推奨 ) ( 株 ) アフィニティサイエンス 概要 :Linux OS へのインストールには, オンラインインス

Express5800 シリーズ Windows Server 2019 NIC チーミング (LBFO) 設定手順書 Microsoft Windows Windows Server は 米国 Microsoft Corporation の米国およびその他の国における登録商標です その他 記載され

Oracle Real Application Clusters 10g: 第4世代

OpenStack運用実践によるエンタープライズ適用に向けた課題と今後について~ベアメタルサービスの現状とDesign Summitでの討議状況~

スライド 1

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

10年オンプレで運用したmixiをAWSに移行した10の理由

Ⅱ ドメイン管理ドメイン管理はユーザを一元管理するために専用のサーバが必要となる ドメインを設定することにより ネットワークのユーザアカウントやセキュリティの原則を一元的に管理することができ 個々のコンピュータでこれらの管理を行う方法 ( ワークグループ ) に比べて ネットワーク管理の効率化が図れ

Łñ“’‘‚2004

プリント


Microsoft Word - nvsi_050080jp_dell_d2d.doc

PowerPoint プレゼンテーション

第 2 版

平成20年度成果報告書

Cisco CSS HTTP キープアライブと ColdFusion サーバの連携

Microsoft PowerPoint - DNS_BoF_SCS_ pptx

PostgreSQL による クラスタ構成の可能性 SRA OSS, Inc. 日本支社 取締役支社長 石井達夫

JP1 Version 11

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

ActiveImage Protector 3.5

目次 はじめに Introduction Analyzing Big Data Vectorwise and Hadoop Environments Vectorwise Hadoop Connector Perform

Windows Embedded 8 Standard

計算機概論

KSforWindowsServerのご紹介

MAGNIA Storage Server Configuration Guide

ライフサイクル管理 Systemwalker Centric Manager カタログ

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

Microsoft PowerPoint - hpc0703nakada_slide.ppt

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

PowerPoint プレゼンテーション

TimeCardView と Cisco Unified Communications Express Historical Reporting Client

ドメイン検索を行うアプリケーション に適用できるようにしました また 検索を高速に実施するユーザのことを考慮して 複数のネットワーク機器 ( ノード ) に分散処理させるアプリケーションである Condor( コンドル ) 7 などの作業管理機能を盛り込み 高速実行環境を簡便な手順で構築することがで

他の章は下記をクリックして PDF 一覧からお入り下さい IT ライブラリー (pdf 100 冊 ) 目次番号 270 番 Windows Server Enterprise 2008 R2 完全解説 ( 再入門 )

教室案内.pptx

ms_2.pptx

TFTP serverの実装

Copyright 2009 EMC Corporation. All rights reserved. このドキュメントに記載されている情報は ドキュメントの出版日現時点の情報です この情報は予告なく変更されることがあります このドキュメントに記載される情報は 現状有姿 の条件で提供されています

WebSAM Storage ReplicationNavigator WebSAM Storage ReplicationNavigator Oracle RAC Option 本製品を販売する場合 事前に下記問い合わせ先へご連絡をお願いします < 問い合わせ先 > 8. 問い合わせ窓口 を参照し

MIRACLE System Savior による Red Hat Storage 2.1 on HP ProLiant SL4540 Gen8 バックアップ / リストア検証報告書 ミラクル リナックス株式会社 作成者 : エンタープライズビジネス本部 青山雄一

PowerPoint プレゼンテーション

<4D F736F F D FC8E448FEE95F1837C815B835E838B C8F92E88B608F912E646F63>

クラスタ構築手順書

PowerPoint Presentation

新製品 Arcserve Backup r17.5 のご紹介 (SP1 対応版 ) Arcserve Japan Rev. 1.4

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8

hpc141_shirahata.pdf

改版履歴 版数 改版日付 改版内容 /03/14 新規作成 2013/03まで製品サイトで公開していた WebSAM DeploymentManager Ver6.1 SQL Server 2012 製品版のデータベース構築手順書 ( 第 1 版 ) を本 書に統合しました 2

Microsoft Word - nvsi_060132jp_datadomain_restoreDRAFT4.doc

Microsoft Word - JP-AppLabs-MySQL_Update.doc

2ACL DC NTMobile ID ACL(Access Control List) DC Direction Request DC ID Access Check Request DC ACL Access Check Access Check Access Check Response DC

VNX ファイル ストレージの管理

BraindumpsVCE Best vce braindumps-exam vce pdf free download

ブート ~OS が起動されるまで~

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

各プール内で作成される仮想マシンの台数は 実際の利用者数の状況を観て調整しているが どのプールも の間で設定している また 各プールで使用するデータストアについては 容量が 6TByte のものを8つ用意し 2 つを事務系仮想マシン用のプール 残り 6 つを研究系仮想マシン用のプール

0312_3_1_Licence-guide.indd

DIRECTIONS

Symantec Backup Exec TM 2010 の管理スタディガイド Symantec Backup Exec 2010 テクニカルアセスメント資格試験の目的と 参考となる Symantec Backup Exec 2010 コースの内容を下記の表で確認できます Symantec Back

Transcription:

レプリカ管理システムを利用した データインテンシブアプリケーション 向けスケジューリングシステム 町田悠哉 滝澤真一朗, 中田秀基, 松岡聡 : 東京工業大学 : 産業技術総合研究所 : 国立情報学研究所

研究背景 グリッド環境で扱われるデータサイズの大規模化 物理学 天文学 バイオインフォマティクス etc 同一データセットを利用する均質なタスクの集合 バッチジョブとしてサブミット バッチスケジューリングシステムによる実行マシンの決定 バッチスケジューリングシステムにおけるデータ利用法 分散ファイルシステムを利用したデータ共有 データ転送機構を利用した単純なステージング

グリッド環境での大規模データ処理 グリッド環境での大規模データ処理シナリオ データ転送ツールを利用したデータステージング データ転送元 転送先の選択 ジョブサブミット時にユーザが決定 レプリケーションアルゴリズムにより決定 ユーザがサブミットしたデータ解析ジョブをスケジューリングシステムが実行マシンを決定 分散ファイルシステム (NFS, AFS, etc) によるデータ共有 転送ツール (GridFTP, Stork, etc) によるステージング データ転送とジョブスケジューリングが独立

問題点 - 共有手法 分散ファイルシステムなどを利用したデータ共有 Scheduler Data Server Submit Machine task F Job I/O ノードにおいてアクセス集中が発生

問題点 - ステージング データ転送機構を利用した単純なステージング Submit Machine Scheduler task Job F I/O ノードにおいてアクセス集中が発生

問題点 - ステージング データ転送機構を利用した単純なステージング Submit Machine Scheduler task F 同一データの非効率な転送が発生

問題点 - データの複製 データレプリケーション データの複製 ( レプリカ ) を作成してアクセスを分散 ポリシーに応じたレプリカの作成 削除 1 対 1 転送を想定しているためアクセス集中発生 ジョブスケジューリングとは独立なレプリケーション データインテンシブアプリケーションを効率的に実行するためのシステムとして十分ではない

研究目的と成果 研究目的 グリッド環境でデータインテンシブアプリケーションを効率的に実行するためのスケジューリングシステムの構築 研究成果 バッチスケジューリングシステムを拡張し レプリカ管理システムと連動したシステムを構築 従来のシステムよりも効率的にデータインテンシブアプリケーションを実行できることを確認

関連研究 - Stork[Kosar ら, 04] データ転送用スケジューリングシステム Condor[Livny ら, 88] と連動してデータインテンシブアプリケーションを実行 DAGMan がジョブの依存関係を解決 計算ジョブは Condor にサブミット データ転送ジョブは Stork にサブミット 転送元 転送先が静的に決定されるためアクセス集中の回避は困難

関連研究 - BAD-FS[Bent ら, 04] ストレージのコントロールをスケジューリングシステムにエクスポーズ データインテンシブアプリケーションを効率的に実行 WAN 上のファイル転送の最小化 各タスクが必要とするデータおよびデータロケーショ ンを記述する必要あり ユーザの負荷が大きい 利用されるデータはユーザが静的に決定 job a a.condor job b b.condor job c c.condor job d d.condor parent a child b parent c child d volume b1 ftp://home/data 1 GB volume p1 scratch 50 MB volume p2 scratch 50 MB mount b1 a /mydata mount b1 c /mydata mount p1 a /tmp mount p1 b /tmp mount p2 c /tmp mount p2 d /tmp extract p1 x ftp://home/out.1 extract p2 x ftp://home/out.2

関連研究 -[Ranganathan ら, 02] スケジューリングとレプリケーションの分割 各ファイルへのアクセス数をカウント アクセス数に応じてレプリカ作成 削除 単一データへのアクセス集中発生 スケジューリングとの連動なし データのレプリケーション先は実行マシンのロケーション考慮されず

提案手法 ジョブスケジューリングとレプリカ管理をタイトに結合 最適なデータレプリケーション ジョブ実行マシンへのレプリケーション データロケーションに応じたスケジューリング 同一データの反復転送回避 同一データのアクセス集中の回避 同一データ転送リクエストの集約 計算資源の遊休時間の削減 計算とデータ転送の同時実行 システム全体の資源利用効率が上昇

提案システムの設計 レプリカ情報を加味したジョブスケジューリング レプリカ保持ノードへ優先的にスケジューリング データの再利用性の向上 転送コストの低いノードへスケジューリング 遊休時間の最小化 同一データの転送要求の集約 近隣ノードの中で代表ノードのみがオリジナルファイルを取得 WAN 上のデータ転送を最小限に抑制 計算資源の遊休時間の削減 計算中にデータ転送を実行 データ転送中にジョブ実行 サスペンド機構が必要

提案システムの概要 サブミットマシン Job job info. 実行マシン A セントラルマネージャ allocate allocate machine info. 実行マシン B query レプリカ管理システム replica info. File F A B F F replicate レプリカ管理システムとの連動によりデータの再利用性の向上 アクセス集中の回避に

プロトタイプシステムの実装 以下のコンポーネントを統合 バッチスケジューリングシステム Jay Condor を規範としたシステム GSI[Foster ら, 98] を利用したセキュアなシステム マルチレプリケーションフレームワーク MultiReplication[Takizawa ら, 05] レプリカロケーションサービス (RLS) レプリカの位置情報を管理 アプリケーションレベルマルチキャスト転送 Dolly+[ 真鍋, 01] により O(1) の転送時間

プロトタイプシステムの実装 容易に拡張可能なバッチスケジューリングシステムを実装し レプリカ管理との連動のために拡張 バッチスケジューリングシステム Jay[ 町田ら, 04] Condorを規範とした容易に拡張可能なシステム セキュリティ基盤にGSI[Fosterら, 98] を利用 複製管理システム MultiReplication[Takizawa ら, 05] セントラルマネージャー ClassAd ClassAd サブミットマシン 実行マシン

Jay システムの概要 Match notification Negotiator Collector Matchmaking Request ClassAd Match notification Job ClassAds Startd Schedd 0.0 NextClus 1.0 MyType 1.0 Exec 1.0 Out 1.0 Err 1.0 Rank Shadow Starter Computation

Jay のスケジューリング 受信したマシンとジョブの ClassAd[Livny ら, 97] の中からマッチメイキング [Raman ら, 98] により最適なマシンとジョブの組み合わせを決定 マシンの ClassAd MyType = Machine TargetType = Job Memory = 256 Arch = INTEL OpSys = LINUX Requirements = (Owner == smith ) ジョブの ClassAd MyType = Job TargetType = Machine Cmd = sim Owner = smith Args = 900 Out = sim.out Rank = Memory Requirements = (Arch == INTEL ) && (OpSys == LINUX )

レプリカ管理システムとの連動 実行マシンはセントラルマネージャに送信するマシン情報にレプリカ情報を追加 保持するレプリカファイルの論理名 保持しないファイルのレプリケーションコスト マッチメイキング [Raman ら, 98] 時に rank 値にレプリカのロケーションに応じた値をプラス executable = application input = input.$(process) output = output.$(process) error = error.$(process) arguments = $(Replica_Files) transfer_replica_files = data1, data2 queue 100

レプリカ管理システムとの連動 実行マシンはセントラルマネージャに送信するマシン情報にレプリカ情報を追加 Startd が定期的にどのくらい低コストでレプリカ作成できるかを表す値 (ReplicaValue) をチェック レプリカを作成するのに必要なコストに反比例 現在の実装ではレプリカ作成コストとしてRTT 値を使用 MyType = Machine TargetType = Job Memory = 256 Arch = INTEL OpSys = LINUX ReplicaInfo = data1,500, data2,294, RTT=0.5 1 RTT=1.2 2

本システムのスケジューリング 受信したマシンとジョブの ClassAd の中からマッチメイキングにより以下の値が最大となる最適なマシンとジョブの組み合わせを決定 マシンの Rank 値 + ジョブの Rank 値 +(ΣReplicaValue(i)) / N ユーザが記述するサブミットファイル executable = application input = input.$(process) output = output.$(process) error = error.$(process) arguments = $(Replica_Files) transfer_replica_files = data1, data2,, datan queue 100

レプリカ管理システム MultiReplication[Takizawa ら, 05] を利用 RLS 転送機構 レプリカセレクター レプリカ選択の指標として RTT を使用 サイト内では Dolly+[Manabe, 01] による転送 ノード数に対して O(1) の転送時間 アクセス集中回避 Site B Site A HTTP Data Trans Client Data Trans Server F OK request Data Trans Negotiator request F Data Trans Client Data Trans Server F Dolly+ Data Trans Client Data Trans Server F

システム全体図 Central Manager RLS server Data Trans Negotiator request Schedd Shadow ClassAds location list query location list Site A Shadow Startd request OK Startd Starter Site B Starter DataTransClient F DataTransClient DataTransServer F DataTransServer Dolly+ F HTTP

評価実験 サンプルアプリケーション BLAST(http://www.ncbi.nlm.nih.gov/BLAST) 核酸 タンパク質の相同性検索ツール クエリに類似した核酸 タンパク質の配列をデータベースから検索 クエリの性質を調査 実験概要 データベース nt に対して 5 つの核酸配列をクエリとして BLAST を実行するジョブ ジョブを 5n(n = 4, 8, 16, 32) 個サブミット 実行マシンは n ノード

評価手法 以下の 4 手法を比較 共有手法 NFS によりデータベースを共有 ステージング手法 scp によりステージング 提案手法 レプリカ管理システムと連携 理想状態 すべての実行マシンにデータベースを格納

評価環境 松岡研究室 PrestoIII クラスタ CPU Opteron 242 Memory 2GBytes OS Linux 2.4.27 Network 1000Base-T セントラルマネージャ サブミットマシン RLS サーバ NFS サーバについても上記スペック

平均実行時間の比較 Average Execution Time (min) 50 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 Number of Nodes 共有手法 ステージング 提案手法 理想状態 従来の手法より高い性能が確認された

ジョブの稼働状況 -NFS Number of Running Jobs 18 16 14 12 10 8 6 4 2 0 ジョブ実行終了後別のジョブ実行開始 0 50 100 150 200 250 Elapsed Time (min) NFS サーバでのアクセス集中によりパフォーマンスの低下が発生

ジョブの稼働状況 - ステージング Number of Running Jobs 18 16 14 12 10 8 6 4 2 0 同時データ転送によるアクセス集中発生 0 50 100 150 200 250 Elapsed Time (min) データ転送中のジョブ 共有手法ステージング ( 計算 ) ステージング ( 転送 ) データ転送により遊休時間が発生

ジョブの稼働状況 - 提案手法 Number of Running Jobs 18 16 14 12 10 8 6 4 2 0 アクセス集中回避 = リクエスト集約 非効率なデータ転送抑制 = データ再利用性向上 0 50 100 150 200 250 Elapsed Time (min) 共有手法ステージング提案 ( 計算 ) 提案手法 ( 転送 ) システム全体の利用効率アップ

考察 共有手法 (NFS) データサーバにアクセスが集中 ステージング手法 ステージング元マシンにアクセス集中 データ転送によるアイドル時間発生 提案手法 理想状態に近い性能を達成 システム全体の利用効率上昇 レプリケーションリクエストの集約 レプリカファイルの再利用

まとめと今後の課題 まとめ バッチスケジューリングシステム Jay を拡張しレプリカ管理システムと連動したスケジューリングを実現 従来の手法より効率的な環境を構築 今後の課題 単一マシン上での計算ジョブとデータ転送の同時実行によるシステム全体の利用効率の向上 複雑なシナリオを用いた大規模環境での評価実験