GCOE クラスタ利用ガイド 初版 (2009/07/05)
1. 概要本マニュアルでは GCOE クラスタ ( 以下単に クラスタ ) の機器概要 機器使用方法について説明します 当クラスタは マスタノード 1 台および計算ノード 31 台の合計 32 台からなります 現在 OS として CentOS 5.3 が稼働しています 設置場所は 63 号館 3 階 06 室 理工メディアセンター管理下のサーバルームです 本クラスタは情報学科に所属する教職員 学生が利用できます 中島達夫教授が設置責任者であり 山名早人教授および山名研究室所属学生が管理を担当しています 1.1. おことわり本マニュアルは 執筆時点で最新の情報を反映するように努力しましたが 随時環境の更新が行われているため現状を優先とします 2 / 9
2. 設置機器について本節ではクラスタの機器構成について説明します 当クラスタは マスタノード 1 台および計算ノード 31 台の合計 32 台からなります クラスタ内は 1Gbps の Ethernet で接続され 学内バックボーンへのリンクは 10Gbps となっています なお 学内 ~ 学外間の接続速度は現時点では 4Gbps ですが 今年度末までに 10Gbps 化を予定しています 2.1. ネットワーク機器マスタノード 計算ノードは双方とも Foundry 社 ( 現 Brocade 社 ) 1 の 1000Base-T スイッチ FastIron FGS 648P( 表 1) で接続されています FastIron FGS 648P から Cisco 社の L3 スイッチ Cisco Catalyst 4900M ( 表 2) 経由で光ファイバにより学内のバックボーンへ接続されています この学内バックボーンへのリンクは 10Gbps ですが ノード間の通信は 1Gbps であることに注意してください また 学内 ~ 学外の通信速度が現在は 4Gbps のため 学外と通信する場合は 4Gbps が最大速度であることに注意してください なお学外との接続回線は 今年度末までに 10Gbps 化が予定されています 以下にネットワーク機器のインターフェース規格を示します 表 1:LAN 接続機器 FastIron FGS 648P インターフェース 項目名 規格 備考 LAN Interface 1 1000Base-T 48 ポート クラスタノードに接続 LAN Interface 2 10GBase-SR Cisco Catalyst 4900M に接続 表 2:WAN 接続機器 Cisco Catalyst 4900M インターフェース 項目名 規格 備考 LAN Interface 10GBase-SR FastIron FGS 648P に接続 WAN Interface 10GBase-LR 学内バックボーンへ接続 2.2. マスタノード当クラスタにはマスタノードが1 台あります マスタノードはユーザのアカウントを NIS により管理すると共に 各ユーザのホームディレクトリを計算ノードで共有するための NFS サーバの役割を担います また 各種分散フレームワークのマスタサーバとして利用されています マスタノードのハードウェア情報を表 3に示します 2 コア CPU を 2 基搭載しているため 合計で 4 コアの環境となります また RAID 筐体 1 台がファイバチャネルで接続されています RAID からは 5 つのパーティションを切り出していますが Linux の LVM 機能により 1 つのパーティションとしてマウントされています 1 Foundry 社が買収されたことにより 商品の公式ページはアクセスできないようです マニュアルが必要であれば 管理者までお問い合わせください 3 / 9
表 3: マスタノード性能諸元表 項目名 スペック 備考 CPU1 Intel Xeon 5160 3.00GHz 2 コア CPU CPU2 Intel Xeon 5160 3.00GHz 2 コア CPU Storage SATA 400GB HDD システム起動用 RAID Storage 8.9TB 2TB 4 + 1TB 1 の LVM Memory 16GB OS CentOS 5.3 Linux Kernel 2.6.18-128.el5 x86_64 CentOS 付属標準カーネル 2.3. 計算ノード本クラスタには 31 台の計算ノードがあります 計算ノードのハードウェア情報を表 4 に示します 各ノードには 2 コア CPU が 1 基搭載されています OS はマスタノードと同一です 筺体は 1U ハーフサイズの特殊なもので ラック両面から実装されています 表 4: 計算ノード性能諸元表 項目名 スペック 備考 CPU Intel Core2 6700 (2.66GHz) 2 コア CPU ストレージ SATA 500GB HDD メモリ 4GB OS CentOS 5.3 カーネル 2.6.18-128.el5 x86_64 CentOS 付属標準カーネル 4 / 9
2.4. ノードの IP アドレス表 5に各ノードのホスト名と IP アドレスの対応を示します NAT を省略して通信を高速化するために全ノードがグローバルアドレスを持っています ホームディレクトリがマスタノード (133.9.70.1) に格納されているので 通常はマスタノードにログインして作業することをお勧めします 表 5: ホスト名と IP アドレス ホスト名 IP アドレス dtc01 133.9.70.1 dtc03 133.9.70.3 dtc04 133.9.70.4 dtc05 133.9.70.5 dtc06 133.9.70.6 dtc07 133.9.70.7 dtc08 133.9.70.8 dtc09 133.9.70.9 dtc10 133.9.70.10 dtc11 133.9.70.11 dtc12 133.9.70.12 dtc13 133.9.70.13 dtc14 133.9.70.14 dtc15 133.9.70.15 dtc16 133.9.70.16 dtc17 133.9.70.17 dtc18 133.9.70.18 dtc19 133.9.70.19 dtc20 133.9.70.20 dtc21 133.9.70.21 dtc22 133.9.70.22 dtc23 133.9.70.23 dtc24 133.9.70.24 dtc25 133.9.70.25 dtc26 133.9.70.26 dtc27 133.9.70.27 dtc28 133.9.70.28 dtc29 133.9.70.29 dtc30 133.9.70.30 dtc31 133.9.70.31 dtc32 133.9.70.32 dtc33 133.9.70.33 5 / 9
3. 利用方法と注意点 本節では 本クラスタを利用するための手続きや利用上の注意点を説明します 3.1. 利用ポリシ本クラスタは学科向けのため 利用は各ユーザの常識に委ねることとし 現在のところ特に利用ポリシは定めません 最低限 以下の項目について注意して利用を行ってください 大規模な処理を行う場合は アルゴリズムをよく検討し より少ない負荷で処理できないか検討して下さい 一時データは随時削除して ストレージ容量を不必要に占有しないようにして下さい クラスタ外と通信する場合は 学内 学外ネットワークに対して迷惑が起きないように注意して下さい P2P の利用は大学より禁止されています ( 違反時にはネットワーク利用停止など 大学より厳しい処置が取られます ) 3.2. 連絡方法管理者のみが含まれたメーリングリストと 管理者およびユーザが含まれるメーリングリストの 2 種類を準備しました 目的に応じて使い分けてください 全ユーザは gcoe-user@yama.info.waseda.ac.jp に登録されます 管理者一覧は表 6を参照してください 管理者のみが含まれる ML: gcoe-admin@yama.info.waseda.ac.jp ユーザと管理者が含まれる ML: gcoe-user@yama.info.waseda.ac.jp 3.3. アカウントの申請クラスタの利用を希望する方は下記のフォーマットを参考に必要な情報を記入し 利用者本人が管理者 gcoe-admin@yama.info.waseda.ac.jp 宛にお送りください なお セキュリティ確保のため 外部からクラスタノードへの ssh 接続は お知らせ頂いた 各研究室管理下の学内 IP アドレス (133.9.0.0 / 16) フォーム 1: アカウント申請フォーム 氏名 : 所属研究室名 : 学年 or 身分 : 希望アカウント : メールアドレス : どのような利用を行う予定か : 占有利用を行う可能性はあるか : 接続元の IP アドレス or サブネット ( 学内 IP のみ ): 6 / 9
からのみに限定することとします アカウント申請時に接続元の IP アドレスか ネットワークアドレスをお知らせください なお メンテナンスの効率化ために どのような目的で利用を行うかを簡単で構いませんので記述ください 3.4. ログイン方法 ssh でマスタノード (133.9.70.1) に接続してください 計算ノードもグローバルアドレスを保持しているため直接ログインできますが ホームディレクトリはマスタノード上に格納されています より高速なレスポンスのために 通常はマスタノードにログインして作業されることをお勧めします 3.5. ホームディレクトリホームディレクトリ上のデータはマスタノードに保持されます 計算ノードはマスタノードのホームディレクトリを各計算ノードのホームディレクトリに NFS マウントしています 計算ノード上でホームディレクトリに書き込まれた情報は直ちにマスタノードに送信されます 従って 計算ノード上のホームディレクトリにおいてログファイル等の大量のデータを書き込むと 性能のボトルネックになるだけでなく 他ユーザのアプリケーションに影響を与える恐れもありますので ご注意ください 3.6. 新規ソフトウェアのインストール GCOE クラスタには最小限のソフトウェアがインストールされています 各ユーザが必要なソフトウェアは各ユーザのホームディレクトリにユーザ自身がコンパイル 格納するものとします 研究室内など複数のユーザでアプリケーションやデータを共有する必要がある場合は グループを割り当て そのグループ内で読み書きができる共有ディレクトリを作成しますので 管理者宛てにご相談ください なお システムとしてインストールされていることが適切と考えられるソフトウェアの場合は 管理者がインストールを行いますので 随時管理者まで相談してください 3.7. 監視ツールクラスタ監視ツールとして Ganglia が稼働しています 学内から http://133.9.70.1/ganglia/ で参照することができます なお Ganglia はネットワーク上にジッターを発生させることがあるため ネットワークに関する実験を行う場合は停止した方が良い場合もあります その場合は管理者までご連絡ください 3.8. ネットワークセキュリティクラスタ内での通信に制限はありません iptables は全ノードで無効になっています WAN 側からクラスタ内へのインバウンドパケットについては Cisco スイッチにおいて IP フィルタを行っています このためクラスタから学外への TCP 接続は可能ですが 学外からの接続はできません アウトバウンドパケットについては制限を設けていませんが リターンパケットがインバウンドの IP フィルタの制限を受けますので 事実上 IP フィルタを変更しなければ 通信を確立することはできません 何らかの特殊なポートを利用する必要がある場合 管理者までご相談ください 7 / 9
3.9. ノードセキュリティ SELinux は全ノードで無効になっています また ウィルス対策ソフトウェアは導入されていませんので 信頼のおけるアプリケーションを利用してください 共用クラスタであるため 個人情報など重要なデータは格納しないでください 3.10. 冗長性本クラスタは冗長性を保証していません データ プログラムは必ずユーザ自身でバックアップを行ってください 3.11. ルート権限ルート権限 (sudo 含む ) は管理者のみが保持し ユーザは利用できないものとします ルート権限が必要な場合は クラスタの管理に参加してください 管理者に関しては 4 節を参照してください 3.12. 連続利用本クラスタは継続的に環境の変更 更新が行われており 頻繁なメンテナンスが予想されます 管理者はユーザプロセスが動作中の場合はメンテナンスを延期するよう最大限の努力をしますが不可避の場合もあります また ユーザプロセスが動作していない場合は 予告なしのメンテナンスを行う場合があります 論文の締め切りや実験のスケジュールがある場合には 予め管理者宛てに通知して頂ければ 管理者は最大限の配慮を行うものとします 3.13. 占有利用実時間ベンチマークをとる場合など クラスタを占有する必要がある場合には メーリングリストで相談の上 個別に対応するものとします 3.14. 特殊な利用特殊カーネルの利用 BIOS ハードウェアレベルでの調整が必要な場合は 管理者と相談し随時対応するものとします 3.15. 分散処理フレームワーク本クラスタでは Google の分散フレームワーク MapReduce のクローン Hadoop や 同じく BigTable のクローンである HyperTable の稼働を試験的に行っています ただし 現在のところマルチユーザでの利用に難があることが判明しており ユーザへ提供することはまだ先になる予定です 準備が整い次第ユーザに対して公開していきます 先行して利用されたい場合は クラスタの管理に参加をお願い致します クラスタの管理への参加については 4 節を参照してください 8 / 9
4. 管理体制 本節では GCOE クラスタの管理体制 並びに管理への参加方法について述べます 4.1. 管理者本クラスタの現在の管理者は表 6 のとおりです 中島教授を設置責任者とし 現在のところ山名教授と山名研究室所属の学生が管理を担っています 管理者はユーザからの要望に対して最善を尽くすものとしますが ボランティアベースの管理であることをご理解ください 表 6:GCOE クラスタ管理者一覧 (2009/07/05 現在 ) 役割 氏名 所属 身分など 設置責任者 中島達夫 教授 管理責任者 山名早人 教授 上田高徳 MNC 助手 山名研究室 D1 片瀬弘晶 山名研究室 M2 管理担当者 森本浩介 山名研究室 M1 山﨑邦弘 山名研究室 M1 打田研二 山名研究室 B4 4.2. メンテナンス本クラスタは複数のユーザが利用するうえ クラスタ管理や Linux カーネルに関する研究の実施も予定されています また 山名研究室のメンバは分散フレームワークの利用 開発に取り組んでいます そのため 今後多くのメンテナンスが発生することが予想されます 管理者はユーザプロセスへの影響を最小限にする努力をするものとします ただし 緊急を要する場合はこの限りではありません 4.3. 管理への参加本クラスタの管理はボランティアベースで行っています 常に人手が不足しがちですので 管理への参加を歓迎します 是非 情報を共有することで 各自の能力を高めることに繋がれば幸いです 特に 分散処理 クラスタ管理にノウハウをお持ちの方は 情報の共有のためにぜひ管理者として参加ください 管理に参加されたい場合はご連絡ください 4.3.1. 今後の計画 Google が利用しているフレームワーク MapReduce のクローンである Hadoop や 同 BigTable クローンの HyperTable などをユーザへ提供していく予定です しかし 現在のところ これらフレームワークはマルチユーザのためのサービスとして稼働させた場合に 動作上の難があることが分かっておりユーザへの提供に向けて調整中です これら分散フレームワークを利用される方は管理に参加されることを特に期待致します 9 / 9