モンスターストライクの信頼性を支えるSREの組織化について

Similar documents
10年オンプレで運用したmixiをAWSに移行した10の理由

クックパッドのテスト自動化

Server and Cloud Platform template

PowerPoint プレゼンテーション

目的 概要 全体像 概念図 用語の定義 用語 説明 用語 説明 用語 説明 用語 説明 参考資料


PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

OneDrive for Businessのご紹介

スライド 1


Microsoft PowerPoint VIOPS.ppt

Microsoft PowerPoint - 【Webnner】はじめてのHULFT-WebFT.pptx

ニフティクラウド mobile backend 概要 サービス名 : ニフティクラウド mobile backend ( ニフティクラウドモバイルバックエンド ) アドレス : 利用対象者 : スマートフォンアプリを開発する個人および企業 基本仕

PowerPoint プレゼンテーション

はじめの一歩!ソースコード管理に必要なバージョン管理とは

PowerPoint Presentation

開発者向けクラウドサービスを活用したリッチな Web/ モバイル アプリケーションの構築手法 杉達也 Fusion Middleware 事業統括本部担当ディレクター [2013 年 4 月 9 日 ] [ 東京 ]

PowerPoint プレゼンテーション

スライド 1

クリエゲーム制作プロジェクト対外発信可能なゲームコンテンツの制作ミッション 2014 年度最終報告書 担当教員床井浩平代表安明真哉 1. ミッションの目的本ミッションを実施するプロジェクトであるクリエゲーム制作プロジェクト ( 以降 CGP と記載 ) は, 発足から 3 年の間, 団体としての人員

スライド 1

OSSTechプレゼンテーション

CheckPoint Endpoint Security メトロリリース製品について 株式会社メトロ 2018 年 07 月 25 日

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

2016 3

Microsoft PowerPoint - LinkMining_ ppt

PowerPoint_template_v1.3.pptx / パワーポイントテンプレート

mod_perl_jobworker

<4D F736F F F696E74202D204F70656E B AD955C8E9197BF5F4F70656E B82F08AC48E8B8AC7979D82B782E983528

IIJ Technical WEEK アプリ開発を楽にするRuby PaaS「MOGOK」について

すぐできるBOOK ー基本設定編ー

KSforWindowsServerのご紹介

Presentation Template Koji Komatsu

Zend Server 7 ライセンス情報 2014/12/09 株式会社イグアスソリューション事業部

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

仮想マシン構成のホスト ゲスト連携物理サーバー上の CLUSTERPRO X と仮想マシン上の X SSS で連携が可能です 例えば物理サーバー上の CLUSTERPRO X の異常検出をトリガとし仮想マシン上の X SSS をフェールオーバーさせることなども可能です 仮想化環境に最適なライセンス体

Zabbix でミドルウェア毎に効率的に データを収集するために作った仕組みの話 株式会社サイバーエージェント Conference Japan

OpenStack運用実践によるエンタープライズ適用に向けた課題と今後について~ベアメタルサービスの現状とDesign Summitでの討議状況~

1-1- 基 OSS 概要に関する知識 ソフトウェアの新たな開発手法となりソフトウェア業界で大きな影響力を持つようになったオープンソースについて学習する 本カリキュラム Ⅰ. 概要では オープンソースの登場から現在に至る発展の経緯や代表的なソフトウェアの特徴を理解する 講義の後半では実際にソフトウェ

Congress Deep Dive

PowerPoint Presentation

報道関係者各位 プレスリリース 2019 年 01 月 15 日 株式会社ネオジャパン グループウェア desknet's NEO バージョン 5.2 を 1 月 15 日に提供開始 ~ 業務アプリ作成ツール AppSuite との連携を強化 他にも AppSuite 連携 API 公開など多数の機

講座内容 第 1 回オープンソースの理念 ( 講義 90 分 ) オープンソースという言葉の定義と概念を理解する あわせてオープンソースの基本的なライセンスを理 解する (1) オープンソースの登場と理念 1. オープンソースの定義 2. ネットスケープ社製品のソースコード公開 3. Open So

FUJITSU Cloud Service for OSS 「コンテナサービス」 ご紹介資料

Microsoft PowerPoint Zabbixカンファレンス.pptx

FUJITSU Cloud Service for OSS 「GitHub Enterprise」 ご紹介資料

CheckPoint Endpoint Security メトロリリース製品について 株式会社メトロ 2017 年 12 月 27 日

LAN DISK NarSuSの登録方法

ネットアップクラウドデータサービス

PowerPoint プレゼンテーション

スライド 1

Enterprise Cloud + 紹介資料

<4D F736F F F696E74202D208D E9197BF FC96E582C68AE98BC682AA F08CF68A4A82B782E D835A E

PowerPoint プレゼンテーション

システムの多様化とシステム運用の高度化 業務を効率化するシステム ビジネスを支える信頼性重視 新たな価値を生み出すシステム ビジネスを革新するスピード重視 公共 : デジタル ガバメントスマートシティ IoT アナリティクス 自動化自律化 金融 :FinTech メガバンクのクラウドシフト ビッグデ

スキル領域 職種 : ソフトウェアデベロップメント スキル領域と SWD 経済産業省, 独立行政法人情報処理推進機構

OneDrive for Businessのご紹介

自己紹介 AWS 視点で経歴振り返り 2015 年 今現在 2

受付代行 設定マニュアル このマニュアルでは 恵比寿ボイスプロダクションが Google アシスタントアプリで公開している 受付代行 ( ) を使って Google

Python Perl JavaScript および PHP などの ランザクション ID を利用することで 重複する処理 な Tuple が流れるかはグルーピングより決定されま 多くの言語をサポートしています を判別することができます す 6 簡単なデプロイと運用 は簡単にデプロイし 動作させるこ

本セミナーのポイント 戦略的なマルチクラウド活用の 3 つの勘所 クラウド導入検討における最適なプラットフォームの選定 事前準備としての運用 セキュリティガイドラインの作成 クラウド運用保守におけるデジタル化に向けたリソースシフト

ナビタイムサービスにおける、Amazon ECS を活用したシステム移行 ~『乗換NAVITIME』での移行事例 ~

運用統合ソフトウェア 2014/6/4 ミラクル リナックス株式会社 大和 一洋 Copyright MIRACLE LINUX CORPORATION All rights reserved

SCTM12.0_Product Release Notice_V1

実践 Infrastructure as Code

プロジェクト管理でkintone

db0215

システム必要条件 - SAS Financial Mangement 5.1

提案書

PowerPoint プレゼンテーション

Handbookカタログ

K5移行サービス ご紹介資料


Docker コンテナの必要性と基礎

Nintendo Switch(TM)向け プッシュ通知システム 「NPNS」

タイトル

サーバレスアーキテクチャで実現した M-1 グランプリ敗者復活戦投票システム


本体内のメモリの合計容量と空き容量などを確認できます a ホーム画面で [ 基本フォルダ ] [ 設定 ] [ ストレージ ] マイファイルを利用する 本体に保存されている静止画や動画 音楽や文書などのデータを表示 管理できます a アプリ一覧画面で [ ツール ] [ マイファイル ] カテゴリ一

Microsoft Azure Azure

Agenda 1. 今回のバージョンアップについて a. バージョンアップ概要 b. バージョンアップ目的 c. 新バージョンのシステム要件に関する注意事項 d. 現行バージョンのサポート期間 2. 対応プラットフォームの追加 3. 新機能の追加および機能強化 2

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

製品概要

DMM における会員基盤プラットフォームへのAWS導入から活用事例の紹介

ChatLuck の 特 長 グループチャット ルーム 複 数 メンバー 間 でチャットを 行 う ルーム 機 能 では テキストや 画 像 によるリアルタイムチャット に 加 え ファイルの 共 有 タスク スケジュール 管 理 アンケートの 収 集 集 計 など 多 数 の 機 能 を 搭 載

スライド 1

更新履歴 Document No. Date Comments 次 D JP 2017/05/01 初版 1. 概要 はじめに 情報源 A10 Lightning Application Delivery Service(ADS) 導 構成 動作概要 構築概要 2. 事

オンラインゲームの インフラ検証 PICTURES Tech Seminar ~映像制作パイプラインとアーティストのテクニック 5~ 株式会社Aiming 菅野 明洋

自己紹介 日本電気株式会社情報 ナレッジ研究所 須堯一志 ( すぎょうかずし ) 主にネットワークのプロトコルを開発している技術者 1997 年に IPv6 のプロトコルスタック開発を通じてオープンソース開発に関わる 2009 年頃から OpenFlow に関わる 2011 年 Trema がオープ

システム必要条件 - SAS Fraud Management 3.1

研究報告用MS-Wordテンプレートファイル

AWS Deck Template

1. ロック画面の操作方法変更 セキュリティ強化のため ロック画面の操作方法が変更となります 画面ロックを変更する場合 バックアップパスワードを入力する必要があります 端末のロック解除に指紋認証を設定している場合 端末の再起動時も 初回のみバックアップパスワードを入力する必要があります < 画面ロッ

目次 第 1 章 環境構築 システム概要 ロードバランサ ジーンコードサーバー コンテンツサーバー (PC サイトサーバー ) コンテンツサーバー (PC サイトサーバー ) DNS... 6

PowerPoint プレゼンテーション

利用約款別紙 SkyCDP for AWS 基本サービス仕様書 この仕様書は SkyCDP for AWS の基本サービスに関する内容 方法について記述したものです 尚 SkyCDP for AWS オプションサービスをご利用のお客様は各 SkyCDP for AWS オプションサービスのご契約内容

1

PowerPoint プレゼンテーション

仮想化によるサーバの再構成 尾西克之 大阪大学理学研究科技術部. はじめに理学研究科トップの DNS サーバを始め 管理運用を行うサーバの多くはハードウェアの老朽化が進み 更新時期を迎えている しかし全てのハードウェアを購入には費用が掛かり又 作業時間も掛かるため 一度に更新するのは不可能である そ

Transcription:

Internet Week 2017 S15 信頼性運 を実現する SRE という新潮流 モンスターストライクの信頼性を える SRE の組織化について 株式会社ミクシィ XFLAG スタジオ ゲーム開発室 SRE グループ 清 勲

紹介 清 勲 / Isao SHIMIZU @isaoshimizu 株式会社ミクシィ XFLAG 事業本部ゲーム開発室 SRE グループ所属 経歴 SIerで受託開発 社プロダクト開発 運 を約 8 年 株式会社ミクシィ 2011.8 運 部アプリ運 グループ所属 SNSの運 2014.4 モンスターストライクの運 にジョイン 2015.8 XFLAG スタジオが創設される 2016.7 XFLAG スタジオにSRE グループ創設 2

ミクシィグループ 2017 年 11 8 2018 年 3 期第 2 四半期決算説明会資料より抜粋 3

XFLAG スタジオ スマートフォン向けゲーム 動画 モンスターストライク 2013.10 モンストスタジアム 2015.4 ファイトリーグ 2017.6 モンストアニメYouTube配信 2017.6.14に世界累計再 回数2億回突破 昨年末には劇場版も公開 XFLAG STORE SHIBUYA 常設店舗 XFLAG STORE オンラインストア その他 4

SRE という組織ができるまでの 変遷についてお話します 5

モンスターストライク以前 6

モンスターストライク以前 かつては運 部という組織で SNS mixi の運 に取り組んでいた インフラ アプリ運 という 2 つのグループ インフラ サーバー調達 ネットワーク設計 構築などがメイン インフラエンジニアと呼ばれたり アプリ運 サーバー構築 負荷対策 デプロイ チューニングなどがメイン 運 エンジニアと呼ばれたり 運 部と連携する たんぽぽグループ 7

たんぽぽグループ 2008 年頃 刺 の上にタンポポをのせる仕事 のような単純作業の仕事から社内開発者を解放しよう というミッションのもと設 開発者のための開発 をおこなう組織 サービスがどうあるべきかという 局的な視点に って すべてのシステムに横断的に関わる組織 コアアーキテクチャの検討 開発 程の改善 改善のためのツールの導 検討 パフォーマンスチューニング アルゴリズム改善 海外向けサービスプロジェクトのサポートなど 開発 運 がスムーズに進むように 現在においても XFLAG スタジオ内で同様の取り組みをおこなっている 8

当時のシステム インフラ 2013 年くらいの話 SNS のシステム サーバー OS 1 つの DC にオンプレミス ( 数千台 ) いまは AWS に移 済み Fedora 8 から 17 へ いまは CentOS 7.1 プログラム 語 Perl 5.8 系から 5.14 系へ ミドルウェア Apache 2.2 系 (mod_perl, mod_proxy) Percona Server 5.1 Memcached 1.4.5 ソースコード管理 Subversion から Git へ (Gitolite GitHub Enterprise) コミュニケーションツールは IRC がメインだった 9

当時の課題 主に負荷対策 効率化 コスト削減 課題 取り組んできたことの 例 MySQL の負荷対策 iodrive での集約化 古い OS 古いミドルウェア Perl のアップデート OpenStack 導 systemd 対応 デプロイ プロビジョニングの改善 コンテナ化 その他いろいろ JIRA で課題管理 アサイン 作業の実施 Confluence でドキュメント作成 10

モンスターストライクの登場 2013 年 10 11

モンスターストライク 利 者数推移 2017 年 11 8 2018 年 3 期第 2 四半期決算説明会資料より抜粋 12

モンスターストライクリリース後 2014 年前半からは 新機能の開発と平 して負荷対策に注 していた スケールアップ 負荷のマシンは AWS からオンプレへ ( 社インフラの活 ) AWS も併 する Direct Connect( 専 線 ) フル活 SSD や iodrive(pcie SSD) の活 スケールアウト DB 分割 ( テーブル分割 シャーディング ) DB チューニング ソースコードの改善 クエリ改善 キャッシュの活 (Memcached) コミュニケーションは IRC HipChat Slack へ ソースコード管理は GitHub に統 13

SRE グループ設 2016 年 7 14

SRE について Site Reliability Engineering Googleが提唱し Facebook Dropbox メルカリ クックパッド サイボウズなど 最近では多くの企業が取り れてきた ( 組織として存在する ) システム運 可 性向上 で ってきたことの効率化 動化など 運 業務よりもソフトウェアエンジニアリングに割く時間の割合が多め 書籍 SRE サイトリライアビリティエンジニアリング Googleの信頼性を えるエンジニアリングチーム https://www.oreilly.co.jp/books/9784873117911/ Googleのサイトでは英語版が無料で読める http://landing.google.com/sre/book.html 最近では SRE に関するイベントや勉強会も増えてきている 15

XFLAG スタジオにおける SRE グループについて 求められること サービスに何が起きていて 何をすべきか理解すること 当たり前のことを優先度付けして能動的にやれること 視野を広くして俯瞰して られること ソフトウェア エンジニアリングによって徹底的に信頼性を向上させること 変わったこと 社内 & 社外からもわかりやすい組織体制 ゲームに関わる機能開発からの分離 負荷対策 効率化 動化などに注 従来と変わらないこと メンバーの得意不得意を相互に補完 運 業務 16

XFLAG スタジオにおける SRE の業務内容 モンスターストライクの負荷対策 クエリ改善 キャッシュ利 の効率化 DB 分割 チューニングなど リソース 積もり ベンチマーキング 可 性向上 ( 壊れにくいハードウェア選定 ミドルウェア構成 ) データのバックアップ リリースエンジニアリング ( デプロイ プロビジョニング ) 物理マシン クラウドのリソース設計と最適化 動化 ツール開発 監視 モニタリング改善 各種 Web サイト構築 新規案件相談 モック開発 セキュリティ対策 障害対応 ( オンコール対応 ) その他 17

オンコール対応 定時外 休 の緊急時に 次対応するための制度 ( 当番制 ) 2007 年頃から制度化 2 名体制 1 週間でローテーション 対応例 ハードウェア故障対応 ( メモリ 電源 SAS SSD など ) 負荷増への対応 クラウド障害対応 いまでは PagerDuty フル活 以前は Nagios からのメール受信のみだった 様々な通知 ( 電話 メール プッシュなど ) 当番が通知に気づかなかった場合 当番外へ 動エスカレーション 18

仕事の進め それぞれが能動的に 動し 今やるべき仕事は 分で つける マネージャーからはチームの 向性の調整のみ 使いたい技術はメンバーの合意を得て積極的に導 する 例えば プログラム 語 クラウド ミドルウェア ツールなど Slack のチャンネルで議論 ダイレクトメッセージではなくチームのチャンネルでおこなう GitHub 上でのコードレビュー必須 Pull Request Issue 上で 半の課題は解決する テストとレビューが通り master にマージされたらデプロイする SRE に限らず XFLAG スタジオで統 されたやり 19

SRE の評価ポイント 何にどのくらい時間をかけて 何に対して貢献したのか 与えられた仕事だけしても評価はされない 技術 技術によってどんな課題を解決できたのか 今その技術を選ぶ必要があったのかどうか アウトプット 何を作ったのか そのモノの価値はどうなのか 産性は かったのか 事業貢献 事業 プロダクト サービスへどの程度貢献できたのか なぜそれに貢献したのか グループ貢献 グループに与えた影響はどんなものだったのか メンバーに対してどんな 動をして 何が変わったのか 20

現在のシステム インフラ 21

現在のシステム インフラ概要 モンスターストライク ( 本版 ) のシステムの例 サーバー ( 現在 1,100 台くらい ) オンプレミス (2つのDC) DC 単位での冗 構成 ( のDCが死んでもサービス継続できるように ) マルチクラウド (AWS, GMO, GCP) レイテンシ (RTT) 1ms 以下を 指したい 適材適所 その時に最適なものを使う OS Ubuntu Server プログラム 語 Ruby ミドルウェア unicorn nginx MariaDB Memcached Redis ソースコード管理 GitHub 22

現在のシステム インフラ概略図 モンスターストライク ( 本版 ) のシステム Memcached API アクセス A10 Load Balancer Unicorn MariaDB Batch Worker Redis Cron Fluentd 23

現在の課題 負荷対策はずっと続いていく さらなる 負荷が想定される企画 事業に応えていく 古いものを捨てて新しいものを使う ハードウェア ソフトウェア アーキテクチャ れ替えしやすい環境作り 間の による作業を減らす ミスを減らす 作業時間を減らす 例えばクラウドのコンソール画 をポチポチする作業 APIを使ったツールの開発 ハードウェアのパワーに頼りすぎない ソフトウェアで解決できることを探す 耐障害性向上 コスト削減につながる 24

まとめ 25

まとめ XFLAG スタジオにおける SRE(Site Reliability Engineer) いままでの運 業務もやりながら ソフトウェアを作る 使うことで課題を解決していく 能動的に 広い視点で 最適な技術を使って いまやるべきことにおいて価値を み出す 新しいものを取り れ 新しいことに挑戦し 事業に貢献していく 26