PowerPoint Presentation - PDF 無料ダウンロード

FiNC を支えるインフラ技術 ECS と DevOps

自己紹介名前 : 中村郷史 ( なかむらさとし ) 所属 : プロダクト本部技術開発部 SREグループ担当 : Technical Lead in SRE 社歴 : 2017 年 1 月ジョイン約 1 年半よく使っているAWSのサービス ECS CloudFormation

人の行動を変え健康を実現するヘルスケアカンパニー < O u r V i s i o n > 一生に一度のかけがえのない人生の成功をサポートする

健康寿命という言葉はご存知ですか?

人の支えがなければ生きられなくなってしまう年齢のことを言います

寝たきりの原因その他 26% 脳卒中 24.1 % 厚生労働省国民基礎調査より関節疾患 7% 骨折認知症 21% 9% 衰弱 13%

生活習慣の改善に必要な三要素栄養運動休養 1 2 何をすべきか分からない継続できない

Mission すべての人にパーソナルコーチを

FiNC のサービス広告有料課金 EC FiNC インタラクティブコミュニケーション

ライフログがたまるほどあなたにフィットするパーソナルトレーナー AI アプリ

FiNC アプリライフログの記録動画コンテンツ SNS 歩数睡眠時間が自動で記録体重食事生理日などもモデルやアスリート栄養士 / トレーナー等によるヘルシーレシピフィットネス等の動画家族や友達著名人専門家と楽しくコミュニケーション

FiNC のシステムマイクロサービスアーキテクチャ

マイクロサービスとは決済機能ライフログ機能ランキング機能チャット機能 API API 主機能 API アカウント管理機能企業管理機能 AI 機能ライフログ機能ランキング機能チャット機能グループ機能決済機能 AI 機能アカウント管理機能姿勢解析機能企業管理機能主機能グループ機能 API API 姿勢解析機能マイクロサービスアーキテクチャモノリシックアーキテクチャ

なぜマイクロサービスか? ヘルスケアの中で様々なサービスを提供するというビジネス構想があったから FiNC インタラクティブコミュニケーション

アジェンダなぜ ECS にしたのか ECS Tips ECS 事件簿

ECS 以前の構成の振り返り EC2 Ansible Capistrano

EC2 時代の問題点スケール性能サーバの起動構築からサービスに組み込まれる時間余剰リソース余剰 CPU メモリの有効活用多様な構成管理 OS 言語フレームワークバージョン等異なる設定管理非同期処理 DB 設定環境設定

なぜ ECS にしたのかスケール性能コンテナ ( サーバ ) 増強の速さリソース最適化 1 台のサーバリソースを使いきれる ( 最大 70コンテナ稼動 ) 多様な構成管理異なる設定管理 SREが中央管理するのではなく開発側に委譲

構成管理ファイル多様な構成 OS 言語フレームワークバージョン等初期 :Ansible(Ops) 移行期 :Dockerfile(Ops) 現在 :Dockerfile(Dev) 異なる設定非同期処理 DB 設定環境設定初期 :Capistrano(Ops) 移行期 :Envfile(Ops) 現在 :Envfile(Dev) Envfile 環境変数によってデプロイフロー使い分けているファイル

ECS 移行期間方法移行期間約半年移行方法 Route53 RoutingPolicy: Weighted EC2 99% ECS 1% => 5% => 30% => 100% 1 日放置エラーリソース確認

トラフィック推移

ECS に移行した結果スケール性能急激なトラフィックに耐えられるようになった余剰リソース集約率向上 => 1コンテナインスタンスに平均約 20タスク多様な構成開発者がSREに依頼することなく変更が可能異なる設定開発者がSREに依頼することなく変更が可能

アジェンダなぜ ECS にしたのか ECS Tips ECS 事件簿

発表内容の全体像 CI/Monitoring Jenkins ECS Cluster gateway Build Test Deploy Utility Amazon ECR S3 Lambda function Batch Jenkins worker Task Definition RDS Amazon CloudWatch doker pull docker exec Application ALB RedShift

Tips1 DB マイグレーション実行方法

デプロイフロー Build Test Deploy docker run package install db create test code (image upload) migration ECS TaskDefinition update ECS Service update

どうしたか? アプリケーションクラスターと同じクラスターを作る

デプロイフローデプロイフロー 1. utility クラスターのサービス更新 Build Test Deploy 1 ECS 2 gateway 2. 画像アップロード 3. migration 4. Applicationクラスターのサービ Utility 3 S3 ス更新 4 RDS EC2 rails console の実行 Application ALB

Tips2 テスト高速化

ある日テストめちゃくちゃ遅いんですけど

デプロイフロー ( 再掲 ) Build Test Deploy docker run package install db create test code (image upload) migration ECS TaskDefinition update ECS Service update

テストフロー開発者 1 GitHub テストフロー 1. 開発者が GitHub に push/merge 3 4 5 6 2 ECS S3 2. イメージをpull 3. コンテナを起動 Build Test Deploy 4. 必要パッケージをインストール Amazon ECR 5. db create 6. テストコード実行 Task Definition ECS Cluster Service

どうしたか? 環境に変更がない場合はビルド処理をスキップ

環境構成チェック方法対象ファイルディレクトリをSHA256に変換インストール Dockerfile Gemfile マイグレーション db/migrate

テストフロー ( 改善版 ) 開発者 1 GitHub 2 6 テストフロー 1. 開発者が GitHub に push/merge 4 5 7 8 3 ECS S3 2. config check 3. ECRからインストール済みイ Build Test Deploy メージを pull Amazon ECR 4. コンテナを起動 5. 必要パッケージをインストール Task Definition 6. config check 7. db create 8. テストコード実行 ECS Cluster Service

実測値 15 分 -> 5 分

Tips3 オートスケール方法

スケールイン / アウト (ECS) ECS publish metrics スケールイン / アウト 1. unicorn worker num task1 1 2 get metrics 2. lambda function 3. 1. をCloudWatchに送る 4. トリガー発動 task2 4 3 Lambda function publish metrics Auto Scaling ScaleIn/Out Amazon CloudWatch

スケールアウト (EC2) EC2 publish metrics 1 Amazon CloudWatch スケールアウト 1. CPU Utilization 2. Scale Out task1 task2 2 Scaleout Auto Scaling

スケールアウト (EC2) EC2 Amazon CloudWatch スケールアウト publish metrics 1. CPU Utilization 1 2. monitoring 3. draining/terminate task1 3 2 monitoring task2 draining/terminate

Tips4 バッチ処理実行方法

EC2 時代 cron で実行

どうしたか? バッチ用の Jenkins

バッチ用 Jenkins Batch Jenkins In-house-tool doker pull 4 docker exec 1 2 ECS ECS Cluster Service ジョブ例 ServieName=AAA Container=rails batch-tool bundle exec rake XXX 3 Task Definition Amazon ECR バッチ実行方法 1. タスク定義を検索 2. リポジトリとタグを検索 3. docker pull 4. コマンド実行

Tips5 Dockerfile の管理

構成管理ファイル多様な構成 OS 言語フレームワークバージョン等 Dockerfile 異なる設定非同期処理 DB 設定環境設定 Envfile

Dev が管理管理しているもの Dockerfile Envfile( 環境変数 ) 徐々に移行管理していないものオートスケールの設定

アジェンダなぜ ECS にしたのか ECS Tips ECS 事件簿

問題 1 fluentd サーバ SPOF 問題

fluentd を使っている理由 awslogs( 当時 ) 30GB/ 日 x 15 サービス =450GB 450GB x $0.76=$342/ 日 x 30day = $10,260/ 月 fluentd を使った

ある日なぜかコンテナが起動しない

原因 fluentd サーバに障害コンテナが上がらない

fluentd の設定 ECS S3 application log access log activity log RedShift

どうしたか? コンテナホストに fluentd の中継サーバーを立てる

fluentd の中継 ECS application log access log S3 activity log RedShift

問題 2 ( ラスト ) push 通知重複問題

ある日 1 人に同じプッシュ通知が重複して届く

原因非同期処理ワーカーが処理中にコンテナが停止してしまい最初から処理を再開 ECS タスクの停止動作 $ kill -SIGTERM (kill -15) $ kill -SIGKILL (kill -9)

どうしたか? $ kill -USR1 停止シグナルを送ってから停止するまで待つコンテナ監視を社内で構築

ワーカー監視方法 monitoring Jenkins In-house-tool 1 3 ECS 2 ECS Cluster Service System Manager 1. 稼働中のタスクの最大メモリとワーカー数を確認 2. SystemManager にメモリとワーカー数を問い合わせ 3. 最大メモリ値を超えたタスクに対してユーザシグナルを送りタスクを終了

ライフログがたまるほどあなたにフィットするパーソナルトレーナー AI アプリ

採用エンジニア採用してます SiteReliabilityエンジニアサーバサイドエンジニア (Rails) iosエンジニア Androidエンジニア https://www.wantedly.com/companies/finc/projects

エンジニアブログ Redshift ディスク使用量削減大作戦細部カイゼン合宿が思ったより有意義だった件マイクロサービス指向 Rails API 開発ガイドこの後 AWS Summit Tokyo の話しもアップします https://medium.com/finc-engineering

Thank you