Microsoft PowerPoint - 矢部SPIJAPAN2013_発表用.pptx

現場ですぐできる定量データ分析 ~ 予測モデルのゆるい作り方 ~ SPI Japan 2013 発表資料 2013/10/18 NTTデータ矢部智 / 木暮雅樹 / 大鶴英佑

目次 1. 予測モデルとは? 2. NTTデータにおける予測モデルを利用した改善活動 3. 予測モデル構築普及における問題点 4. 問題に対する解決策 5. 組織での実践例 6. 結論と今後の課題 2

発表者自己紹介矢部智所属 :NTT データ品質保証部主な業務 : 全社グループ会社に対して品質保証活動を提供する具体的な活動プロセス改善支援プロセス改善教育全社標準プロセス整備定量データ分析本日の発表テーマ 3

予測モデルとは? 開発プロセスにおけるある実績データ ( 品質やコストなど ) からそれよりも後の時点の状態を確率論的に表現したもの x y 単体結合システムサービス基本設計詳細設計テストテストテスト提供 x x y y y = f(x) 予測モデルのメリット : 早い時点で対策が取れる問題の深刻化を防ぐ予測モデルが成立する条件 : 1. プロセスの尺度を使っていること 2. 統計技法を使っていること 3. ビジネスの課題とリンクしていること 4

本発表の狙い定量データを使った有益な予測モデルをモデルの本質的な意義をとらえた上でいかに無駄なく早く構築するか事例をふまえて紹介するデータ分析の専門家から見るとゆるい印象を与えるかもしれないだが目指したのは詳しい専門家でなくてもできること! 5

予測モデルを使用した組織の適用効果事例 ( 先行 2 組織 ) 総合的な改善の結果品質生産性に改善効果が見られた品質生産性 ( 円 /Step) H19 年 5 月 ML4 達成 H21 年 10 月 ML5 達成 UT SI すり抜け SI1/2 SI3 すり抜けすり抜け (Step/ 人時 ) H19 年 5 月 ML4 達成 H21 年 10 月 ML5 達成各プロセス / サービス開始後のエラー / バグ密度 7

予測モデル構築普及における問題点ビジネス上の効果を生み出せる予測モデルであるが課題もある 1. モデルの分析に必要なプロセス尺度の特定が難しい 2. モデルの仮説を導くのが難しい 3. 統計技法を活用できる人材に限りがある初期の取り組みではモデル構築に8ヶ月 ~2 年効果があるといってもこのままでは普及は進まない 8

問題に対する解決策どうやったら予測モデルの構築がより速く簡単にできるか? モデルの精緻さよりもモデルの便利さを早く体験できるようにしたい分析にかかる負担はなるべく小さくしたい 1. プロセス尺度はすでにあるものを使う 2. モデルの仮説は定性的な情報を使う 3. 統計技法は基本的なものだけを使う 9

解決策 (1) プロセス尺度はすでにあるものを使う新規に尺度を導入するのは非常にハードルが高い定義の議論トレーニングツールの整備分析可能になるまで測定データをためる期間すでにあるものなら追加コスト時間はかからないトレーニング不要ツールも既存のものが使えるためるまで待たずにすぐ使える 10

解決策 (2) モデルの仮説は定性的な情報を使うプロジェクトメンバーからのなんとなくこう思うという定性的な情報を仮説に取り入れるレビューに力を入れていない設計書はあとでバグが出やすいよレビューのとき有識者がいないと不安になるよ生産性が良すぎるプロジェクトはサービス開始後のバグが出やすいよなどモデルの仮説検討にかかる時間を節約感覚的でいいというとアイディアが豊富に出てくる必ずしもリニアな数字でとられていなくてもよいの場合とそれ以外といった離散値として扱う 11

:エラーグループ1 解決策 (3) 統計技法は基本的なものだけを使う仮説を用いてグループ間の検定を行う定性的な情報をグループを分ける名義尺度として扱うレビュー時間が長い / 短い有識者あり / なしなど t 検定 Wilcoxon 検定分散分析など y (例グループ 2 技法を絞ることで統計のトレ ) 技法を絞ることで統計のトレーニングにかかる時間も短縮 x( 例 : レビュー時間 ) 12

組織での実践例組織 E 概要規模大規模 (1000 人以上 ) 予測モデル構築 ( プロセス改善 ) の体制品質管理チーム (2 名 ) SEPG(2 名 ) 開発プロジェクトのリーダー ( 課長 4 名 ) ビジネス目標サービス開始後 3 ヶ月間のバグ密度を一定以下にすること苦労した点ビジネス目標はお客様とも合意した数値目標となっており予測モデルを使うことで目標達成に向けた具体的な効果があることを期待されている 13

使用したプロセス尺度組織で従来から収集していた品質データ ( レビューテスト関連 ) を使用主なプロセスと尺度 : レビュー : レビュー時間参加人数エラーの数ページ数等テスト : 工程ごとのバグ密度サービス開始後 3 ヶ月のバグ密度等 14

定性的な情報を名義尺度として定量化仮説は開発プロジェクトリーダーを交えて検討設計書レビューの丁寧さがサービス開始後のバグに影響しているのでは? 散布図を見ると設計書レビュー密度レビュー人数が小さいと BD 混入 PTバグ密度が大きい? 直線的な関連ではないが分布に差はありそう! 内部 BD レビュー密度レビュー密度レビュー人数の小さい ( 赤い枠 ) 大きい ( 青い枠 ) でグループ分け内部 BD レビュー人数 BD 内部レビュー密度 : 基本設計書の社内レビュー ( 分 / ページ ) BD 混入 PT バグ密度 : システムテストのバグのうち基本設計起因のもの ( 件 /ks) 15

( 件/kT( 件入PTグ密度グループ間検定を用いた予測モデルレビュー密度またはレビュー人数が一定値以上かどうかで 2 つのグループに分け Wilcoxon 検定で BD 混入 PT バグ密度の分布に差があることを確認 B( B( DD/混sk入sP) ) ババグ密混度内部 BD x 人以下 x 人超内部 BD xx 未満 xx 以上レビュー人数レビュー密度 ( 分 / ページ ) 16

予測モデル構築における解決策の効果 1. モデル構築までの期間は大幅短縮 8 ヶ月 ~2 年 2~3 ヶ月目標とする尺度を決めてからモデル式の統計的検定が終わるまでの期間 2. モデルに対する開発メンバーからの納得性も高いもともと現場で感じていた問題点をモデル化したので実感と合う既存のプロセス尺度を使っているのでモデルの使い方を覚えるのも簡単レビューの十分さについて別途用意したチェックシートも役だった 17

結論予測モデルの構築時間が短縮され最短で2ヶ月となった現場で感じている定性的な情報をモデルの変数にできることでメンバーの予測モデルに対する納得感が高まった統計分析のトレーニングを簡素化できた 18

今後の課題今回構築した予測モデルによる組織での改善効果の検証 ( 実施待ち ) 定量データ分析マニュアルへのノウハウ反映既存の品質データ管理ツールへの統計分析機能組み込み仮説のパターン化カタログ化 19