今回の授業の狙い 基本的な統計量を求め 活用できること 章統計量と確率分布のと確率分布の活用 part 統計解析で用いる代表的な確率分布の特徴を 把握すること 統計解析の全体像 統計解析での注意点 ()( サンプリング サンプル 測定 母集団 何らかの意味で同質性が期待できるものの集団 e 日本人男性同じ条件で作った製品 母集団 推定 アクション 事実に基づく判断 データからモノをいう データ解析 s サンプリング 何を持ってくるかに注意 ロット 時間 作業者 箱の中の位置 3 統計解析での注意点 ()( 代表的な基礎統計量 求めたい集団は有限か? ~ 日本人の人口 代表値 { 平均値メジアンモード 次の条件を満たす場合 無限母集団として扱う 将来も同様の要素が作り出される場合 サンプルとして得られるデータ数より母集団の要素が十分多い場合 基礎統計量 散布度 関連度 { 分散標準偏差レンジ 相関係数
代表値と散布度 例題 () 平均値 データの和をデータ数で割ったもの () 中央値 ( メジアン 中位数 ) データを大きさ順に並べた時 中央に位置するデータの値 (3) 最頻値 ( モード ) 集められたデータの中で最も多く現われた値 次の 個のデータより 平均 中央値 最頻値 分散 標準偏差 範囲を求めよ. () 分散 各測定値の平均値からの差の 乗和 S を (-) で割ったもの 8 () 標準偏差 分散の平方根をとり データの単位としたもの () 範囲 データの最大値 - データの最小値 7 8 データの可視化 相関係数 ~ 要因間の関連度合いの指標 抵抗 R 散布図 & 層別 規格値 c.f. QC7 つ道具 つ以上の特性の関係を視覚的に表現する方法 ロットA ロットB 関係の有無は目視でわかる 関係を数値で示したい 定量化 抵抗 R 散布図 膜厚 t 原因と結果の関係 e. 照明の明るさと仕事の能率 要因と特性の関係 e. 経験年数と設計ミス数の関係 特性間の関係 e. 引張り強さと硬度 相関係数 (Correlatio Coefficiet) つの変数間の直線的な関係性を示す指標 膜厚 t 相関係数 r: : 散布図による表現 Y r Y r Y 相関係数の範囲 :- r 符号の意味 r> 正の相関 r< 負の相関 r - 相関係数 r: 求め方 () 表 - 身長と体重の例身長 c 体重 c 平均からの偏差偏差平方和積和 i i i- i- (i-) (i-) (i-) (i-) A B 8 C 7 D 7 E 7 8 F 7 7 G 77 7 H 8 7 I 8 73 J 8 7 計 7 8 平均 7 8 - -7-3 - - 7 3-8 - - - 3 3 8 3 S 3 3 S 8 - -8 8 3 3 S
相関係数 r: 求め方 () r S () S S S, S : 偏差平方和 S : 偏差積和 相関係数 r 3 3 S ( i - ) i i S ( Yi - Y ) S ( i - )( Yi - Y ) i 式 (-) 3 7.87 3 相関係数 r: : 評価 統計的な検討法もあるが一般的な目安は, r..< r..< r.8.8< r 無相関弱い相関相関有り強い相関 これはあくまでも目安検討目的に合せ固有技術で判断すべき! 参考 ) 相関係数 r: : ベクトルによる表現 実践 )ECEL) による相関分析 r s s s (,) cosθ ベクトルの内積 ( 内積の正の平方根 ) 相関係数 correl( セル範囲, セル範囲 ) correl(b3:b3, C3:C3) r r. r.7 r r-. 3 r-.7 r- 相関係数 r: : 注意点 () 相関係数が等しい 関係性が等しい a) データ b) データ c) データ3 d) データ 7 相関係数 r: 注意点 () データから求めた相関係数が高いことと と に因果関係があることとは別次元の話し 例 )~ 才の会社員の 走る速さ と 給料 の関係 給料 走る速さ ゆっくり走れば給料は多くなる?? 給料 走る速さ 勤続年数 (or 年令 ) 勤続年数 (or 年令 ) 偽相関 第 3 の変数が存在して これが と の両方に関連がある場合に起こる 固有技術的な観点で CHECK 8
分布の必要性 確率分布の考え方 世帯数 最頻値 万円 7 年貯蓄動向調査中央値 83 万円 平均値 万円 まず 選られたデータをグラフ化してみる f a b ヒストグラム クラス数の考え方 α+3.3 log スタージェスの公式 e データ数 では? 参考 :87 年 最頻値 3 万円 平均値 万円 貯蓄額 ここで データ数 大区間幅 h 小 :f() 確率分布 : 正規分布 f N h 全体を積分すると ( ) ( ) f π ep μ a b ( ) ( ) すべてのに対して f >, fd 確率変数がa,b 間の値をとる確率 b Pr{ a< < b} f( ) d a 変曲点 μ で最大 3.% 3.%.%.3% μ- μ μ+ μ+3 μ+ 図正規分布 正規分布の確率密度分布のの特徴 分布の形状 : 歪度 歪度 (Skewess): 分布の対称性からのズレをあらわす. s (-μ) 3 / 3 μ μ μ 負 (s<): 右に歪んだ ( 左に裾を引く ) 分布 s: 対称分布正 (s>): 左に歪んだ ( 右に裾を引く ) 分布 平均値 μ が等しく 標準偏差 が異なる つの正規分布 図形の面積は常に だから ( が小さい方が高さが高い ) 標準偏差 が等しく 平均値 μ が異なる つの正規分布 3
分布の形状 尖度 (Kurtosis): 正規分布と較べて, 尖りの程度やスソの広がりをあらわす. k (-μ) / -3 k<: 扁平な分布 k: 正規分布 k>: 中心が尖り スソを長く引く分布 統計量と記号の区別 母集団とサンプルデータでの統計量の関係母集団サンプルデータ 平均値 μ 分散 ( 標準偏差の 乗 ) V(s ) 真値 推定値 正規母集団での母数 母平均 ;μ 母分散 ; ギリシャ語の :ea ギリシャ語の s :stadard deviatio 参考 ;[ 加法定理 ] 正規分布に従う 組の母集団 N(μ, ) N(μ, ) をサンプルデータから求める N(μ, ) μ i ( ) i i i V 7 それぞれから取り出したサンプルの和の+ N(μ +μ, + ) + μ +μ つのサンプルの差 -は N(μ -μ, + ) μ μ 8 参考 : 工程能力指数 Cp と不良率 標準正規分布 Cp 公差 正規分布において μ, のもの すなわち N(, ) N(, ) 表 工程能力と不良率 確保した 工程能力 Cp 不良率 (%) ±.33 3.73 ±.7. ± 3..7 ±.33.3 標準正規分布基準化 ( 標準化 正規化 ) 確率変数 がN(μ, ) に従うとき はN(, ) に従う P u - μ u 3
正規分布表の見方 正規分布についてさまざまな確率を求める場合には付表の正規分布表 ( 片側 ) を用いる uを小数点 桁目まで考える 小数点 桁目 uの縦の欄 3 小数点 桁目 uの横の欄 例 u. u....3....7.8......88.8.8.7.7.8......83.3..3.3.8.7..87.8.7.8.....3.33 3 [ 演習問題 ] ある母集団が N(, ) に従う時 Pr ( ) を求めよ 3 [ 演習問題 ] ある押し出し成形のゴム部品は重量規格が ±g である 製造工程では μg.g の正規分布に従うが 不良率は何 % 見込まれるか? N(,. ) 規格値 :±g 重量 (g) 33 確率分布 :χ: 分布 標準正規母集団からサンプリングしたデータZ,Z,Z 3,,Z のそれぞれの 乗和の分布は自由度 fのχ 分布にしたがう. χ Z +Z +Z 3 + +Z では, 一般の正規分布 N(μ, ) から求めたサンプルの 乗和は, データZ i を基準化することで χ (Zi μ) / (-) i とすると, このχ も自由度 fのχ 分布にしたがう. 母集団の平均値 μがわからない場合はサンプルから平均値を求める. その場合, 式 (-3) のとおりであり, χ (Zi Z) / (-3) i 3 確率分布 :χ: 分布 f() χ 分布の表現 f() {....3.. e (>) Γ ( ) f f3 f ( ) 3 確率分布 :F: F 分布 個別に求められた 組のデータからそれぞれのばらつきに差があるか比較を行う際には, それぞれの分散を求めて比較してみればよい. 正規分布にしたがう 組の母集団それぞれからサンプル数, を抽出し, 分散 V,V を求める. 分散比 Fを求める. V F (-) V このFは自由度 f ( -),f ( -) のF 分布にしたがう. 3
確率分布 :F: F 分布 F 分布の表現 f,() { ( { f().8.7....3... B, (>) + ( + ) f,f f3,f f,f (<) 3 37 確率分布 :t: t 分布 通常, 母集団の分散は未知であることが多い. その場合データから分散 V を求めて基準化の式に代入すると式 (-8) は正規分布ではなく自由度 f- の t 分布にしたがう. μ V t (-8) t 分布は, を中心とした左右対称の分布で, 形はほとんど正規分布と変わらない. t 分布の形は自由度 (f-) によって多少異なり, 自由度が大きくなるほど尖り方が激しくなり, 次第に正規分布に近くなる. t 表 : 上記の t 値が % の確率で納まる範囲を示したもの ±t(-,.) がその限界値となる 38 確率分布 :t: t 分布 f () + + + Γ + + B, πγ t 分布の表現 f()..3.. 標準正規分布 t 分布 f t 分布 f3 t 分布 f - - -3 - - 3 図 - t 分布 3 参考 ) 相関係数 r: : 検定 ちなみに相関係数の検定は appedi r - t - r t を自由度 φ-, 有意水準 αのt 分布表の値と比べ r: 相関係数 : データ数 t t(-,α) なら相関あり t <t(-,α) なら相関なし ただし この検定は r かどうかの検定である