untitled

Similar documents
untitled

<4D F736F F F696E74202D A6D82A982B3955D89BF82CC979D89F082C9954B977682C8939D8C768A7782CC8AEE91622E B8CDD8AB B83685D>

EBNと疫学

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

講義「○○○○」

Microsoft PowerPoint - 測量学.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

不偏推定量

スライド 1

スライド 1

モジュール1のまとめ

情報工学概論

Microsoft PowerPoint - statistics pptx

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - sc7.ppt [互換モード]

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

untitled

スライド 1

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - Statistics[B]

統計的データ解析

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint saitama2.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - Stattext12.doc

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

経営統計学

統計学の基礎から学ぶ実験計画法ー1

Microsoft Word - Stattext07.doc

Medical3

ビジネス統計 統計基礎とエクセル分析 正誤表

Probit , Mixed logit

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

測量試補 重要事項

日心TWS

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft Word - å“Ÿåłžå¸°173.docx

PowerPoint プレゼンテーション

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

1/17 平成 29 年 3 月 25 日 ( 土 ) 午前 11 時 1 分量子力学とクライン ゴルドン方程式 ( 学部 3 年次秋学期向 ) 量子力学とクライン ゴルドン方程式 素粒子の満たす場 y ( x,t) の運動方程式 : クライン ゴルドン方程式 : æ 3 ö ç å è m= 0

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

数値計算法

Microsoft PowerPoint - 10.pptx

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

Microsoft PowerPoint - 三次元座標測定 ppt

データ解析

Microsoft Word - ミクロ経済学02-01費用関数.doc

_KyoukaNaiyou_No.4

横浜市環境科学研究所

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

Microsoft PowerPoint - Inoue-statistics [互換モード]

相対性理論入門 1 Lorentz 変換 光がどのような座標系に対しても同一の速さ c で進むことから導かれる座標の一次変換である. (x, y, z, t ) の座標系が (x, y, z, t) の座標系に対して x 軸方向に w の速度で進んでいる場合, 座標系が一次変換で関係づけられるとする

不確かさ評価について ( 独 ) 産業技術総合研究所計測標準研究部門 物性統計科応用統計研究室 田中秀幸

様々なミクロ計量モデル†

統計Ⅰ 第1回 序説~確率

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

測量士補 重要事項「標準偏差」

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

経済統計分析1 イントロダクション

Microsoft Word - Chap17

第7章

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft Word - NumericalComputation.docx

memo

カイ二乗フィット検定、パラメータの誤差

Microsoft Word - IntroductionToUncertainty_ doc

Microsoft Word - Stattext13.doc

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

LEDの光度調整について

Microsoft Word - apstattext05.docx

DVIOUT

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

【補足資料】確率・統計の基礎知識

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

Microsoft PowerPoint DegreesOfFreedom.ppt [互換モード]

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

線形システム応答 Linear System response

Microsoft Word - Stattext11.doc

<4D F736F F D2089FC92E82D D4B CF591AA92E882C CA82C982C282A282C42E727466>

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

数値計算法

テレコンバージョンレンズの原理 ( リアコンバーター ) レンズの焦点距離を伸ばす方法として テレコンバージョンレンズ ( テレコンバーター ; 略して テレコン ) を入れる方法があります これには二つのタイプがあって 一つはレンズとカメラ本体の間に入れるタイプ ( リアコンバーター ) もう一つ

1.民営化

Microsoft Word - apstattext04.docx

画像類似度測定の初歩的な手法の検証

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

Transcription:

分析の信頼性を支えるもの データ評価のための統計的方法 測定と統計の基礎知識 田中秀幸 1 はじめに 測定とは, ある物理現象をより良く知るために行うものであるが, 測定したデータをどう解釈するかということは案外難しい問題である データを解釈する際に大変有用であるのは統計的手法であり, 適切な統計的手法を取得したデータに適用するとデータの解釈が非常に楽になるだけではなく, データ, グラフを眺めているだけでは見えてこない隠された性質までも明示することができるようになる ただし, 正しく取得されたデータに正しい統計的手法を当てはめなければ判断を間違う結果が得られてしまう これを避けるには, 測定についての十分な知識, 統計についての十分な知識のほかに, 測定と統計を結びつけるための知識が非常に重要になる 本表題のシリーズでは統計的手法だけではなく, 測定と統計を結びつけるための知識についても解説できればと考えている シリーズは全 3 回を予定し, 第 1 回の本稿は, 測定と統計の基礎知識について解説する また第 2 回では推定 検定について, 第 3 回では分散分析法について解説する予定である 本解説で用いられる記号については表 1 に凡例を示すので参考にして欲しい 表 1 凡例母平均 m 母分散 s 2 母標準偏差 s 標本平均 šx 標本分散 s 2 標本標準偏差 s 確率変数 x の期待値 E(x) 確率変数 x の分散 var(x) 確率変数 x の確率密度関数 p(x) 事象 A が起こる確率 P(A) 確率変数 x が区間 a<x b に含まれる確率 P a<x b (x) Fudametal Kowledge for Reliable Aalysis Statistical Methods for Data Aalysis: Part 1. 2 測定と統計 測定 は何を知りたいがために行っているのであろ うか? 例えば, ある溶液の濃度測定を 10 回繰り返し て行い, その得られた測定値の平均値を算出した この とき知りたい情報とは何だろうか? 測定値の平均値を 知りたいがためにこのような測定をしたのであろうか? そうではない ここで知りたいのは単に 10 回のデータ の平均値が知りたいわけではなく, その溶液の本当の濃 度を知りたいのである しかし, 測定値はばらつきを持 つ 本当の濃度を完全に知るためには無限回の測定 ( ま たはそれに準じる回数の測定 ) を行わなければならな い しかし, 有限の時間に無限回の測定を行うことは不 可能である またはそれに準じる有限回の測定であって も時間 コストの面から難しい よって 10 回の繰り返 し測定のデータから, その溶液の本当の濃度を推定して いるのである この例での本当に知りたい値とは, 測定を無限回行っ たときに得られるデータの集まりの平均値である この 測定を無限回行ったときに得られるデータの集まりのこ とを母集団と言い, その母集団の平均値のことを母平均 と言う この母平均をはじめとした母集団の性質を表す 値のことを母数と言う またその母集団からサンプリン グされたデータの集まりを標本と言い, 標本の平均値を 標本平均という この関係を図示したものを図 1 に示 す つまり, 何を測定するのか, その測定される量の定 義, 測定方法, 測定手順が定まったときに ( 我々には知 ることができないが ) ある母集団が決定する そして測 定を 1 回行うことによって, その母集団からデータが 一つサンプリングされて測定結果を得る つまり測定と は, その測定の母集団からのサンプリングであると言え る 何回か測定を繰り返すことによっていくつかの標本を 得, その標本を用いて母集団の性質を推定する これが 統計的視点から見た測定の本質である 先ほど, 母集団はその測定される量の定義, 測定方法, 測定手順が定まったときに決定すると言ったが, こ 60 ぶんせき

図 1 測定の母集団 ( 左 ) と標本 ( 右 ) れは逆についても言える つまり, 測定を行うときには, 量の定義, 測定方法, 測定手順を完全に決めておかなければならない 測定を行うごとに量の定義, 測定方法, 測定手順が変化したとすると, 測定の母集団が測定ごとに変化し, 測定されたデータは同じ母集団からサンプリングされたものとは見なすことはできない また測定方法, 測定手順が妥当なものでなければ, 推定したいと思っている母集団とは異なる母集団からの標本によって母平均を推定してしまうこともある よって, そのような標本から推定された母平均は信頼することができない このことは当然のようで非常に見過ごされがちなことである 例えば次のような実験を考えよう 製造装置を選定するために A 社,B 社製の製造装置を用いて同じ製品を製造し, その製品を比較したい また, その製品を製造するには半日かかるとする このとき何も考えずに実験を行うと表 2 で示すように行うことが多いだろう もしこの実験を月曜日の午前中から行ったとしよう そうすると, 製品を製造するのに半日かかるので, 午前と午後で 1 日に 2 個の製品が製造できる このことを考慮し, 表 3 にいつ製品が製造されるかを示した 表 3 を見ると,A 社の装置はすべて午前中に製造し, B 社の装置はすべて午後である このようなデータを取ってしまうと,A 社製の製造装置で製造した製品と B 社製のものとが何か異なる結果が出たとしてもそれは本当に A 社製,B 社製の製造装置が原因であるのか, それとも午前, 午後に製造したことが原因であるのかの区別ができない 何も考慮せず実験 測定を行うとこのようなことが多発する これを避けるためには 実験のランダム化 を行う 実験のランダム化とは, 実験を行う順番を乱数表などを使って, ランダムに行うことである 実験のランダム化を行った実験の順番を表 4 に示す 表 4 のように実験のランダム化を行えば午前 午後の要因が A 社製,B 社製の両方にほぼ均等に入ることが期待でき, 純粋に製造装置の比較ができるようになる このように測定量の定義, 測定方法, 測定手順は質のよいデータを取得するための最重要項目であり, 測定を行うときにはこの三つの項目を測定を行う前に完全に決定する必要がある つまり, 測定によって何を知りたい 表 2 実験の順番 製造装置 \ 回数 1 2 3 4 A 社製 (1 回目 ) (3 回目 ) (5 回目 ) (7 回目 ) B 社製 (2 回目 ) (4 回目 ) (6 回目 ) (8 回目 ) 表 3 実験の順番による不具合 製造装置 \ 回数 1 2 3 4 A 社製 ( 月曜午前 )( 火曜午前 )( 水曜午前 )( 木曜午前 ) B 社製 ( 月曜午後 )( 火曜午後 )( 水曜午後 )( 木曜午後 ) 表 4 ランダム化された実験の順番 製造装置 \ 回数 1 2 3 4 A 社製 ( 月曜午前 )( 月曜午後 )( 火曜午後 )( 木曜午前 ) B 社製 ( 火曜午前 )( 水曜午前 )( 水曜午後 )( 木曜午後 ) のか, その知りたいことはどのような物理的特性を測定 すれば達成できるのか, その物理的特性の定義をどのよ うに実現するのか, その測定の手順をどのようにするの か, 測定結果にどのような統計的手法を適用するのか, 統計的手法を適用し得られた結果をどのように活用する のか, ということをすべて決定した後に測定を行わなけ ればならない 測定を行いデータを取得した後にその データに適用する統計的手法を考えるということを行う と, 本当に知りたい情報はその測定結果からは得られな いということがたびたび起こる 3 分散と標準偏差通常繰り返し測定を行った場合には測定結果として平均値を用いるが, その測定結果のばらつきの大きさも重要な情報である 適当な前提条件を置き, 算出されたばらつきの情報を用いれば母平均の存在区間を算出することもできる 本章では標本のばらつきについて考える 標本のばらつきを表すためには標本分散または標本標準偏差が用いられる 標本 x i (i = 1,..., ) の標本分散 s 2 (x) は, ぶんせき 61

s 2 (x) = i = 1 (x i - šx) 2-1 ( 1 ) で表される ここで,šx は標本の平均値つまり標本平均を表す また標本標準偏差 s(x ) は標本分散の平方根である 式 (1) より, 標本分散とは各標本と標本平均の差の二乗和を - 1 で割ったものである これは各標本と標本平均の距離 ( これを偏差という ) の二乗平均を表している 本来であれば平均を算出するので標本数 で割るはずであるが, 標本分散を算出するときには - 1 の自由度と呼ばれるもので割ることになっている これについては第 6 章で詳しく解説する また分散は偏差の二乗平均であるので, 例えば測定データの単位が [g] であったとすると, 分散の単位は [g 2 ] となる つまり, 標準偏差では単位を元の測定量の単位に戻すために平方根を取るのである これを見てわかるように, 正確な言い方ではないが標準偏差はデータの平均的なばらつきを表している 統計ではばらつきは通常, 分散のまま計算が行われ, 最終的にばらつきを報告するときに標準偏差に変換される この理由も第 6 章で解説する 4 期待値と母分散 4 1 期待値について第 3 章では標本分散, 標本標準偏差について考えたが, 本章では, 標本だけではなく, 母集団と標本両方について考え, 標本と母集団の関係を解説する 母集団と標本との関係を考えるに当たって最も重要なのは期待値である 期待値とは簡単に言うと 理想的にはこの値になる という値のことである 例えばサイコロを考えよう サイコロを無限回振ったときの平均値はいくつになるだろうか? サイコロは 1 から 6 までの面を持ち, また各面が 1/6 の確率で現れる よって, 平均値は 1 から 6 までの面が同じ確率で現れるので 3.5 となるだろう つまり, このサイコロを振ったとき 1 から 6 のまでのどの目が出るかはわからないが平均的には 3.5 くらいが期待される, ということである この 3.5 のことを期待値と言う これを数式で表すことを考えよう 1 が出るときの確率は 1/6 というものを数式で表すと, P(1) = 1 6 ( 2 ) となる また, サイコロはすべての目の出る確率は等しく 1/6 であるので, P(1) =P(2) = =P(6) = 1 6 ( 3 ) となる この P(A) というのは A という事象の起こる確率が P(A) である ということを表している 次に期待値の算出は, 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 1 6 + 2 6 + 3 6 + 4 6 + 5 6 + 6 6 = 21 6 = 3.5 ( 4 ) という式で考えることができる これを一般式で表すと, E(x) =x 1 P(x 1 )+x 2 P(x 2 )+ +x P(x ) E(x) = i = 1 x i P(x i ) ( 5 ) となる E(x) は x の期待値 を表す また, このときの x のことを確率変数と呼ぶ 確率変数とは値が確率的に決定する変数のことである また, サイコロの目は離散的な値であるので, 期待値は式 (5) となるが, 測定値などの連続的な値の場合, 期待値は, E(x) = f x p(x)dx ( 6 ) - と表すことができる ここで,p(x) は確率密度関数といい, b P a<x b (x) = f p(x)dx ( 7 ) a によって,x が a から b の間に含まれる確率を計算することができる関数である つまり, 連続分布のときには x がある値となる確率は 0 となる なぜなら x は無限個のデータから構成されるため, 無限個のデータの中からある一つのデータがサンプリングされる確率は 0 となるからである よって, 連続分布では x がある値からある値の間に含まれる確率というものしか意味を持たない ここで, サイコロの期待値をもう一度見てみると, サイコロの期待値は 3.5 であるが, これは母平均と等しい これを一般的に言うと, 測定値 x があり, その母平均を m とすると, E(x) =m ( 8 ) が成立する つまり, 測定値は理想的には母平均になるということを表している ここで, 母集団についての性質を表す変数は通常ギリシャ文字が用いられる 母平均は通常 m で表される 62 ぶんせき

このほかの期待値の性質を見てみよう c を定数とすると, E(c) =c ( 9 ) E(cx) =ce(x) (10) が成立する 式 (9) は自明であろう 言ってみるとサイコロの面すべてが 3 であるサイコロはいくら振っても 3 しか出ないということである また式 (10) に関しても, サイコロの目が 2, 4, 6, 8, 10, 12 の目があったとすると, 期待値は 7 になることはすぐにわかる 次に x, y がともに確率変数であるとき, E(x ± y) =E(x) ±E(y) (11) が成立する これもここでは詳しく解説しないが, 二つのサイコロを用意して出た目の和の期待値がどうなるかを考えれば理解できるであろう 最後に確率変数 x, y が互いに独立であるとき, E(xy) =E(x)E(y) (12) が成立する ここで, 互いに独立であるとき の意味であるが,x と y が影響を及ぼしあうことはなく,x, y の値がそれぞれ別個にある確率に従って決定する, ということを表している 二つのサイコロを同時に振ったとき, それぞれ出た目は独立であると言えるだろう あるサイコロの目はもう一つのサイコロの目が何であるかということとは関係なく決定することは自明である このときもサイコロを例に取り計算してみるとこの式の意味がよくわかるだろう 4 2 母分散について 4 1 では期待値の基礎について考えたが, この応用をここでは考えよう ばらつきは分散で表されると前章で解説したが, これを期待値で表すことを考える 分散とは測定値と平均値の二乗平均である つまりこれを期待値で表すと, var(x) =E{(x - m) 2 } (13) となる var(x) は x の分散を表している また式 (13) では, 測定値 x と母平均 m との偏差の二乗の期待値を求めている つまり var(x) は母分散を表している また, 先ほど言ったように母集団の性質を表す変数はギリシャ文字が用いられる 母分散は通常 s 2 で表される この分散もいくつか便利な性質を持っている その性質をいくつか挙げる c が定数のとき, var(x + c) =var(x) (14) が成立する これは, 例えばサイコロの目を 1~6 から 3~8 に変えたところで, 平均値は変わるがばらつきの 大きさは変わらないということを表している c が定数のとき, var(cx) =c 2 var(x) (15) が成立する これは, var(cx) =E[{c(x - m)} 2 ]=E{c 2 (x - m) 2 } = c 2 E{(x - m) 2 }=c 2 var(x) だからである x, y が独立のとき, var(x ± y) =var(x) +var(y) (16) が成立する これは, var(x ± y) =E[{(x - m x ) 2 }±(y - m y )} 2 ] = E{(x - m x ) 2 +(y-m y ) 2 ± 2(x - m x )(y - m y )} = E{(x - m x ) 2 }+E{(y - m y ) 2 } ± 2E{(x - m x )(y - m y )} となる ここで,E{(x - m x )(y - m y )} という項があるが, この項は x, y が互いに独立であれば 0 となる性質を持つ そうすると, var(x ± y) =E{(x - m x ) 2 }+E{(y - m y ) 2 } = var(x) +var(y) となる 式 (16) は大変重要である つまり, ばらつきを合成するときには分散をそのまま足し算すればよい, もしくは, 標準偏差を合成するときには二乗和の平方根を用いればよい, ということを表している 誤差, 不確かさの合成はこの性質を用いて行っている 5 平均値の分散 通常, 測定結果は標本平均を最終的な測定結果として報告する そうすると重要になるのが平均値の分散である 標本平均はデータを取得するたびに異なる値が算出される ( たまたま同じ値になるときもあるが ) これもサイコロを考えれば自明であろう サイコロを5 回振ったときの平均値は毎回同じ平均値になるわけではなく,5 回振るたびに異なる平均値が求められる つまり, 標本平均とは変動する値なのである この標本平均のばらつきを表したものが平均値の分散である 標本平均は, šx = x i i = 1 = 1 (x 1 + x 2 + x 3 + +x ) (17) によって算出される よって平均値の分散は, var(šx) =var { 1 (x 1 + x 2 + x 3 + +x ) } (18) ぶんせき 63

で表される ここで は定数であるので, 式 (15) より, var(šx) = 1 2 var(x 1 + x 2 + x 3 + x ) (19) となる また, 各 x i は繰り返し測定より得られることがほとんどであろう このようなとき, 各 x i は他の x i の値に影響されることはなく値が決定すると考えても, そうおかしい前提をおいているわけではない つまり各 x i は互いに独立であるとすると, 式 (16) から, var(šx) = 1 2 {var(x 1)+var(x 2 )+ +var(x )} (20) となる ここで各 x i の分散を考える 各 x i は, それぞれ同じ測定から得られている すなわち同じ母集団からサンプリングされた標本である そうであれば,x i の分散は母分散である s 2 (x) と考えられる 式で示すと, var(x 1 )=var(x 2 )= =var(x )=s 2 (x) (21) となる これを式 (20) に代入すると, var(šx) = 1 2 {var(x 1)+var(x 2 )+ +var(x )} s 2 (šx) = s2 (x) = 1 2 {s2 (x) +s 2 (x) +s 2 (x) + +s 2 (x)} = 1 2 {s2 (x)} (22) となる つまり, 母集団から 個サンプリングして算出した標本平均の分散は母分散の 1/ になるということを表している この平均値の分散の性質を考えると, 平均値を算出するためのデータが増えれば増えるほど標本のばらつきは小さくなる 逆に, 測定を 1 回しか行わないのであれば, その 1 回の測定で得られたデータがそのまま標本平均となる ある一つのデータの分散はもちろん s 2 となるが, これは式 (22) の に 1 を代入したものと等しい 式 (22) を見てわかるように, これは母分散に関する式である 母分散は無限回の測定を行わなければ算出できない値であるので, 我々には知ることができない よって実際に計算を行うときには母分散 s 2 (x) の代わりに母分散の推定値 âs 2 (x) を用いる必要がある ここで, â のついたギリシャ文字は母数の推定値を表す よって式 (22) は, âs 2 (šx) = âs2 (šx) (23) となる そして母分散の推定値として通常用いられるのは標本分散 s 2 (x) である 式 (23) は平均値の推定 検定, 不確かさ評価など非常に多くの場所で用いられる 6 自由度と不偏推定量 第 2 章で標本分散について見てきたが, 標本分散では偏差の二乗平均を算出するときにデータの個数ではなく ( データの個数 -1) で表される自由度で割った これはなぜだろうか? ここでは, 新しい分散 ãs 2 (x) を考えよう これは, ãs 2 (x) = i (x i - šx) 2 (24) という, 自由度ではなくデータの個数 で割った分散である この ãs 2 (x) はいったいどのような値を推定しているのかを第 4 章で解説した期待値を用いて考える まず式 (24) を変形する ãs 2 (x) = i (x i - šx) 2 = i x i 2 = i x i 2 = i (x i 2-2x i šx 2 + šx 2 ) - x i 2šx i + šx2-2šx2 + šx 2 = i x 2 i - šx2 (25) 式 (25) の期待値を求めてみよう E[ãs 2 (x)] = E ( i x i 2 - šx2) = 1 i{e(x i 2 )} - E(šx 2 ) (26) ここで,E(x i2 ) とは何を表しているのかを考える 式 (13) より, var(x) =E{(x - m) 2 }=E(x 2-2xm + m 2 ) (27) ここで m は母平均であるので定数である よって式 (27) は, E(x 2-2xm + m 2 )=E(x 2 )-2mE(x) +m 2 = E(x 2 )-2m m + m 2 = E(x 2 )-m 2 (28) となる var(x) =s 2 であることに留意すると, E(x 2 )=s 2 + m 2 (29) となる また E(šx 2 ) も同様に考えると, var(x) =E{(šx - m) 2 }=E(šx 2-2šxm + m 2 ) = E(šx 2 )-2mE(šx) +m 2 = E(šx 2 )-2m m +m 2 = E(šx 2 )-m 2 64 ぶんせき

となり,var(šx) =s 2 / であることに留意すると, E(šx 2 )= s2 + m2 (30) となる 式 (29) と式 (30) を式 (26) に代入すると, E[ãs 2 (x)] = 1 (s 2 + m 2 )- ( s 2 よって, = 1 (s2 + m 2 )- ( s 2 m2) + m2) + = s 2 + m 2 - s2 - m2 = s 2 - s2 E[ãs 2 (x)] = - 1 s 2 (31) となる つまり, 自由度ではなく測定値の個数 で偏差の二乗和を割って算出した分散は母分散を推定しているのではないことがわかる また式 (31) から, E { i (x i - šx) 2-1 } = s2 (32) であることは自明であろう つまり標本分散 s 2 (x) は母平均の推定値として全く偏りをもたないということである このような母数の推定量のことを不偏推定量と呼ぶ つまり, データの個数ではなく自由度で偏差の二乗和を割ったのは不偏推定量にするためなのである よって, この s 2 (x) のことを不偏分散とも呼ぶ また, 標本平均も, E(šx) =E ( i x i ) = 1 i E(x i )= 1 i m = 1 m E(šx) =m (33) ということから不偏推定量である 統計は標本平均, 標本分散を基本とした体系で構成されているが, これは標本平均, 標本分散が不偏推定量であることが一番大きな理由である また, 標本標準偏差は不偏分散の平方根であるが, 母標準偏差の不偏推定量ではない 7 最後に第 1 回は統計の基礎ということで話を進めたが, 特に 2. 測定と統計 を重視して欲しい 測定を行う前にはどのような統計的手法を適用するのかということが決定しているのであれば, 実験データの取得の際に明確な目的意識を持てる これは質のよいデータを取得するとき大変重要なことである 統計の数学的な話も重要ではあるが, 統計的手法を当てはめるためのデータの質が低ければいくらすばらしい統計的手法を用いることができても妥当な結果が得られることはない 次回は今回解説した統計の基礎をベースとして平均値の推定と検定について解説したいと思う 田中秀幸 (Hideyuki TANAKA) 産業技術総合研究所計測標準研究部門物性統計科応用統計研究室 ( 305 8563 茨城県つくば市梅園 1 1 1 産総研中央第 3) 筑波大学大学院工学研究科修了 博士 ( 工学 ) 現在の研究テーマ 計測における不確かさについて 非線形光学入門服部利明著非線形光学現象は様々な場面で用いられる 最近では特に非線形光学素子を用いた光通信分野への応用が盛んである 分析化学の分野においても非線形光学を利用した分光法など多く利用されつつある しかし量子力学に関する知識が必須であるが故に, 非線形光学を理論的に身に付けるのは難しい 本書は, 学生や初心者, 技術者にも体系的に理解することができるようにまとめられているのが大きな特徴である 線形光学や偏光, 結晶光学などに関する基本事項については, 巻末にまとめられおり使いやすい 専門書や参考文献も挙げられているので, より詳細に学びたい方はそちらに進められればよい 5 章から構成されており,1 章で非線形光学現象と非線形感受率,2 章では 2 次の非線形光学効果,3 章では 3 次の非線形光学効果,4 章では誘導ラマン散乱,5 章では非線形光学過程の一般論について述べている 本書は入門書であり, 非線形光学に関する基本的な知識を身に付けるには大変役に立つ内容であり, ぜひ一読をお勧めする (ISBN 978 4 7853 2826 9 A5 判 235 ページ 3,800 円 + 税 2009 年刊 裳華房 ) ぶんせき 65