DVIOUT-mem

Similar documents
Microsoft Word - lec_student-chp3_1-representative

3章 度数分布とヒストグラム

経営統計学

Microsoft PowerPoint - 基礎・経済統計6.ppt

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

3章 度数分布とヒストグラム

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

経済統計分析1 イントロダクション

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Microsoft PowerPoint - データ解析基礎2.ppt

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - 測量学.ppt [互換モード]

統計学入門 練習問題解答集

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

13章 回帰分析

Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

第4回

基礎統計

Microsoft Word - Stattext07.doc

散布度

代表値

ビジネス統計 統計基礎とエクセル分析 正誤表

stat-base_ppt [互換モード]

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

学習指導要領

stat-base [互換モード]

1.民営化

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

_KyoukaNaiyou_No.4

PowerPoint プレゼンテーション

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

横浜市環境科学研究所

モジュール1のまとめ

Microsoft PowerPoint - 10.pptx

学習指導要領

基礎統計

Microsoft Word - 保健医療統計学112817完成版.docx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft Word - Stattext13.doc

(Microsoft PowerPoint - \214o\215\317\223\235\214va-8.ppt [\214\335\212\267\203\202\201[\203h])

スライド 1

EBNと疫学

画像類似度測定の初歩的な手法の検証

学習指導要領

Probit , Mixed logit

PowerPoint プレゼンテーション

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft Word - apstattext01b.docx

統計的データ解析

テレビ講座追加資料1105

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

Microsoft PowerPoint ppt

Microsoft Word - Stattext11.doc

学習指導要領

情報工学概論

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

学力スタンダード(様式1)

Microsoft PowerPoint 確率レジュメA

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

学習指導要領

. 角の二等分線と調和平均 平面上に点 を端点とする線分 と を重ならないようにとる, とし とする の二等分線が線分 と交わる点を とし 点 から に垂直に引いた直線が線分 と交わる点 とする 線分 の長さを求めてみよう 点 から に垂直な直線と および との交点をそれぞれ, Dとする つの直角三

Microsoft Word - NumericalComputation.docx

講義「○○○○」

経済統計分析1 イントロダクション

Microsoft Word - スーパーナビ 第6回 数学.docx

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

Microsoft Word - apstattext04.docx

<4D F736F F D F90948A F835A E815B8E8E8CB189F090E05F8E6C8D5A>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

memo

学習指導要領

Microsoft Word - 補論3.2

スライド 1

測量士補 重要事項「標準偏差」

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - Econometrics

スライド 1

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

測量試補 重要事項

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

線積分.indd

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

学習指導要領

DVIOUT

基礎統計

【指導のポイント】

untitled

Microsoft PowerPoint - Econometrics pptx

Transcription:

統計学講義メモ (1): 記述統計 高木真吾, 北海道大学 目次 1 データの全体像を見る 1 1.1 全体像を把握する : ヒストグラム.................................. 1 1. 分布状態を比較する : ローレンツ曲線................................ 3 データを要約する 8.1 データを代表する尺度 : 代表値................................... 8. データの散らばりを示す尺度..................................... 9..1 データの基準化と応用例................................... 11.3 ヒストグラムからの要約....................................... 1 3 二つの変数の間の関係を探る 13 3.1 共分散 相関係数........................................... 13 3. 順位相関係数............................................. 14 1 データの全体像を見る データ : 何らかの概念に対応する量的 質的表現 記述統計学 : データを正しく効率的に読む方法論 ( データの要約 整理 ) 1.1 全体像を把握する : ヒストグラム 度数分布表 ヒストグラム, 階級数 階級幅 階級値の決定 階級幅の異なるヒストグラムの描写 オープンエンドとなっている上端 下端の処理ローレンツ曲線 ジニ係数 同一概念に基づく二つのデータの分布状態の比較 データの分布状態 / 集中の程度 1

データセット ( 標本の大きさ ): X 1,X,X 3,...,X 1. 度数分布表の作成 (a) 階級数と階級幅 ( 観測値のとりうる値を複数のクラスに分類する ) の決定方法 1. 目算で作成方法. 自動で決定 : スタージェス (Sturjes) の公式 ( 標本数に応じて階級数 k を自動的に決める ) 1 k =1+log (b) A. 度数のカウント B. 相対度数の計算 A. 各階級に属する観測値の個数を数える B. 標本の大きさが異なるケースでも比較可能なように標本の大きさで割る ( 全体で1になる ) (c) 階級値の決定方法 1. 各階級の上限と下限の中間値方法. 階級内のデータの標本平均値. ヒストグラムの作成 度数分布表をグラフ化する 階級幅が異なるときには注意が必要 グラフの高さは, 相対度数と階級幅から決まる. 注意点 (1): 各階級の相対度数はその階級が全体に対してどの程度貢献しているかを示している. 各階級のヒストグラムの棒の面積も相対度数に比例する形で描写されなければならない. したがって階級幅が他の部分の異なるときは棒の高さを調整してヒストグラムを描写しなければならない. 注意点 (): オープンエンドとなっている右端と左端の階級の扱い 左端について, 金額などのときは0を下限にすることが多い 階級内の平均値が分かっているとき, それを利用する ( 以下の例を参照 ) 適当に定める 例 1:50 人の点数分布 階級数を 5, 階級幅を 0 点 例 :30 人の年俸分布 階級は表のように定め, 度数分布表を作成した. 1 ほかにも多くの方法が知られている. 例えば, 標本標準偏差 s を用いて,k =3.49 1/3 と決める方法や k () 1/3 なる最小の k を階級数とする方法もある.Sturjes の公式は, 階級数 k で各階級に含まれる標本数が二項係数で近似できるような分布であるとき, 標本数と階級数の間に k 1 X ³ k 1 = = k 1 i i=0 ここから両辺の対数をとることで log = k 1 となり公式を得る.

オープンエンドの処理方法としては, 表 の例では, 下限は 0 と分かっているのでその情報を用いる 階級の中央の値が階級値になるように処理する, つまり次の関係を満たす x を求める. 5000 + x = 1680 x = 7560 例 3:50 人の成績分布スタージェスの公式から 1+log 50 6.6438 つまり階級数は6とすることが示唆されており, 階級幅を6 点刻みで設定した ( 上端はオープンエンド ). 階級値は 35 と分かっているので上の例と同じように定めればよい. 1. 分布状態を比較する : ローレンツ曲線ローレンツ曲線は, 各観測点が全体に対してどの程度貢献するかを求めることでそのデータの分布状態 ( 集中状態 ) を描写する. データ :W 1,W,W 3,...,W これらは小さい方から並べられているものとする :W 1 W W 3 W ローレンツ曲線は次のような手順で作成する. 1. 観測点について, 全体が 個あり, 各個体が占めているシェアは S i =1/ である. これを観測点シェアと呼ぶことにする.. データの数値についてみると, 全体の大きさは W = P W i であり, 各観測点のシェアは V i = W i /W である. これをデータ値シェアと呼ぶことにする. 3. 最後にそれぞれのシェアの累積和を定義する. ix X i = S j,y i = ix j=1 j=1 V j i =1,,..., これらをそれぞれ観測点シェア累積和, およびデータ値シェア累積和と呼ぶことにする. 以上ふたつの累積和 {(X i,y i )} を X Y グラフにしたものがローレンツ曲線である. 表 4, 5, 6 の資産分布を例にこの曲線の意味を考える. ローレンツ曲線の考え方としては 均等にデータが分布しているとき, 観測点シェア累積和 と データ値シェア累積和 と等しく増加していくと考えられる. 不均等に分布しているとき, 最初は小さい貢献 ( シェア ) しかしない観測点が並んでいるので, 観測点シェア累積和 にくらべ データ値シェア累積和 は緩やかにしか増加しない. 逆に最後の方には貢献の大きい ( シェアが大きい ) 観測点が残っているので後者の方が急激に増加すると考えられる. 以上の結果より, ローレンツ曲線は分布状況が完全に均等なとき 45 度線になる ( どの階層の人も等しい資産総額に対する貢献しか持たないことを示している ). ローレンツ曲線をグラフ化すると, 3

表 1: 階級値は, 階級上限 下限の中間値 階級 階級値 度数 相対度数 累積度数 累積相対度数 0 0 10 1 0 40 30 7 40 60 50 17 60 80 70 15 80 100 90 10 1.0 50 1.0 ただし 0 0 は 0 より大きく 0 以下と読むことにする. 表 : 階級値は, 階級内平均値 階級 階級値 度数 相対度数 累積度数 累積相対度数 1000 万円以下 (0 1000) 65 6 000 万円以下 (1000 000) 1550 10 3000 万円以下 (000 3000) 633.3 3 4000 万円以下 (3000 4000) 3500 1 5000 万円以下 (4000 5000) 4540 5 5000 万円から上 (5000 x) 1680 5 1.0 30 1.0 表 3: 上端の階級値は階級内平均値 階級 階級値 度数 相対度数 累積度数 累積相対度数 0-5.5 10 6-11 8.5 0 1-17 14.5 9 18-3 0.5 5 4-9 6.5 4 30-x 35 1.0 50 1.0 4

表 4: 平等な資産分布 1 3 4 5 総額 資産額 300 300 300 300 300 1, 500 資産シェア 0% 0% 0% 0% 0% 100% 人口シェア ( 累積 ) 0% 40% 60% 80% 100% 資産シェア ( 累積 ) 0% 40% 60% 80% 100% 表 5: 不平等な資産分布 1 資産額 00 00 00 00 1, 00, 000 資産シェア 10% 10% 10% 10% 60% 100% 人口シェア ( 累積 ) 0% 40% 60% 80% 100% 資産シェア ( 累積 ) 表 6: 不平等な資産分布 資産額 00 300 300 400 500 1, 700 資産シェア 1% 18% 18% 4% 9% 100% 人口シェア ( 累積 ) 0% 40% 60% 80% 100% 資産シェア ( 累積 ) 均等に保有している場合には 45 度線となり, 一人に富が集中している場合には曲線が外に広がっている ことが分かる. ローレンツ曲線のひとつの問題点として, 曲線が交差してしまうとき分布状態の比較ができない. 例として, 世界銀行の World Developmet Idicators には, 表 1. のようなデータが掲載されている. この表を用いて国別ローレンツ曲線を描くと図 1 のようになる. 表 7: 所得階層別人口シェアと各階層が全体に占める所得シェア 人口シェア 10% 10% 0% 0% 40% 40% 60% 60% 80% 80% 90% 90% 100% Idia 0.035 0.046 0.116 0.150 0.193 0.16 0.335 Japa 0.048 0.058 0.14 0.176 0.0 0.140 0.17 Chia 0.04 0.035 0.10 0.151 0. 0.16 0.304 U.S. 0.018 0.034 0.105 0.156 0.4 0.159 0.305 この例ではインドのローレンツ曲線と中国 アメリカのそれが交差しているので不平等の程度が判定できない. その場合の判定方法のひとつとしてジニ係数と呼ばれるひとつの尺度がある. この尺度はどの程度ローレンツ曲線が 45 度線から乖離しているかを計測する. 具体的には 45 度線とローレンツ曲線で囲む面積 ( の 倍 ) として定義される. この定義から明らかなように, ジニ係数の性質として 完全に平等 =ローレンツ曲線が 45 度線 = 面積が0=ジニ係数が0 5

図 1: 国別ローレンツ曲線 不平等度大 =ローレンツ曲線が 45 度線から乖離 = 面積が大 =ジニ係数が0より大 完全に不平等 =ローレンツ曲線が 90 度線 ( 軸に一致 )= 面積が1=ジニ係数が1 つまり, ジニ係数は0から1の間の値を取り,1に近いほど不平等の程度が大きい状態を指し示している. ジニ係数を求める一般的な公式を次の表のような形でデータが与えられている場合について考える. これらはローレンツ曲線を描く上で必要なものである. 目的とする部分の面積は,45 度線で囲まれる三角形から 表 8: 所得階層別人口シェアと各階層が全体に占める所得シェア 観測点シェア S 1 S S データ値シェア V 1 V V データ値シェア累積和 Y 1 Y Y ローレンツ曲線の外側の台形の総和を差し引いたものを 倍したものである. ローレンツ曲線の下部分にできる台形の面積はそれぞれ (Y k 1 + Y k ) S k と与えられるので, ジニ係数は ( 1 G = X (Y k 1 + Y k ) と与えられる. S k ) =1 X (Y k 1 + Y k ) S k, Y 0 =0. (1) 個別データが与えられている ( あるいは観測点シェアが等しい間隔もほぼ同様の方法で計算できる ) 場合には計算上便利な別の計算公式が存在している. 元データを小さい順に W 1 W と並べ, V k = W P k W = W k i W, 1 W = X W i 完全に不平等という意味合いは十分たくさんの人がいて一人だけがすべての富を所有している状態を指している. 6

として各観測値のシェアを定義する. 目的とする部分の面積は,45 度線で囲まれる三角形からローレンツ曲線の外側の台形の総和を差し引いたものを 倍したものである. 台形部分の面積の総和は X {( k)+( k +1)} V k である 3 のでジニ係数は以下のように表現できる. ( ) 1 G = X {( k)+( k +1)} V k = +1 = +1 W X k +1 他にも同値な表現は多く知られている 4 W k = W 表 4 について, 式 (1) を用いてジニ係数を計算すると X X { k +1} V k () k W k +1 G = 1 {(0 + 0.) 0.+(0.+0.4) 0.+(0.4+0.6) 0.+(0.6+0.8) 0.+(0.8+1.0) 0.} = 1 (0.04 + 0.1 + 0.+0.8 + 0.36) = 0 同様に計算すると表 5 表 6 についてそれぞれ約 0.400,0.165 となる ( 各自で確認してください ).(3) 式を用いて, 表 6 についてジニ係数を計算してみる. 小さい方から順に 00, 300, 300, 400, 500 となっており, これらの平均は 340 なので G = 5+1 µ 5 5 5 340 5 00 + 4 5 300 + 3 5 300 + 5 400 + 1 5 500 = 0.16471 となり, 上の結果と一致している ( 他の結果についても確認してください ). 表 1. についても式 (1) から計算することができる. 例えばインド (Idia ) について, G = 1 (0 + 0.035) 0.10 (0.035 + 0.081) 0.10 (0.081 + 0.197) 0.0 (0.197 + 0.347) 0.0 (0.347 + 0.540) 0.0 (0.540 + 0.666) 0.10 (0.666 + 1.00) 0.10 = 0.3559 その他の国についても同様に Japa: 0.398,Chia: 0.3889,U.S.: 0.395 となる. 先ほどの図でインドのローレンツ曲線と中国 アメリカの曲線が交差していたが, ジニ係数で見る限り, インドのそれの方が小さい値をとっていることがわかる. (3) 3 シェアが均等に 1/ ずつ増加していくという性質を用いている. 4 (3) 式と同値な表現として, G = W Cov(W k,k/) が計算機で利用しやすいものとして知られている. ただし,Cov は二次元データ {W k,k/} に関して標本共分散を計算したものである. また G = 1 W X j=1 という表現も知られている. X W i W j 7

データを要約する データの要約 データセットの代表値 各種の平均 ( 算術平均, 幾何平均, 調和平均 ), 分位点 ( パーセント点 ), 最頻値 ( モード ) 散らばりの尺度 ( 分散 レンジ ) データセットの散らばりの尺度 分散 ( 標準偏差 ), レンジ ( 四分位レンジ ).1 データを代表する尺度 : 代表値大きさ のデータセット {X 1,X,X 3,,X 1,X } が与えられている. このデータセットを 代表的な値 で要約するとき, どのような尺度が考えられるであろうか. ひとつの考え方として, データセットの代表 = 中心部分に関する情報を取り出すと考える. データセットの 中心 としては以下のようなものが考えられる. 標本平均 ( 算術平均 ) 標本平均 ( 算術平均 ) は最もよく知られた中心を示す尺度であり, 非常に多くの理論的利点 5 を持ち, 以下のような状況では中心を示すのに適していることが多い. 比較的均質で極端な値をとる観測点が存在していない 異なる層が混じっていない 逆にこれらが満たされないときは中心の尺度として適切ではないことが多い. X = 1 X X i (4) 幾何平均比率に意味のある数値で, 連続した時点間での伸び率 ( 成長率 ) のデータなどに利用 6. v uut X G = p Y X 1 X X 3 X 1 X = X i (5) 調和平均逆数に意味のあるデータに利用. 時速 仕事量などに利用. Ã! 1 1 X 1 X H = X i (6) 5 詳しくは標本理論のところで学ぶ. 6 相加 相乗平均の関係より v 1 X uy X i t X i つまり算術平均は幾何平均を上回るか等しくなる. 8

中央値 ( メディアン :media) 全体を小さい方の値から並べ, ちょうど 50% のところにくる観測点の値 7 最頻値 ( モード :mode) 最も高い頻度で観測される値 9 例 1.8 人の年間所得がそれぞれ 10, 30, 50, 60, 90, 30, 340, 360 万円, 平均所得は? x = 10 + 30 + 50 + 60 + 90 + 30 + 340 + 360 8 = 8.5 例.8 人の年間所得がそれぞれ 10, 30, 50, 90, 30, 340, 360, 1580 万円, 平均所得は? x = 10 + 30 + 50 + 90 + 30 + 340 + 360 + 1580 8 = 447.5 例 3.8 人の年間所得がそれぞれ 10, 30, 50, 30, 360, 190, 1340, 1580 万円, 平均所得は? x = 10 + 30 + 50 + 30 + 360 + 190 + 1340 + 1580 8 = 697.5 例 4. 人口について年率増加率が 1990 年から % 3% 4% 5% 1% であるとき, 平均年率物価上昇率は? x G = 5p (1.01) (1.0) (1.03) (1.04) (1.05) 例 5. ある地点から目的地まで行き 60km/h, 帰りが 40km/h で運転すると, 行き帰りの平均時速は? x H = ½ µ 1 1 60 + 1 ¾ 1 40 例 や例 3のように少数の異常な値が存在するときなどは, 平均はデータセットの代表値としてあまり適切ではない. そこで 中央値 を中心の尺度と考えたとき, 定義式から, 少数の異常な値は全体的な傾向として中央値に影響を与えることは少ないことが予想される. 先ほどの例 は, 例 1のデータをひとつだけ置き換えただけであるが, 平均が大きく変化するのに対して (8.5 7 447.5), 中央値の変化は比較的小さい (55 7 85).. データの散らばりを示す尺度データが対称に分布しているとき, 中心を示す尺度 ( 平均, 中央値, モードなど ) が比較的近い値を示す傾向がある. しかし三つのデータセット ( 平均 = 中央値 = 最頻値 =5) {0, 3, 3, 5, 5, 5, 5, 7, 7, 10} {0, 1,, 3, 5, 5, 7, 8, 9, 10} 7 まずデータセットを小さい順に並べ替え Y (1) Y () Y (3) Y ( 1) Y (), この中心の値をとる 8. つまり が奇数のとき M = Y ((+1)/) が偶数のとき M = Y (/) + Y (/+1) とすることが多い. 9 典型的な観測値という意味で, 最頻値 ( モード :mode): 観測値の中で最も頻度が高い値を利用することがある. 容易に想像できるようにこの尺度は比較的大きなデータセットでない限りあまり意味を持たない. 9

{3, 4, 4, 5, 5, 5, 5, 6, 6, 7} は明らかに異なる分布状態を示している. 違いを見るためにデータの 散らばり に注目する. データの散らばりを示す尺度としては, 分散 範囲 ( レンジ ),4 分位レンジなどが知られている. どの程度散らばっているかを確認するには, 各観測点に関して平均点 = 中心 ( 重心 ) からの偏差に注目する. 観測値 Y i の偏差 :Y i Ȳ この偏差の累積がどの程度の大きさになるかが散らばりの尺度になりそうであるが, 偏差の総和は0になる 10 のであまり参考にならない. しかしながら 乗偏差 : Y i Ȳ 絶対偏差 : Y i Ȳ について総和をとることが尺度になり得るが, ここでは平均との理論的関連性や数学的扱いやすさの観点から 乗偏差に焦点を当てる. 分散各観測点の 乗偏差の平均値 : 平均的にどの程度中心から離れているかを測る尺度 11. 定義式 1 : S = 1 X (Y i Ȳ ) (7) 標準偏差分散の平方根 S = S ( 注意点 ) 作成方法からも明らかであるが, 分散 ( 標準偏差 ) はある種の平均であるから, 平均が意味を持たない場合には同様に意味を持たないし, 少数の極端な値に非常に敏感に反応してしまう欠点を持つ. 上の例で分散の値を計算するとそれぞれ 6.6,10.8,1. となる 13. より直接的なデータの散らばりの尺度として 範囲 ( レンジ :rage): データに含まれている最大値と最小値の差 4 分位範囲 (4 分位レンジ ) とは, 5% 点と 75% 点の間のレンジ 10 各自で確認してください. 11 偏差の 乗をとっていることによって, 絶対偏差が 1 よりも小さいときにはより小さく,1 より大きいときにはより大きく乖離の程度を評価している. つまり近い部分と遠い部分について 1 を基準にして, メリハリをつけ, より強調した形に変換している. 1 この定義式は で除しているが 1 で割ると定義することもある. これは後に学ぶ推測統計での考え方からすると自然な調整であるが, ここでは 乗偏差の平均値という見方を強調するため で除しておく. 13 直接公式通りに計算することもできるが S = 1 X (Y i Ȳ ) = 1 X Yi Ȳ つまり [ 二乗の平均 ]-[ 平均の二乗 ] としても計算可能. 10

が用いられることがある. 中央値と同様に4 分位範囲 (4 分位レンジ ) は少数の異常値が含まれていても大きく変動することがない ( 異常値に対して頑健 / ロバストである ). したがって 頑健な標準偏差 として 標準偏差 = 4 分位範囲 1.35 を用いることもある 14...1 データの基準化と応用例 データセットの 中心 と 散らばり を統一することで複数のデータセットを比較することができる複数のデータセットを比較する手段として, ローレンツ曲線やジニ係数による比較について先述したが, データセットの特性値である平均や分散を用いて, 同一の 中心 と 散らばり 持つようにデータセットを変換するという方法も考えられる. 命題.1 ( データの基準化 ). データセット Y 1,Y,,Y の標本平均, 標本分散を Ȳ,S Y ( 標準偏差 S Y ) とする. 数値 μ,σ を用いて X i = μ + σ Yi Ȳ S Y, i =1,,..., とすると, 変換されたデータセット X 1,X,,X の標本平均 X, 標本分散 S X は以下の通り. X = μ, S X = σ 証明は容易なので省略する 15. 例としては, 二回行った学力考査で問題の難易度が異なるため, 受験者の学力の分布状態自体はそれほど変化していないはずなのに点数の分布状況が大きく異なることがありうる. そのとき素点を用いるのではなく, 中心位置と散らばりの程度で調整した基準得点を用いることがある. つまりデータが Y 1,Y,,Y となっているとき, 上記の μ =50,σ =10としたものが偏差値と呼ばれるものである. このような操作の含意は, 対象となっている集団の点数化できる学力がほぼ正規分布 16 といわれる分布に近いとき, 偏差値 0から80の間でほとんどすべての人をカバーする. また 14 この関係は標準正規分布に関する議論から導いたものである. 15 以下のように確認できる. X = 1 X X i = μ + 1 X σ Yi Ȳ S Y Ã! = μ + 1 1 X σ Y i 1 X 1 Ȳ = μ + σ S Y S Y Ȳ Ȳ = μ また X = μ の結果を用いると, SX = 1 X (X i X) = 1 X Ã! = σ 1 X SY (Y i Ȳ ) 16 これについては後述. µ σ Yi Ȳ S Y = σ SY SY = σ μ 11

偏差値 65 以上 (35 以下 ) は, ほぼ 7% 偏差値 55 から 65(35 から 45)(35 以下 ) は, ほぼ 4% 偏差値 45 から 55 は, ほぼ 38% となることも計算できる. これらの数値は偶然の結果ではなく, 相対評価の成績と関連している. 通常 5 段階評価での相対評価を行うときには成績 1(5):7%, 成績 (4):4%, 成績 3:38% という割合になるよう設定されることが多い. ここでの議論は点数化できる学力が正規分布に近いことを前提にしているので, 実際に検査を実施したときその分布が極端に正規分布から離れているとき, 偏差値が100を超えたり負の値になることも原理的には起こりうる. ウェクスラーにより考案された知能指数 ( 偏差値知能指数 :DIQ) も基準化の応用例である. 同年代の人たちにある種の検査を実施し, その結果から平均 (Ȳ ) 分散 (SY ) を得たとき, 各個人のスコアを DIQ = 100 + 15 Yi Ȳ S Y つまり偏差値とは異なり, 中心が 100, 散らばりの程度が 15 となるように調整されている. これによって 79 から 130 の間に約 95% の人が含まれる ( ただし知能指数にはさまざまな定義がある )..3 ヒストグラムからの要約 あるデータセット {X i } から作成した度数分布表が次のような形で与えられているものとする. この 表 9: 度数分布表 階級 階級値 度数 17 相対度数 A 1 a 1 1 r 1 A a r A 3 a 3 3 r 3.... A K 1 a K 1 K 1 r K 1 A K a K K r K = P K k 1.0 = P K r k とき平均 分散などはこの度数分布表から ( 近似的に ) 計算することができる. 平均は X = 1 X X i ˆX = 1 X a k k = X a k r k ただし, 代表値が階級内の平均値となっているときには二つの目近似的に等しいというところが厳密に等しくなる ( X = ˆX). 同様に考えて分散については SX = 1 X (a k ˆX) X k = (a k ˆX) r k 1

これは必ずしも元のデータから計算したものと等しくはならない. また中央値や最頻値についても同様に考えることができる. 3 二つの変数の間の関係を探る 3.1 共分散 相関係数 変数間の関係を示す尺度 二つの変数の散らばりの傾向とその大きさの程度を示す尺度 : 共分散 二つの変数の散らばりの傾向を示す尺度 : 量的データ : 相関係数 偏相関係数 質的データ : 順位相関係数 二つの変数を含むデータセット ( 二次元データ ) が与えられているものとする. {X 1,X,X 3,,X 1,X } {Y 1,Y,Y 3,,Y 1,Y } 二つの変数に関するデータの散らばり (X Y 平面に描いた散布図上での点の散らばり方 ) の大きさと関係の方向性を示す尺度として, 共分散を定義することができる. S XY = 1 X (X i X)(Y i Ȳ )= 1 X X i Y i XȲ (8) 共分散は, その符合と大きさで評価される.X を基準にして考えると, 共分散が正の値 :X と Y が右肩上がりの関係を持つ 共分散が負の値 :X と Y が右肩下がりの関係を持つまた大きさについては分散と同様に散らばりの程度を示している. この大きさを基準化し, 二つの変数の関係だけに注目した尺度として相関係数がある. 相関係数は二つの変数の関連の強さを示し, 特に正の値を持つとき, 二つの変数が右肩上がりの直線に沿って散布している関係にあり, 負の値を持つとき, 二つの変数が右肩下がりの直線に沿って散布している状態にあることを示す尺度となっている. その定義式は R = S XY p S X S Y (9) である. 相関係数は常に-1と1の間の値を取り,0に近い状態は無関係に分布していることを示す. 例として図のような金価格と日経平均株価の時系列データ (001 年 9 月 1 日から 11 月 14 日までの観測値 50) を考える. 有事の金 というように, 世界経済全体に影響を持つであろう 9 月 11 日のニューヨークでの大規模な事件の後, 株価の下落と金価格の急上昇が観測された. これら二つの系列について相関係数を求めたところ, 0.94 という値になり, あまり大きくはないものの負の相関関係が観測される. 13

図 : 金価格と日経平均株価の関係 表 10: 二つのデータセットにおける各観測点の順位 データセット A R A 1 R A R A 1 R A データセット B R B 1 R B R B 1 R B 3. 順位相関係数 順序付けられた質的データ間の関係について調べるために順位相関係数を考える ケンドールの順位相関係数 : r K = G H (G H) p p = ( 1)/ ( 1)/ ( 1) スピアマンの順位相関係数 : r S =1 6 X 3 (Ri A Ri B ) ただし,G は二つのデータセットの順位方向が一致している場合の回数 1 X X G = G i, G i = 1{Ri B >Rj B } j=i+1 であり,H は二つのデータセットの順位方向が逆転している場合の回数 1 X X H = H i, H i = 1{Ri B <Rj B } j=i+1 注 1)G i + H i = i, P 1 (G i + H i )=( 1)/ 注 ) 順位の方向が完全に一致しているとき, P 1 G i = ( 1)/, P 1 H i =0 注 3) 順位の方向が完全に逆転しているとき, P 1 G i =0, P 1 H i = ( 1)/ 注 4) 同順位があるとき, その処理方法はいくつか知られているが, その場合は G も H も0とするのが最も簡単な処理方法である ( その場合相関係数の最大 最小値が1や-1にはならない欠点はある ) 14