5 章 基 本 統 計 量 3.5 節 で 量 的 データの 集 計 方 法 について 簡 単 に 触 れ 前 章 でデータの 分 布 について 学 びましたが データの 特 徴 をつの 数 値 で 示 すこともよく 行 なわれます これは 統 計 量 と 呼 ばれ 主 に 分 布 の 中 心 や 拡 がりなどを 表 わします この 章 ではよく 利 用 される 分 布 の 統 計 量 を 特 徴 で 分 類 して 説 明 します 数 式 表 示 を 統 一 的 に 行 なうために デー タの 個 数 を 個 とし それらを,, L, と 表 わすことにします ここで 学 ぶ 統 計 量 は 統 計 分 析 の 基 礎 となっており 基 本 統 計 量 とも 呼 ばれています 5. 分 布 の 中 心 を 表 わす 基 本 統 計 量 分 布 の 特 徴 を 表 わすには まず 分 布 の 中 心 がどこにあるのかを 示 さなければなりま せん この 分 布 の 中 心 を 表 わす 統 計 量 には 重 要 なものが3つあります. 平 均 値 (me, verge) これは 最 もよく 使 われている 中 心 を 表 わす 統 計 量 で 特 に 統 計 を 学 んでいなくても 知 ってい 重 心 ると 思 います 平 均 値 はデータから 以 下 のような 式 で 与 えられます 図 5. 平 均 値 ( + + L + ) この 定 義 は 図 5. のように ヒストグラムの 重 心 を 通 り 軸 に 下 ろされた 垂 線 の 座 標 を 表 わしています Ecel にもこの 統 計 量 を 求 める 以 下 の 関 数 があります 平 均 値 verge( 範 囲 ) 度 数. 中 央 値 (med) これは 中 間 値 またはメジアンとも 呼 ばれ デー タを 小 さい 方 から 大 きい 方 に 並 べた 真 中 の 値 で す 度 数 分 布 を 用 いると 面 積 が 度 数 を 表 わしま すので 図 5.b のように 左 右 の 面 積 の 等 しい 位 置 が 中 央 値 となります 例 として 以 下 のデータ の 中 央 値 を 求 めてみましょう 度 数 S S 図 5.b 中 央 値 5-
,, 3, 5, 7, 8, 9,, 3, 4, 5, 7, 8, 9 最 初 のデータは 奇 数 個 ですから 中 央 値 は 5 です 番 目 のデータは 偶 数 個 で 中 央 値 は / 番 目 と / + 番 目 の 値 の 平 均 を 取 ります この 場 合 ( 4 + 5) 4. 5 となります Ecel にも 中 央 値 を 求 める 以 下 の 関 数 があります 中 央 値 med( 範 囲 ) ひん 3. 最 頻 値 (mode) 度 数 分 布 で 最 も 頻 度 の 高 い 値 を 最 頻 値 または モードといいます Ecel にも 最 頻 値 を 求 める 関 数 があります 最 頻 値 mode( 範 囲 ) しかし この 関 数 を 利 用 するときには 注 意 が 必 要 です 例 えば,, 4, 5, 6, 6 というデータで 最 頻 値 図 5.c 最 頻 値 を 求 めてみます このデータだと 6 が つ 他 は つですから 最 頻 値 は 6 というこ とになってしまいます データ 数 が 少 ない 場 合 や データが 多 くても 殆 ど 同 じ 値 を 持 たないとき 利 用 には 注 意 が 必 要 です 度 数 分 布 表 を 作 って 最 も 頻 度 の 高 い 値 を 最 頻 値 とするのが 無 難 なようです 度 数 5. 分 布 の 拡 がりを 表 わす 基 本 統 計 量 分 布 の 中 心 と 同 様 拡 がりも 分 布 の 特 徴 を 表 わす 大 切 な 指 標 です ここでは 分 布 の 拡 がりを 与 える 統 計 量 を 見 てみましょう. レンジ (rge) 最 も 単 純 な 分 布 の 拡 がりを 表 わす 統 計 量 は データの 最 大 値 と 最 小 値 の 差 です こ れをレンジまたは 範 囲 といいます R m( X ) m( X ) ここに X,, L, } { これは 単 純 な 定 義 で 分 かり 易 いのですが 飛 び 離 れたデータがある 場 合 には レンジ がそのデータによって 拡 がりすぎて 必 ずしも 現 実 の 拡 がりを 表 わしていると 言 えな くなります Ecel では 最 大 値 として m( 範 囲 ) 最 小 値 として m( 範 囲 ) という 関 数 があり 5-
その 差 がレンジを 表 わしています レンジ m( 範 囲 ) m( 範 囲 ). 分 散 (vrce) レンジは 飛 び 離 れた つのデータに 大 きく 左 右 されるのが 欠 点 でした この 欠 点 を 除 いて 現 在 最 もよく 利 用 されている 統 計 量 は ここで 述 べる 分 散 (または 不 偏 分 散 ) と 分 散 から 得 られる 標 準 偏 差 です 分 散 は 各 データの 平 均 からのずれの 乗 を 合 計 して データ 数 で 割 ったもので 以 下 の 式 によって 与 えられます ( ) + ( ) [ + L + ( ) ] ( ) 我 々は 分 散 を という 表 式 で 表 わします 分 散 はデータのばらつきが 平 均 からずれて いるほど 大 きな 値 となります また つのデータの 寄 与 は ( ) ですので 全 体 に 対 してレンジのように 大 きな 影 響 はありません また 分 散 は 以 下 のようにも 変 形 できます ( + + L + ) これはコンピュータでプログラムする 際 にデータを 読 みながら 平 均 と 分 散 が 同 時 に 計 算 できる 便 利 な 公 式 です Ecel では 分 散 を 求 める 以 下 のような 関 数 が 用 意 されています 分 散 vrp( 範 囲 ) 名 前 は vrce から 取 られています 3. 不 偏 分 散 (ubed etmtor of vrce) 分 散 にはもう つの 定 義 があり 不 偏 分 散 と 呼 ばれています 場 合 によってはこち らの 定 義 の 方 がよく 利 用 されているかも 知 れません Ecel で 分 散 というとこの 不 偏 分 散 を 示 しています 我 々は 不 偏 分 散 を 分 散 と 区 別 して 表 わすためにu という 記 号 を 用 います 不 偏 分 散 の 定 義 と 通 常 の 分 散 との 関 係 は 以 下 のように 与 えられます u ( ) 分 散 と 不 偏 分 散 はどのように 使 い 分 けるのでしょうか 通 常 母 集 団 の 分 散 は 通 常 の 分 散 を 標 本 から 母 集 団 の 分 散 を 推 測 する 場 合 は 不 偏 分 散 を 使 います Ecel には 不 偏 5-3
分 散 を 表 わす 以 下 のような 関 数 があります 不 偏 分 散 vr( 範 囲 ) 4. 標 準 偏 差 (tdrd devto) 分 散 はデータと 平 均 との 差 の 乗 を 取 ったせいで データの 単 位 の 乗 の 単 位 を 持 っていますので( 例 えばデータが cm なら 分 散 は cm ) これから 直 接 データの 広 がり を 見 ることはできません そこで データの 単 位 に 合 わせるために 分 散 の 平 方 根 を 取 って 標 準 偏 差 と 呼 びます これにより 分 布 の 拡 がりという 意 味 がはっきりとします また 標 準 偏 差 には 分 散 から 求 められるものと 不 偏 分 散 から 求 められるものがあります 我 々はそれらを 区 別 するために それぞれ とu の 記 号 を 用 いて 表 わします 分 散 または u 不 偏 分 散 Ecel にもこれらを 表 わす 関 数 が 以 下 のように 与 えられています 名 前 は tdrd devto から 取 られています 標 準 偏 差 tdevp( 範 囲 ) または tdev( 範 囲 ) Ecel では 通 常 標 準 偏 差 というと 不 偏 分 散 から 得 られるものを 指 しており 後 者 がそ れに 当 ります 5.3 分 布 の 形 を 表 わす 基 本 統 計 量 分 布 の 中 心 と 広 がりは 分 かりましたが 分 布 の 形 についてはこれらの 統 計 量 からは 推 測 できません そこである 程 度 分 布 の 形 が 分 かるような 統 計 量 も 考 案 されています が 頻 繁 に 利 用 されているかというとそうでもないようです. 歪 わいど 度 (kewe) 分 布 の歪 ゆが みを 表 わす 統 計 量 には 歪 度 と 呼 ばれるものがあります これは 以 下 のよ うな 定 義 で 与 えられます 3 3 この 値 は 裾 が 右 に 伸 びている 場 合 に 正 左 に 伸 びている 場 合 に 負 になります Ecel の 関 数 は 以 下 の 尖 度 ともに 定 義 が 少 し 異 なっていますので ここでは 省 略 します. 尖 せんど 度 (kurto) 次 に 分 布 の尖 とが り 方 を 示 す 統 計 量 を 紹 介 します 尖 度 と 呼 ばれる 値 で 以 下 の 式 によ って 表 わされます 5-4
5-5 4 4 これは これから 学 ぶ 標 準 的 な 分 布 ( 正 規 分 布 )より 裾 が 伸 びている 場 合 に3 以 上 の 値 になることが 分 かっています 問 題 分 散 の 以 下 の つの 表 式 が 同 等 であることを 示 せ ) ( 解 答 ) ( ) ( + + + 問 題 ) 以 下 のデータで 分 散 を 定 義 に 従 って 求 めよ ) Ecel の 関 数 を 使 って 以 下 のデータの 平 均 値 中 央 値 レンジ 分 散 不 偏 分 散 それぞれの 標 準 偏 差 を 求 めよ 身 長 (cm) 7, 8, 7, 66, 7, 75, 68, 74, 7, 70 解 答 ) No. - (-) 7-8 9 8 3 7 0 0 4 66-6 36 5 7 0 0 6 75 3 9 7 68-4 6 8 74 4 9 7-0 70-4 平 均 7 分 散 5. まず データ を 入 力 し 平 均 を 求 める それを として を 計 算 する さらに
( ) を 求 め それを 平 均 して 分 散 の 値 を 求 める ) 平 均 値 7 分 散 5. 中 央 値 7.5 標 準 偏 差 3.89878 レンジ 5 不 偏 分 散 6.88889 標 準 偏 差 4.09609 5.4 変 量 の 関 係 を 表 わす 統 計 量 3.4 節 でつの 量 的 データの 関 係 を 表 わす 量 として 相 関 係 数 を 紹 介 しましたが ここ ではこの 相 関 係 数 について 少 し 詳 しく 説 明 したいと 思 います 今 以 下 のような 対 に なったつの 変 数 を 考 えます, ), (, ), L, (, ) ( この 変 数 の 間 の 相 関 係 数 は 以 下 のように 与 えられます r ( ), ( ), ( )( ) は と の 共 分 散 と 呼 ばれる 量 です ここに と は 変 数 と の 標 準 偏 差 で さて 相 関 係 数 はどのような 値 を 取 るのでしょうか 図 5. を 見 て 下 さい r- -<r<0 r 0 0<r< r 図 5. 相 関 係 数 と 散 布 図 これは 変 数 を 横 軸 に を 縦 軸 にして 各 データを 点 で 表 示 した 散 布 図 です 相 関 係 数 は つの 変 数 間 に 完 全 な + b の 線 形 関 係 があるとき の 正 負 に 応 じて r ±となるように 作 られています そしてそれから 外 れるごとに 0 に 近 づいて 行 き 軸 のスケールを 適 当 にとることによりデータが 球 状 に 分 布 するときほとんど 0 になり ます 5-6
相 関 係 数 は 上 の 定 義 から 単 位 が 分 子 と 分 母 で 打 ち 消 されており どんな 単 位 を 使 っても( 例 えば m か cm, kg か g 等 )その 値 は 変 化 しません 問 題 ) 以 下 の 対 になった 身 長 と 体 重 のデータで 相 関 係 数 の 定 義 に 従 ってその 値 を Ecel で 計 算 せよ ) Ecel の 関 数 を 利 用 して これらのデータの 基 本 統 計 量 及 び 相 関 係 数 を 求 めよ 身 長 (cm) 7 8 7 66 7 75 68 74 7 70 体 重 (kg) 7 74 65 58 66 70 60 63 7 6 解 答 ) No. - (-)^ -b (-b)^ (-)(-b) 7-7 5 5-5 8 9 8 74 8 64 7 3 7 0 0 65-0 4 66-6 36 58-8 64 48 5 7 0 0 66 0 0 0 6 75 3 9 70 4 6 7 68-4 6 60-6 36 4 8 74 4 63-3 9-6 9 7-7 6 36-6 0 70-4 6-5 5 0 平 均 7 5. 66 7.6 4.9 まず と のデータを 入 力 し それぞれの 平 均 を 求 める それらの 平 均 を, b と して と b を 求 める それらの 乗 ( ), ( b) とそれらの 積 ( )( b) を 求 めて それぞれ 平 均 を 計 算 する その 値 を 使 って 相 関 係 数 を 求 める r 4.9 / 5. 7.6 0.7746 ) 特 によく 利 用 されるものだけ 結 果 を 示 す 最 頻 値 はこのようなデータでは 意 味 を 持 たない 平 均 値 7, 66 分 散 5.0, 7.6 相 関 係 数 0.77 中 央 値 7.5, 65.5 標 準 偏 差 3.90, 5.5 レンジ 5, 6 不 偏 分 散 6.89, 30.67 標 準 偏 差 4., 5.54 5-7
興 味 ある 人 に [Skp OK] 相 関 係 数 は r の 値 を 取 ると 言 いましたが これを 証 明 してみましょう まず c を 何 らかの 数 として 以 下 の 式 を 考 えます { c( ) ( ) } c c + 0 ここで c とすると この 式 は 以 下 のように 変 形 できます + + 0 これから r となり r が 示 されます 問 題 分 布 図 のデータが 完 全 に 直 線 + b の 上 に 並 ぶとき 相 関 係 数 r の 値 は の 正 負 により r ± となることを 示 せ 解 答 b (, L, )とする + [( + b) ( + b)] ( ) ( )[( + b) ( + b)] ( ) より r となり の 正 負 により r ± となる 5-8