はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Similar documents
スライド 1

スライド 1

EBNと疫学

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft Word - Stattext12.doc

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計的データ解析

基礎統計

情報工学概論

第4回

Medical3

講義「○○○○」

Microsoft Word - å“Ÿåłžå¸°173.docx

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

不偏推定量

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - Stattext13.doc

データ解析

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft Word - appendix_b

PowerPoint プレゼンテーション

カイ二乗フィット検定、パラメータの誤差

PowerPoint プレゼンテーション

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

青焼 1章[15-52].indd

Microsoft PowerPoint - A1.ppt [互換モード]

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft PowerPoint - stat-2014-[9] pptx

経営統計学

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - sc7.ppt [互換モード]

1.民営化

Microsoft PowerPoint - statistics pptx

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint ppt

13章 回帰分析

PowerPoint プレゼンテーション

Microsoft PowerPoint - Statistics[B]

スライド 1

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft Word - lec_student-chp3_1-representative

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

第7章

統計学の基礎から学ぶ実験計画法ー1

横浜市環境科学研究所

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - ch04j

Microsoft Word - 保健医療統計学112817完成版.docx

相関係数と偏差ベクトル

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Medical3

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - 測量学.ppt [互換モード]

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

相関分析・偏相関分析

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

モジュール1のまとめ

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft Word - Stattext11.doc

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft Word - 操作マニュアル-Excel-2.doc

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

様々なミクロ計量モデル†

Microsoft Word - apstattext04.docx

解析センターを知っていただく キャンペーン

Microsoft PowerPoint - statistics pptx

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

スライド タイトルなし

数値計算法

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

散布度

0415

untitled

経済データ分析A

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Excelにおける回帰分析(最小二乗法)の手順と出力

経済統計分析1 イントロダクション

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

Microsoft Word - apstattext05.docx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

MT2-Slides-13.pptx

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft PowerPoint - Econometrics pptx

Transcription:

統計演習 統計 とはバラツキのあるデータから数値上の性質や規則性あるいは不規則性を 客観的に分析 評価する手法のことである 統計的手法には様々なものが含まれるが 今回はそのなかから 記述統計と統計学的推測について簡単にふれる 記述統計 : 収集した標本の平均や分散 標準偏差などを計算し データの示す傾向や性質を要約して把握する手法のこと 求められた値を記述統計量 ( または要約統計量 ) と言う 平均値 中央値 最頻値 分散 標準偏差 変動係数 (CV) 尖度 歪度 範囲 最大値 最小値などがこれにあたる 統計学的推測 : 得られた標本から母集団の統計学的な特徴や性質を推測すること 推定 と検定が含まれる 推定 - 標本のデータを用いて母集団の状態を表現する統計モデルのパラメータを推定すること 例えば 平均値を求めることは データの平均値を求めているとの立場に立てば記述統計量を算出していると言えるが 抽出集団のデータから母集団の平均値を 推定 しているとも言える 検定 - あらかじめ 母集団の分布型や分布の特徴を定めるパラメーターを仮定した上で 調査した標本がどの程度の確からしさで 仮定された母集団からの標本と言えるかにつ いての結論を下すこと この資料で用いている練習用データ ( 一部除く ) は以下のサイトからダウンロードできる http://www.sci.u-toyama.ac.jp/env/ishii/2018.html ( 推奨ブラウザ :Firefox>Safari>IE) 1

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば 4 2 3 + 3 5 2 はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え 4.281744) どのような数式が使えるかは 数式タブから関数の挿入を選択すれば見ることができる 別のセルに入力されている値を参照して計算を行うことができる この場合では セル A1 に入力されている数値 ( この場合 2) に 3 をかけている ( 答え 6) 複数のセル ( 配列 ) をまとめて参照することができる ここではセル A1~A10 までの値の総和を算出している ( 答え 55) ドラックしたまま引っ張れば同じ計算を繰り替えし行うことができる ここでは B1 に入力されていた式 =A1*3 を B8 まで繰り返し行わせている 2

相対参照と絶対参照 Excel でのセルの参照方法には相対参照と絶対参照がある 相対参照 ( 一般的な参照方法 ) の例 絶対参照の例 3

Excel における散布図や回帰直線の描き方 Excel では散布図などの図を作成することもできる データの範囲を指定して挿入タブから散布図を選択すると 4 描いた 散布図

は編集したり 回帰直線を描いたりすることもできる 例えば以下では 軸を選択してから右クリックし 軸の書式設定を行おうとしている 散布図に回帰直線を引きたい場合はデータラベルを選択してから右クリックし 近似曲線 の追加 を選択する 5

a) 記述統計 a-1) 平均値 中央値 サンプルの平均値 (mean) や中央値 (median) はもっともよく用いられる記述統計量である Excel では平均値を AVERAGE( 配列 ) で求めることができる サンプルの平均値は 母集団の平均値の最尤推定値でもある ( にも関わらず サンプルの平均値が x _ であったときに 母集団の平均値も x _ である可能性 は限りなくゼロに近い!) 中央値とは有限個のデータを小さい順 ( または大きい順 ) に並べたとき中央に位置する値 データが偶数個の場合は 中央に近い 2 つの値の算術平均をとる Excel では中央値を MEDIAN( 配列 ) で求めることができる 6

a-2) 分散 (s 2 ) 標準偏差 (SD) 標準誤差 (SE) データや母集団の分布のバラツキ度合いを示すものとして分散や標準偏差がよく用いら れる 標本集団 = 母集団 と見なした場合 分散 (σ 2 : 母分散 ) は以下のように計算され る (n はサンプル数 ) σ 2 = 1 n (x n i=1 i x ) 2 1 分散とは偏差平方 (x i x ) 2 の平均である これを変数と同じ次元で示 すために平方根をとったものが 標準偏差 (σ: 母標準偏差 ) である ほとんどの場合 標本集団 母集団 である ( すなわち標本は母集団の一部 ) このとき 上記 1 式で分散を求めると 求められた分散は 母集団の分散 ( 母分散 ) よりも期待値で (n-1)/n だけ小さく計算されてしまうことが数学的に証明されている この偏りを補正するため 標本データから母集団の分散を推定する場合は s 2 = 1 n (x n 1 i=1 i x ) 2 2 が用いられる この時の s 2 を不偏分散 ( 偏りをなくした分散という意味 ) s を不偏標準偏差という 特に断りがない限り ライフサイエンスの世界においては 分散と言えば不偏分散のことを言い 標準偏差と言えば不偏標準偏差のことを指す ( が 必ずしもそうとは限らない ) nが大きいときには その差は無視できる Excel では母標準偏差は STDEV.P ( 数値 1, 数値 2,...) 不偏標準偏差は STDEV.S ( 数値 1, 数値 2,...) 母分散は VAR.P ( 数値 1, 数値 2,...) 不偏分散は VAR.S ( 数値 1, 数値 2,...) で計算される 母集団からある数の標本を選ぶとき 選ぶ組み合わせに依って統計量がどの程度ばらつくかを示す指標として標準誤差 SE (standard error of the mean) がある SE = s 2 n これは 母集団からなんども同じようにサンプルをとったときの サンプルの平均値の標準偏差に相当する ( つまりサンプルの平均値の標準偏差のことを標準誤差と言う ) 標本分散や標本標準偏差という言葉も非常に広く使われている ( 統計の教科書でも出てくることが多い ) が 混乱を招く言葉であるので注意が必要である 標本そのものの分散や標準偏差を表わしているという意味から 1 式 で求められるものを標本分散 標本標準偏差と言うこともあれば 推測された母分散 母標準偏差が標本データから算出されているという意味から 2 式 で求められるものを標本分散 標本標準偏差と記載する本もある 統計学においては標本調査が前提であることを考えると ( 全数調査である統計調査もあるが ) 標本分散や標本標準偏差という言葉を用いること自体が不適切であるという指摘もある 7

a-3) 変動係数 (CV) 変動係数とは 標準偏差を平均値で割った値 ( これに 100 を掛けてパーセント表示する場合も多い ) である データが比例尺度 * の場合 データのばらつき度合いを表す標準偏差は平均値に比例する傾向がある また 単位によって ( 例えば mm, m, km か ) 値が変わってしまう このため 平均値や単位が異なるデータ間のばらつきの大きさを比較するときには 標準偏差を平均値で割った値 すなわち CV を用いることが望ましい * 比例尺度とは 身長, 体重などのように 数値の差と共に数値の比にも意味がある値のこ と すなわち絶対零点を持つような尺度のことを言う これに対し間隔尺度とは 摂氏 華氏の温度 西暦年号などのように数値の差のみに意味がある尺度を言う Excel では不偏標準偏差は STDEV.S( 数値 1, 数値 2,...) 平均値は AVERAGE( 数値 1, 数値 2,...) で求めることができるので CV(%) は 100* STDEV.S( 数値 1, 数値 2,...)/ AVERAGE( 数値 1, 数値 2,...) となる STDEV.S < 演習問題 > 練習用データにある萼片 A に関して a) 関数 VAR.S を使わずに不偏分散を求め 関数 VAR.S を使った値で答え合わせせよ b) 標準偏差 標準誤差 変動係数を求めよ 8

b) 統計学的推定 ( 検定と推定 ) 検定のイメージ 2 つの母集団間の平均値の差を検定する例で考える 問題 : サンプル a とサンプル b の平均値の差が Δab だったとき サンプル a とサンプル b は平均値の異なる母集団からのサンプルであると言えるだろうか? この問題に答えるため まずサンプル a と b は 同じ母集団 もしくは平均値が同じ母集団から抽出されたものであるという仮説を立てる これを帰無仮説と言う 帰無仮説に対し 平均値が異なる母集団から抽出されたものであるとする仮説を対立仮説と言う ここで 母集団が同じであるにも関らず サンプル a と b の平均値の差が Δab よりも大きくなることが どの程度起こりえるものなのかを考えてみる まず 平均値が同じ母集団から抽出されたサンプルの平均値の差が 左図下のような確率密度分布で表せるとする もし帰無仮説が正しいのであれば Δab よりも平均値の差の絶対値が大きくなる確率は灰色の面積で表わされることになる これを P 値と言う 従って P 値は 帰無仮説がどのくらい有り得そうにない仮説なのかを数値化したものと言える 有意水準を設け ( 通常は α=0.05 すなわち 5% を用いる ) P 値がこの有意水準よりも小さいとき 帰無仮説を棄却し対立仮説を採用する ( すなわち a,b の平均値は有意に異なるとみなす ) 一方 P 値が有意水準よりも大きいときには 帰無仮説を棄却できない ( すなわち a,b の平均値は有意に異なるとみなすことができない ) 9

推定のイメージ 2 つの母集団間の平均値の差を推定する例で考える サンプル a と b は母集団 A B からのサンプル このとき サンプル a と b の平均値の差が Δab だったとする サンプル a b の情報から 母集団 A B の真の平均値の差 ΔAB を推定することを考えよう ΔAB=Δab であるとは限らない ( 母集団をすべて調べない限り ΔAB を決定することができないので サンプルから ΔAB を推定する ) このとき ΔAB は左下図のような確率密度分布 を伴って推定される ΔAB の最尤推定値は Δab である 最尤推定値を求めることを 点推定 と言う この推定値がどの程度信頼できる値なのかは ΔAB 確率密度分布の形に依存する 推定値がある程度の確からしさで収まりそうな範囲 ( 標準偏差や 95% 信頼区間など ) を求めることを 区間推定 と言う なお 推定された ΔAB の 95% 信頼区間が 0 を含んでいなければ 母集団 A B の平均値の差 ΔAB は 95% 以上の確率で 0 よりも大きい ( または小さい ) と考えることもできる これが真であれば 有意水準 α=0.05 の検定において母集団の平均値が有意に異なっている も真になる ( 逆も可 ) 最近は検定よりも推定が重視される傾向にある 10

b-1) 母集団平均値の 95% 信頼区間の推定 (1 標本 1 群の場合 ) 一般的に母集団平均値の 95% 信頼推定区間 ( 母集団の平均がその中に入る確率が 95% である区間 ) は以下の式で推定することができる x ± t 0.05/2,n 1 s 2 n (x ± t 0.05/2,n 1 SE) x _ は平均値 t0.05/2, n-1 は自由度 n-1 におけるt 分布の 95% 値 (95% の値が収まる境界値 ) s 2 は不偏分散 nはサンプル数 s 2 n のことを標準誤差 (SE: standard error of the mean) という ( 標準誤差とは平均値の標準偏差を意味する ) EXCEL では t0.05/2, n-1 は T.INV.2T(0.05, n-1) で求めることができる < 練習データの場合 サンプル数は 34 であるので t, 0.05/2, n-1 は T.INV.2T(0.05, 33) で求 まる > なお 母集団が十分に大きく 正規分布していることが分かっている場合 母集団平均値の 95% 信頼区間は以下のように簡便に推定することができる x ± 1.96 s 2 n (x ± 1.96 SE) 実は EXCEL では 95% 信頼区間を算出する関数 CONFIDENCE.T が存在する この関数は t 0.05/2,n 1 SE の部分を CONFIDENCE.T(0.05, SD, n) で算出してくれる < 演習問題 > 練習用データにある萼片 A に関して a) 母集団平均値の 95% 信頼推定区間を CONFIDENCE.T を用いずに求めよ CONFIDENCE.T で求めた値と一致するまで試して下さい 答え:13.328±0.334 注意 : 前に算出された値を 別の計算に用いる場合は 算出された値を計算式に入力する のではなく その値が算出されたセルを式の中で 参照 することで用いること 11

b-2) 2 群間の平均値の差の検定 (t 検定 ) 2 群間の平均値の差を検定するパラメトリックな手法にt 検定がある ( パラメトリックな手法 = 正規分布の偏差を仮定した手法 ) t 検定には以下の 3 つがある 11 標本 t 検定 ( 関連 2 群の差の検定 ) 22 標本が等分散とみなせる場合の二標本 t 検定 ( 独立 2 群の差の検定 ) 32 標本が等分散とみなせない場合の二標本 t 検定 ( 独立 2 群の差の検定 <Welch の補正 >) 独立 2 群の差の検定は 2 群のデータが独立にサンプリングされた場合に用いる 関連 2 群の差の検定は 2 群のデータがそれぞれ対になっている場合に用いる Excel では上記 3つのt 検定の結果 (P 値 ) はそれぞれ T.TEST( 配列 1, 配列 2, 2, 1) T.TEST( 配列 1, 配列 2, 2, 2) T.TEST( 配列 1, 配列 2, 2, 3) で求めることができる 求められたP 値は 2 つの標本が 平均値の等しい母集団から取り出されたものである とする 帰無仮説 が正しい確率である 有意水準を5%(α=0.05) とするなら P<0.05 のときに 2 つの母集団の平均値が異なる という 対立仮説 を採用する つまりP<0.05 のとき 平均値は有意に異なるとみなす 12

b-3) 独立 2 群間の平均値の差の信頼区間の推定 平均値の差の 95% 信頼区間は平均値の差 ±t0.05/2, n-2 平均値の差の標準誤差で求められる (nは2 標本のサンプル数の合計 t0.05/2, n-2 は自由度 n-2 におけるt 分布の 95% 値 ) EXCEL では t0.05/2, n-2 は T.INV.2T(0.05, n-2) で求めることができる なお 母集団の分散が同じであると仮定できる場合 平均値の差の標準誤差は 1 n 1 + 1 n 2 (n 1 1) s 1 2 + (n 2 1) s 2 2 n 1 + n 2 2 で求められる (n 1,n 2 はそれぞれの標本のサンプル数 s 12,s 22 はそれぞれの群の不偏分散 ) < 演習問題 > 練習用データにある萼片 A と萼片 B が独立な2 群 ( 実際には関連 2 群だが ) であると仮定し かつ母集団の分散が同じであるとみなせるものとする このとき a)2 群間の平均値の差をt 検定で検定せよ (P 値を求め棄却率 0.05 で判定せよ ) b) 平均値の差の 95% 信頼区間を推定せよ c) 練習用データにある萼片 A と萼片 B を 正しく関連 2 群とみなした上で 平均値の差の検定を行え (P 値を求め棄却率 0.05 で判定せよ ) a の答え :P=0.2131 ( 有意な差があると言えない ) b の答え :0.274 ±0.435 (-0.161~0.709) c の答え P=0.000133( 有意な差があると言える ) 自分で正解が出せるまで試して下さい 13

b-4) ピアソンの積率相関係数の検定 < まずピアソンの積率相関係数 [r] について > ピアソンの積率相関係数 r は, 変数 X と変数 Y の共分散 と それぞれの変数の標準偏差 から求められる なお共分散とは 対応するデータ間での平均からの偏差の積の平均値のことである なお r は-1 から 1 の間の実数値をとる rが 1 に近いときは 2 つの変数間には正の相関がある -1 に近ければ負の相関がある 0 に近いときには相関がない又は相関が弱いと言える 注意 : ピアソンの積率相関係数は偏差の正規分布を仮定する ( パラメトリック ) 方法であるが 正規分布を仮定しないノンパラメトリックな方法として スピアマンの順位相関係数 ケンドールの順位相関係数なども一般的に用いられる こうしたノンパラメトリックな手法は 今回は取り上げません ( 質問は受け付けます ) なお Excel ではピアソンの相関係数は PEARSON( 配列 1, 配列 2) で求められる ( 左図の例では 萼片 B と C の相関係数は PEARSON(E3:E36, F3:F36) で算出される ) 以下は相関係数にもとづく相関関係の目安 0.0~±0.2 ほとんど相関がない ±0.2~±0.4 やや相関がある ±0.4~±0.7 相関がある ±0.7~±0.9 強い相関がある ±0.9~±1.0 非常に強い相関がある 14

< ピアソンの積率相関係数の検定 > 求められた相関係数が統計的に意味のある値なのかどうかは 相関係数の大きさだけでは判断できない そこで次に 得られた相関係数が 有意にゼロよりも大きいか ( 又は小さいか ) の検定を行う < 帰無仮説 : 母集団の相関係数は 0> < 対立仮説 : 母集団の相関係数は 0 でない> まず 2 変数間の相関係数がゼロとなる母集団からランダムにn 個のサンプルを抜き出したことを仮定する このときN 個のサンプルに基づいた標本相関係数をrとする このrという相関係数が得られる確率は 左図のようになる ( 図はサンプル数が 20 の場合の相関係数の確率密度分布 ) サンプル数が 20 の場合は 標本相関係数が-0.444 よりも小さいか 0.444 よりも大きくなる確率は 5% 未満となる従って 標本相関係数が-0.444 よりも小さいか 0.444 よりも大きい時には 有意水準 α=0.05 において 相関係数は有意に0から隔たっているとみなせる 実際には としたときに t 0 が, 自由度 n - 2 の t 分布 ( 確立密度関数の一つ 正規分布のような釣鐘状の分布形式をもつ ) に従うことを利用して検定を行う つまり 標本の相関係数をもとに算出された t 値が 自由度 n - 2 の t 分布の中でどの程度起こりにくい値なのかを求め それを P 値とする Excel ではサンプル数 N 相関係数がRの時のP 値は以下のようにして求められる T.DIST.2T(SQRT(R^2)* SQRT(N-2)/SQRT(1-R^2), N-2) T.DIST.2T は t 分布の両側確率を返す関数で SQRT(R^2)* SQRT(N-2)/SQRT(1-R^2) はt 値 N-2 は自由度 をそれぞれ意味している < 演習問題 > a) 練習用データにある 萼片 A- 萼片 B に対し 萼片 A を横軸 萼片 B を縦軸とした散布図を描け b) 練習用データにある 萼片 A- 萼片 B 間のピアソンの相関係数を 関数 PEARSON を用いずに算出せよ またその値を 関数 PEARSON を用いて算出した値と比較せよ c) ここで算出されたピアソンの相関係数が0から有意に異なっているのか検定するため P 値を求め 棄却率 0.05 で判断せよ 15

b-5) 回帰分析における定数項の検定と信頼区間推定 < まず回帰分析について > ( ここでは最小二乗法による線形単回帰分析について解説します ) 回帰分析とは 従属変数 ( 目的変数とも言う :y 軸 ) と独立変数 ( 説明変数とも言う :x 軸 ) の間に統計モデルとなる回帰式を当てはめ 目的変数が説明変数によってどれくらい説明できるのかを定量的に分析する手法である このうち 説明変数が一つで y=ax+b (a, b は定数 : a は傾き b はy 切片 ) のような一次式モデルをあてはめるのを線形単回帰分析という 回帰分析で用いられる代表的な推定方法として最小二乗法という方法がある 最小二乗法の原理 2 右図において S=d 12 +d 22 +d 32 +d 4 としたときのSの値を最小にするような直線を推定 Excel では 回帰直線の傾き <a> y 切片 <b> はそれぞれ INDEX(LINEST( 既知の y, 既知の x, TRUE, TRUE), 1, 1) INDEX(LINEST( 既知の y, 既知の x, TRUE, TRUE), 1, 2) で求められる 16

< 回帰分析における定数項の検定 > 求められたy=ax+b の定数項が果たして意味のある値なのかどうかを知るためには 定数項 a b が有意にゼロから隔たっているのかを検定することが有効な方法の一つである そこでまず a b の標準誤差を求め それに照らして a b の値を検定してみる < 帰無仮説 : 傾き a は 0> < 対立仮説 : 傾き a は 0 でない> まず Excel では回帰直線の傾き <a> と y 切片 <b> の標準誤差はそれぞれ以下で求められる INDEX(LINEST( 既知の y, 既知の x, TRUE, TRUE), 2, 1) INDEX(LINEST( 既知の y, 既知の x, TRUE, TRUE), 2, 2) 帰無仮説のもとでは [a/a の標準誤差 ] は自由度 n-2 のt 分布に従うことがわかっている ( 上の例では 0.1625/0.05212=3.1181: この値をt 値と言う ) 従って P 値は自由度 n-2 のt 分布から求めることができる 切片 bにおいても同様な手順で検定を行うことができる Excel ではP 値を T.DIST.2T(t 値の絶対値, n-2) で求めることができる たとえば上表のデータにおいて 本当は傾きがゼロすなわち a=0 である筈なのに a の絶対値が 0.163 よりも大きくなる確率 P 値は T.DIST.2T(3.1181, 32) で求められる すなわち P=0.00383 である 従って有意水準を5%(α=0.05) に設定するなら 傾き a=0.163 は有意にゼロよりも大きいと言える 17

< 回帰分析における定数項の信頼区間の推定 > 求められたy=ax+b の定数項が果たして意味のある値なのかどうかを知るためには 定数項 a b の信頼区間を求めるのも有効な方法である ここでは定数項の 95% 信頼区間の算出方法を紹介する 標本の回帰係数 a に対する 母集団回帰係数の 95% 信頼区間は a±t 0.05/2,n-2 a の標準誤 差 で求めることができる (t 0.05/2,n-2 は自由度 n-2 における t 分布の 95% 値 ) 切片 b に対 する 95% 信頼区間も同様である Excel では t 0.05/2,n-2 は T.INV.2T (0.05, n-2) で求めることができる たとえば練習用のデータにおいては T.INV.2T(0.05, 32) で求められる すなわち t 0.05/2,n-2 =2.037 である ここから 回帰係数 a の 95% 信頼区間は a±t 0.05,n-2 a の標準誤差 = 0.163±0.106 と算出される なお 有意水準 α=0.05 の検定によって それぞれの定数項が有意にゼロよりも大きい ( 又は小さい ) ことが示された場合 95% 信頼区間はゼロを含まない 言い換えれば 95% 信頼区間がゼロを含まない場合は その定数項は有意にゼロよりも大きい ( 又は小さい ) と言える 推定は母集団の状態がどのようなものなのかを定量的に示したものであり 検定は推定された母集団の状態を定性的に確認したものと言える < 演習問題 > a) 練習用データにある 花序の開花日 を独立変数 萼片 A を従属変数とした 直線回帰式を 散布図に描け b) 練習用データにある 花序の開花日 を独立変数 萼片 A を従属変数とした 直線回帰式を求めよ c) ここで求められた直線回帰式の傾き及び切片が有意に0から異なるか 棄却率 0.05 で検定せよ d) ここで求められた直線回帰式の傾き及び切片の 95% 信頼区間を推定せよ 18

レポート提出の〆切は 6 月 1 日午前 10:00 厳守 B308 号室に届けにくるか B308 ドア前のボックスに入れておくこと 実習で得たデータは以下のサイトからダウンロードすること http://www.sci.u-toyama.ac.jp/env/ishii/2018.html ( 推奨ブラウザ :Firefox>Safari>IE) 今回は 実習でとったデータを解析する上で ( つまりレポートを書くために ) 最低限必要な古典的な統計手法 (t 検定 ピアソンの積率相関係数 回帰分析など ) のみを解説した 最低限必要な と書いたのは 実際にはこれらの統計知識だけではまったく不十分で 時間の関係でこれだけしか紹介できないというのが本当のところだからです 従ってレポートを書く上では 各人がさらに勉強し ここで紹介した以外の統計手法を取り入れて解析しても構いません なお レポート作成に当たっては 生物学的 生態学的に考察されることを必ず盛り込むこと これが十分でないレポートに対しては 再提出を課します 今回は多くの学生にとってなじみのあるアプリケーションである Excel を用いましたが Excel は統計解析が得意なアプリケーションではありません 従って レポートを書くときには 各人がそれぞれで統計解析用のアプリケーションソフトを用いても構いません また 今回は用いませんでしたが Excel には データ分析ツール があります これを用いれば 比較的簡単にここで紹介した解析を行うことができます これらについて興味のある者は各自勉強してください ( 質問は受け付けます ) なお 大学の端末室にあるコンピューターでは 統計解析用のアプリケーションとして JMP SPSS R などが使用できます (Windows の場合 ) このうち R は誰でも無料でダウンロ ードできるソフトウェアなので 自宅のパソコンでも勉強しようと思う人にはお勧めです レポートには図も用いられていることが望ましいです 方眼紙などに手書きで作成しても 構いません 19