保健統計配布資料 2012/9/25 Ⅰ データのダウンロード 課題 1 講義用 HP から女子の身長と体重のデータをダウンロードし A 列に番号を入力せよ A 列の入力は 後で説明する連続データの入力が便利である 1 保健統計講義用 HP(http://www.tokuyama-kango.or.jp/kawada) を開き スケジュールの第 3 回目から 身長と体重 のデータ ( ファイル名は height_weight.xlsx) をダウンロード ( 右クリックして 対象をファイルに保存 ) を選択する 2 保存したファイルを開き A 列に番号を 連続データの作成 を用いて入力する 1. 連続データの作成 マウスのドラッグによってセルに入力されているデータを複写することができる 1, 2, 3 のような数値データと 月, 火, 水 のような連続性を持つ特定の文字列データは複写後変化することがある 下表の列 ( タテ ) 方向への複写を例として説明する A B C D E F G H 1 1 1 1 1 第 1 位 月 Sun 子 2 2 2 1 2 第 2 位 火 Mon 丑 3 3 1 1 3 第 3 位 水 Tue 寅 4 4 2 1 4 第 4 位 木 Wed 卯 5 5 1 1 5 第 5 位 金 Thu 辰 (1) 数値データの場合 セル A1 および A2 に 1 と 2 が入力されているものとする このとき 1 マウスで A1 から A2 をドラッグして範囲指定をおこなう 2 左ボタンを離した後 カーソルを反転している長方形の右下隅に移動すると + の形状のカーソルに変化する 3 この状態でボタンを押して下方向にドラッグし 必要なところで左ボタンを開放すれば 3, 4, 5 となる (A 列のようになる ) この 3 の手順において 左ボタンを開放する前に Ctrl キーを押すとマウスポインタの形状が + + になる Ctrl キーを押したまま左ボタンを開放すると上の B 列のようになるはずである データがひとつしかない場合には機能が逆になる C 列と D 列を参照せよ また 前後に文字列があってもよい E 列がその例である (2) 文字データの場合 左上の Office ボタンを押し 下部にある Excel のオプション のボタンをクリックし 中程にある ユーザー設定リストの編集 のボタンをクリックする このとき ユーザー設定リストのウィンドウに表示されている文字列が複写を実行した際に変化するものである たとえば 日月火水木金土という並びがリストに表示されている この中の 1 文字が入力されているセルを指定して複写すると この並びにしたがって変化しながらコピーされる 7 文字以上複写先を指定したときには日月火水木金土日月火 などと反復する 前ページの表の F G H 列にいくつかの例を示しておく なお 任意の文字列の並びをユーザー設定リストに加えることができる 都道府県名などはユーザー設定リストに加えておくと便利である - 1 -
Ⅱ 1 変量データの数値的表現 1. 1 変量データの特性値 統計データは多くの情報を含んでいる 分析者はデータが持つ情報をもとに何らかの判断を行なうのである しかし 100 個や 200 個のデータを見て 何らかの判断をすることは容易ではない そこで データが持つ情報をまとめる必要がある データ全体の情報を数値でまとめたものが特性値であり 視覚的にまとめたものが次章で説明する度数分布表とヒストグラムである 1 変量データの分布の傾向を示す特性値には 1 中心的傾向 算術平均 メディアン ( 中央値 ) モード ( 最頻値 ) 2 バラツキの尺度 分散 標準偏差 レンジ ( 範囲 ) 四分位偏差 などが挙げられる 2. 関数 AVERAGE Excel には 1 変量データの特性値を容易に計算する関数が用意されているので 結果を表示した いセルに関数を用いた式を書き込めば特性値が求まる ここではまず算術平均を求める関数 AVERAGEを用いてみる 課題 2 身長と体重のデータについて クラス全体の平均をそれぞれ求めよ 身長については具体的な手順を示す なお 身長の算術平均は B50 に計算するものとする 1 セルB50に =AVERAGE( と入力する AVERAGEは小文字でもよい なお 日本語入力モードはオフにしておくこと 2 マウスポインタをB4におきクリックしたままB47までドラッグする B4からB47までの連続 44 個のセルが反転表示される 3 マウスを離して キーボードから ) を入力する B50のセルには =AVERAGE(B4:B47) と表示される Enterキーを押すと合計が表示される * なお マウスでB4:B47の範囲を指定する代わりに キーボードから入力してもよい B4:B47 は B4からB47までの連続した範囲 という意味である 3. 名前の定義と利用方法 課題 2 では 関数 AVERAGE を用いて合計を求める場合など =AVERAGE(B4:B47) のように 合計を求める範囲 B4:B47 を関数の引数として指定したが あらかじめ範囲 B4:B47 に名前 ( ここでは height とする ) を付けることによって =AVERAGE(height) とすることができる 名前には文字 数字 _( アンタ ースコア ) などを組合せてつけることができるが アルファベットの大文字と小文字の区別はない DATA,Data,data はいずれも同一の名前となる なお A5 や X1 などのようなセル番地と混同する命名は避けるのが賢明である また 数字から始まる名前もつけることができない 1 1 同一の名前を2 度以上定義することはできない また 名前はブック全体に共通なものであるから シートがちがっても同じ名前を付けることはできない - 2 -
範囲は行や列の1 部だけでなく 箱型に指定することもできる その A B C D 場合は 左上 : 右下とする たとえば 右表で A1 から D3 までの 12 個のセルは A1:D3 という形で指定すればよい 1 2 3 課題 3 身長のデータに height 体重のデータに weight という名前をつけよ 実際の操作は次の 2 通りのやり方のうち いずれかの方法を用いれば良い (1) 範囲 B4:B47 を選択する 数式のタブをクリックし リボンの中から 名前の定義 をクリックし 名前 として height と入力する (2) 範囲 B4:B47 を選択 名前ボックス ( 通常は列名を表す A B の上方にある ) の右側の をクリックして height を入力する なお すでに 1 個以上の名前が定義されているときには 名前ボックスの をクリックすると 下方に名前の一覧表が出現する この一覧表の中の名前をクリックするとその名前が指している範囲を知ることができる 4. 統計関数の利用関数の一般的な形をあらわすと以下のようになる 一般形 := 関数名 ( 引数 1, 引数 2, 引数 3, 引数 k) 引数の数は関数によって異なり 0 個のものもあるが その場合でも ( ) は必要である 例 : 関数 AVERAGE はこれまでのように 引数に範囲または名前をとる あるいは 3のように数値を直接書き込むこともできる 1 =AVERAGE(A1:A20) 引数の数は 1 個 2 =AVERAGE(_X1) 引数の数は 1 個 3 =AVERAGE(5, 3, 6, 8, 9, 5, 8, 9) 引数の数は 8 個 AVERAGE( ) と同様の引数をとる統計関数に MAX( ), MIN( ), COUNTA( ), MODE( ), MEDIAN( ), STDEV( ), VAR( ) などがある. 課題 4 表 1 の身長 体重それぞれについて データ数 (COUNT) メディアン(MEDIAN) 分散 (VAR) 標準偏差(STDEV) 最大値(MAX) 最小値(MIN) レンジ 四分位偏差を求めよ 例 2: 関数 QUARTILE( 引数 1, 引数 2 ) は 4 分位点を求める関数である 引数 1 は範囲 引数 2 は 0 から 4 までの数値をとり 以下に示すようなデータを戻り値として与える 0 データの最小値 1 下位 4 分の 1 (25%) に相当するデータ 2 データの中央値 (50%) 3 上位 4 分の 1 (75%) に相当するデータ 4 データの最大値 第 2 引数に 0,2,4 のいずれかの数値を指定すると QUARTILE 関数の戻り値は, それぞれ MIN 関数,MEDIAN 関数,MAX 関数の戻り値に等しくなる 課題 5 表 1 についてレンジ 四分位偏差を求めよ なお レンジは関数 MAX と関数 MIN 四分位偏差は四分位点を求める関数 QUARTILE を利用すればよい - 3 -
Ⅲ 1 変量データの視覚的表現 1. 度数分布表とヒストグラムの作成 本節では 表 1 のデータから度数分布表を作成し ヒストグラムを描く (1) 関数 FREQUENCY の利用身長のデータについて度数分布表を作成してみよう 身長のデータには範囲名 height が設定されているものとする 度数分布表の作成には階級が必要となるが Excel では 個々の階級を下限と上限に分 けて入力しておくと便利である ここでは 右図のように階級の下限と上限を - で結んだ 列 E, F, G はそれぞれ列幅を調整してある 階級の上限 (G4:G13) に範囲名 class を付けておく 列 H には 階級値を入力しておく 関数 FREQUENCY の引数は 2 個で第 1 引数がもとのデータの範囲 第 2 引数が階級の範囲である したがって =FREQUENCY(height,class) とすれば各度数を結果として得ることができるが この関数の戻り値はあたえられた階級上限の数 ( k ) +1 個の要素をもつ配列であり 各要素が対応する階級の度数をあらわす 関数 FREQUENCY の戻り値 : 1 個目 : 最初の階級の上限以下の値をもつデータの数 2 個目 : 最初の階級の上限より大で 第 2 の階級の上限を越えない値をもつデータの数 k+1 個目 ( 最後 ):k 番目の階級の上限をこえる値をもつデータの数 表 1 の class は 10 個の階級上限を設定したから 戻り値は 11 個の度数からなる配列となる また 関数 FREQUENCY は配列関数である Excel で関数は 1 つの数値を返すものであるが 配列関数は複数の配列を返すものである この場合 配列を記入する範囲を指定し 関数を入力した上で Enter キーの代わりに Ctrl + Shift + Enter キーを入力する 具体的な手順は次のとおりである 1 範囲 I4:I14 を選択する 2 セル I4 に式 =FREQUENCY(height,class) を入力する 3 Ctrl + Shift + Enter とする E F G H I 3 階 級 階級値 度数 4 147-148.9 148 =frequency(height,class) 5 149-150.9 150 6 151-152.9 152 7 153-154.9 154 8 155-156.9 156 9 157-158.9 158 10 159-160.9 160 11 161-162.9 162 12 163-164.9 164 13 165-166.9 166 14 167-168.9 168 このような配列関数は 他に行列の積や逆行列などを求めるものなどがある - 4 -
(2) ヒストグラムの作成 度数分布をグラフにしたものがヒストグラムである Excel2007 では 描きたいグラフに近いグラフをとりあえず描き その上でレイアウトを変更したり タイトルや軸の名前を描き入れたりしていく 1 最初にグラフに描く範囲を範囲指定する ここでは I4:I14 を範囲指定する 2 挿入タブをクリックすることで リボン内にグラフのグループが表示される ヒストグラムは縦棒グラフの 1 種なので 縦棒のボタンをクリックする 3 すると縦棒グラフのフォーマット ( 型式 ) メニューが出るので 集合縦棒 (2-D 縦棒の中の左端 ) をクリックする 4 この時点でグラフのサンプルが自動的に描かれている これを修正していく まず 横軸ラベルに階級値を用いる リボンの中の データの選択 ボタン ( データ のグループにある ) をクリックし 横 ( 項目 ) 軸ラベルの 編集 ボタンをクリックし H4:H14 を範囲指定し OK ボタンを押す 5 次に レイアウトを変更する リボンの中の グラフのレイアウト を展開し レイアウト 8(3 段目の真ん中 ) をクリックし タイトルや軸ラベルなどが書き込めるようにする そして タイトル : 身長の度数と記入する X/ 項目軸 : 階級値と記入する Y/ 数値軸 : 度数と記入する 6 以上で 下図のようなヒストグラムが描けたはずである グラフの移動はグラフの白い部分をドラッグすることで 大きさの変更はグラフの 4 隅または 4 辺の真ん中にマウスを合わせ ドラッグすることでできる 各自試みよ 身長の度数 度数 9 8 7 6 5 4 3 2 1 0 148 150 152 154 156 158 160 162 164 166 168 階級値 - 5 -
Ⅶ 2 変量データの表現 1. 相関係数の導出 相関係数を求めるには 関数 PEARSON( 引数 1, 引数 2) を用いる PEARSON は相関係数 を最初に導出した Karl Pearson ( イギリス ;1851-1936) にちなんでつけられた名前である また は CORREL という名前の関数もあるが どちらも全く同じものである 引数は 2 個あり そ れぞれがデータの範囲 ( 名前でもよい ) である 戻り値は rxy である = PEARSON(B4:B47, C4:C47) = PEARSON(height, weight) 範囲 B4:B47 に名前 height 範囲 C4:C47 に名前 weight を付けてあれば どちらの式でも結果は同 じである 課題 6 身長と体重のデータの相関係数を求めてみよう 2. 散布図 2 変量データの関係を視覚的に表現する手法として 散布図がよく用いられる 課題 7 表 1 の身長と体重のデータについて 身長を横軸 体重を縦軸とした散布図を描いてみよう 散布図は次のような手順で描けばよい 1 B4:C47 を範囲指定し リボン内にグラフのグループにある 散布図のボタンをクリックする ( 挿入タブをクリックすることで表示される ) 2 散布図グラフのフォーマット ( 型式 ) メニューにおいて 散布図 ( マーカーのみ ) ( 左上 ) をクリックし リボンの中のレイアウト 1( 左端 ) をクリックし タイトルや軸ラベルなどが書き込めるようにする 3 下の図のようにタイトル 軸ラベルを入力し 目盛線 凡例を非表示にする 4 グラフの作成を終えた後で それぞれの軸の書式設定 ( 目盛の数字の部分を右クリックする ) をおこない 縦軸最小値 : 35 最大値 : 85 目盛間隔 : 5 横軸最小値 :145 最大値 :170 目盛間隔 : 5 とする 体重 身長と体重の関係 85 80 75 70 65 60 55 50 45 40 35 145 150 155 160 165 170 身長 - 6 -