本冊子の利用にあたって本冊子は能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事項を選択肢形式の問題として提示したものです統計学に不安のある受講生は事前の学習として活用ください試験ではないので正答数自体は重要ではありませんより効果的な学習復習となるよう次のような

様式 3 2018 年度能力強化研修インパクト評価 : エビデンスに基づく事業実施 (EBP) の実践に向けて統計学理解度確認課題

本冊子の利用にあたって本冊子は能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事項を選択肢形式の問題として提示したものです統計学に不安のある受講生は事前の学習として活用ください試験ではないので正答数自体は重要ではありませんより効果的な学習復習となるよう次のような姿勢で問題に取り組むことを強く推奨いたします各設問の選択肢から正答を見つけるだけでなく他の選択肢がなぜ不正解なのかといった理由づけも丁寧に行ってください統計分析のソフトウェアを用いれば計算プロセスを省いて容易に正答が分かる問題もありますしかし統計分析の原理を正しく理解するという観点からは統計分析ソフトウェアに頼ることは好ましくない面もあります本冊子内の問題は全て電卓やエクセル等の表計算ソフトの計算機能の助けを借りることで解答にたどり着けるようにしていますので手計算で解答を導出してください

Part 1 問 1 から問 8 は以下の仮想プロジェクトを素材としている農村金融プロジェクトにおいてプロジェクト活動エリア内に居住する女性を対象に標本調査を行った調査では以下のデータを収集した収集データ定義変数名コード等誕生年月日 birth_date 年月日 (YYMMDD) 行政サービスの満足度 service 大変満足 (=5) 満足(=4) どちらとも言えない (=3) 不満足 (=2) 大変不満足(=1) 一人当たり家計所得 (/ 月 ) income 貯蓄口座の有無 saving 有り =1 なし =0 マイクロファイナンスの利用年数 mf データ例

問 1 以下の A~C は収集されたデータについて述べたものであるこれらに関し 1 から 5 のうち正しいものを一つ選べ誕生年月日は量的変数であり四則計算を施すことができる行政サービスへの満足度は順序変数であるが解析的には離散変数 (discrete variable) として扱うことが許される場面もある所得データから貧困ライン以下の層を 0 貧困ライン以上国家平均水準以下を 1 国家平均水準以上を 2 とするダミー変数を作成することができる 1 A のみ正しい 2 B のみ正しい 3 A と B のみ正しい 4 A と C のみ正しい 5 正しいものはない

問 2 次の図はデータの一人当たり家計所得を階層に分けヒストグラムとして示したものである 1 から 4 のうち正しい記述を一つ選べ 0 5000 10000 15000 20000 1 中心の代表値として平均値を用いることが望ましい 2 平均値 ± 標準偏差の範囲に全家計のおよそ 70% が入ることが予想される 3 このような形状の分布は左に歪んでいるという 4 中央値は平均値よりも小さな値となる

問 3 貯蓄口座がどの程度浸透しているのかを把握するために金融機関に貯蓄口座を有している女性の割合について区間推定を行ったなおこの問 3 ではサンプルサイズは 1000 人と仮定する 1000 人のうち 250 人が貯蓄口座を有していたプロジェクト活動エリアにおける貯蓄口座保有割合の 95% 信頼区間について 1から4のうち正しいものを一つ選べ 1 この情報だけでは貯蓄口座保有割合の 95% 信頼区間を求めることはできない 2 貯蓄口座保有割合の 95% 信頼区間は 22.3%~27.7% である 3 貯蓄口座保有割合の 95% 信頼区間は 22.7%~27.3% である 4 貯蓄口座保有割合の 95% 信頼区間は 21.5%~28.5% である

問 4 プロジェクト予算が不足したため調査対象者 ( サンプルサイズ ) を 1000 人から 500 人に半減させることとなった母集団には変化はないサンプルサイズが半減したことでどのような結果がもたらされるか?1 から 5 のうち正しいものを一つ選べ 1 貯蓄口座保有割合の 95% 信頼区間は変わらない 2 貯蓄口座保有割合の 95% 信頼区間は約 2 倍に広がる 3 貯蓄口座保有割合の 95% 信頼区間は約 1.4 倍に広がる 4 貯蓄口座保有割合の 95% 信頼区間は約 0.7 倍に狭まる 5 ケースにより答えは一意に定まらない

問 5 問 3 4 で示したサンプルサイズ貯蓄口座保有割合は本問では仮定しない ( 忘れてよい ) 貧困家計と非貧困家計について貯蓄口座保有割合に違いがあるのかを検証するために母集団においては貧困家計と非貧困家計間で貯蓄口座保有割合は等しいという主張を帰無仮説とする検定を行ったなおサンプルサイズは大標本を仮定するに十分な大きさがあるものとする適切な分析手続きを踏んだ結果群間には一定の差が見られ P=0.02 という結果を得たこの意味するところとして1から4のうち最も適切なものを一つ選べ 1 帰無仮説が正しいとすれば観察された差の値はサンプルを変えて同様の検定を繰り返した時 100 回に 2 回程度しか生じない 2 母集団における貧困家計と非貧困家計間で貯蓄口座保有割合の差は 2% である 3 帰無仮説は有意水準 1% で棄却される 4 標本に見られた群間の貯蓄口座保有割合の差は 2% の誤差を有している

問 6 問 5 と同一のデータを用いて貧困家計と非貧困家計における貯蓄口座保有割合の差の区間推定を行う割合の差の区間推定の結果について述べた 1 から 6 のうち適切なものを全て選べ 1 95% 信頼区間に 0 は含まれる 2 95% 信頼区間に 0 は含まれない 3 90% 信頼区間に 0 が含まれる 4 90% 信頼区間に 0 が含まれない 5 99% 信頼区間に 0 が含まれる 6 99% 信頼区間に 0 が含まれない

問 7 貧困家計の貯蓄口座保有割合は 23.8% 貯蓄口座保有割合は 49.3% であった以下の回帰分析を行った時切片 ( ) 及び貧困家計ダミーの係数 ( ) の値はいくつになるか? 1 から 6 のうち正しいものを一つ選べ Saving i = α + βpovety i + ε i Saving: 貯蓄口座保有ダミー ( 有り = 1 無し = 0) Poverty: 貧困家計ダミー ( 貧困家計 = 1 非貧困家計 = 0) ε: 誤差項 1 この情報だけではの値を求めることはできない 2 α = 0.493, = 0.255 3 α = 0.238, = 0.493 4 α = 0.238, = 0.255 5 α = 0.493, = 0.238 6 α = 0.255, = 0.238

問 8 貯蓄口座を有しているか否かは一人当たり家計所得以外にも農村女性の年齢やマイクロファイナンスの利用経験有無も影響しそうであるそこでこれらの属性が貯蓄口座保有に与える影響を検証するために貯蓄口座の有無を被説明変数とする以下のロジットモデルを推計したなおサンプルサイズは大標本を仮定するに十分な大きさがあるものとする P(Saving = 1 age, age 2, mf_dmy, income) (α + β 1 age + β 2 age 2 + β 3 mf_dmy + β 4 income) (z) = exp (z) [1 + exp (z)] 分析の結果以下のような推計値を得た P(Saving = 1 age, age 2, mf_dmy, income) ( 1.89 0.08age + 0.0012age 2 + 1.85mf_dmy + 0.000025income) 年齢 21 歳所得 16000 マイクロファイナンス利用歴 2 年という A 氏と年齢 20 歳所得 7000 マイクロファイナンス利用歴 0 年という B 氏について両者の貯蓄口座保有確率の差を求めたその値として1から5のうち最も適切なものを選べ 1 25.3% 2 2.0% 3 20.3% 4 16.5% 5 33.6%

Part 2 問 9 から問 12 は以下の仮想プロジェクトを素材としている保健システム強化のプロジェクトにおいて全国に 20 ある全ての郡病院に 5S 活動を導入したなお 20 の病院のうち 8 病院は都市部残りの 12 病院は農村に位置しているプロジェクトでは 5S 活動の進展度合いをモニタリングするために 20 の郡病院から無作為に 10 病院を選び定期的に実践度スコア (100 点満点 ) を収集することとしたデータ例 id: score: time: 郡病院識別番号実践度スコア 5S 導入からの経過月

問 9 以下の A~C は収集されたデータについて述べたものであるこれらに関し 1 から 6 のうち正しいものを一つ選べ実践度スコアのデータセットはその計測構造から繰り返しクロスセクションデータ (repeated cross-section data) であるモニタリングの対象となった 10 病院は層別抽出法に則って抽出されている実践度スコアは厳密には離散データであるが解析上は連続データとして扱って差し支えはない 1 A のみ正しい 2 B のみ正しい 3 C のみ正しい 4 A と C のみ正しい 5 A と B のみ正しい 6 B と C のみ正しい

問 10 これまでプロジェクト導入後 1 か月時点及び 2 か月時点のスコアを収集したこの 2 時点間で 5S 活動に進展があったか ( 実践度スコアの改善があったか ) を検証するための分析方法として 1 から 4 のうち最も適切なものを一つ選べ 1 1 か月時及び 2 か月時の実践度スコアに対して対応のない 2 群の平均値差の検定 (t 検定 ) を行う 2 1 か月時点と 2 か月時点の実践度スコアを病院ごとに比べ改善している病院の割合を求める 3 実践度スコアを経過時間で説明する単回帰分析 (score it = α + βtime it + ε it ) を行い βが 0 であるかどうか検定を行う score it 病院 i の t か月時点の実践度スコア time it 病院 i の t か月時点の 5S 導入からの経過月 ε it 誤差項 4 1 か月時及び 2 か月時の実践度スコアに対して対応のある 2 群の平均値差の検定 (t 検定 ) を行う

0 score 20 40 60 80 100 0 0 score 20 40 60 80 score 20 40 60 80 100 100 0 0 score 20 40 60 80 score 20 40 60 80 100 100 問 11 5S 活動導入から 1 年後に 20 の郡病院全てを対象に 5S 活動の進展度合いを測定したところ病院間で大きなばらつきが見られたその要因として病院職員の平均年間給与額があるのではないかと考え 5S 活動導入 1 年後の実践度スコア (score) を平均年間給与額 (salary) で説明する単回帰分析 (score i = α + βsalary i + ε i ) を行ったその結果平均年間給与額の係数が統計的に有意となる推計値が得られた仮説通りの結果を得たと一度は満足したが農村都市間の地域差を考慮しなくてはいけないのではないかと再考し改めて説明変数に農村部ダミー変数 (rural) を含む重回帰分析 (score i = α + βsalary i + δrural i + ε i ) を行ったすると農村部ダミーの係数が統計的に有意となり平均年間給与額の係数は有意ではなくなったこのような分析結果を生む考えられるデータとして1から5のうち最も適切なものを一つ選べ 1 2 0 500 1000 1500 2000 salary rural urban 0 500 1000 1500 2000 salary rural urban 3 4 200 400 600 800 1000 1200 salary3 rural urban 0 500 1000 1500 2000 salary rural urban 5 0 500 1000 1500 2000 salary rural urban

問 12 前問の分析に加えてさらに病院の病床数モニタリングの対象になったか否かを示すダミー変数を加えた重回帰分析を行ったこれまでの分析結果は以下の表に要約されている (1) (2) (3) 平均年間給与額 0.0362 0.0015 0.0088 (0.007) (0.0131) (0.0127) 農村ダミー 39.17 24.86 (13.22) (14.09) 病床数 1.62 (0.80) モニタリング対象病院ダミー -3.90 (5.41) 定数項 17.00 29.76 21.92 (8.15) (8.05) (9.26) n 20 20 20 ( 自由度調整済 ) 決定係数 0.59 0.70 0.74 注 : カッコ内の値は標準誤差を示している第 3 列に示された分析結果について述べた 1 から 5 の記述に関し誤っているものを一つ選べ必要に応じて下記の t 分布表を参照すること 1 平均年間給与額の t 値は 0.70 である 2 農村ダミーは有意水準 10% で有意である 3 病床数の 95% 信頼区間は 0 を含んでいない 4 モニタリング対象病院ダミーの p 値は 0.1 よりも大きい t 分布表 ( 自由度 v の 100 % 点 t α (v)) 自由度 0.1 0.05 0.025 0.01 0.005 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845

Part 3 問 13 プロジェクト対象地域の現状を把握するために保健省が発行する資料から妊産婦死亡率乳児死亡率 HIV 有病率といった様々な疾病頻度に関する疫学指標の値を確認した疫学指標について述べた以下の1から4の記述のうち正しいものを一つ選べ 1 乳児死亡率は率と表記されているが理論的に割合に分類される 2 割合は必ず 0 から 1 の間に分布をするが比はマイナスの値を取ることもある 3 有病率は理論的にも率に分類される 4 割合は次元のない量となるが率の次元は時間の 1 乗となる

問 14 プロジェクト対象地域では人口 1 万人のうち半数が安全な水へのアクセスを有している同地域では下痢が広範に見られるが下痢を発症している人の割合と安全な水へのアクセスとの関係を調べたところ以下の結果が得られた安全な水へのアクセス ( 人 ) 下痢症状有無有 715 4285 無 1525 3475 安全な水へのアクセス無群 ( 水無群 ) に対するアクセス有群 ( 水有群 ) のリスク比について述べた 1 から 5 のうち正しいものを一つ選べ 1 水有群のリスクは 0.143 水無群のリスクは 0.305 となるのでリスク比は 0.47 となる 2 水有群のリスクは 0.072 水無群のリスクは 0.153 となるのでリスク比は 0.47 となる 3 水有群のリスクは 0.143 水無群のリスクは 0.305 となるのでリスク比は 0.162 となる 4 水有群のリスクは 0.167 水無群のリスクは 0.439 となるのでリスク比は 0.38 となる 5 水有群のリスクは 0.319 水無群のリスクは 0.552 となるのでリスク比は 0.58 となる

問 15 プロジェクト対象地域の住民から 1000 人を無作為に抽出し下痢のリスクファクターと考えられる石鹸による手洗い慣行 ( 石鹸を用いている=1 用いていない=0) 家屋外の共有トイレの使用 ( 使用している=1 使用していない=0) 魚の摂取( 摂取している=1 していない=0) に関する情報を収集した安全な水へのアクセスとともにこれらの変数を下痢のリスクファクターとするロジスティック回帰分析を行い以下のような推計値を得たオッズ比標準誤差 95% 信頼区間安全な水へのアクセス 0.47 0.077 0.34-0.65 石鹸による手洗い慣行 0.58 0.094 0.43-0.80 家屋外の共有トイレの使用 2.53 0.751 1.41-4.52 魚の摂取 1.05 0.185 0.74-1.48 定数項 0.22 0.068 0.12-0.40 推計結果について述べた1から4の記述のうち最も適切なものを一つ選べ 1 推計されたロジスティック回帰式は以下の通りである P(diarrhea = 1 water, sorp, toilet, fish) (0.22 + 0.47water + 0.58sorp + 2.53toilet + 1.05fish) 2 魚の摂取のオッズ比は 95% 信頼区間に 0 を含んでいないので統計的に有意である 3 石鹸による手洗い慣行の p 値は 0.05 よりも小さい 4 共有トイレを使用していない人に比べ使用している人の方が下痢の発症リスクは小さいと考えられる

応募時に本解答欄を提出ください所属名前統計学理解度確認課題解答 Part 1 問 1 問 2 問 3 問 4 問 5 問 6 問 7 Part 2 問 8 問 9 問 10 問 11 問 12 Part 3 (Part3 の回答は任意です ) 問 13 問 14 問 15