様式 3 2018 年度能力強化研修 インパクト評価 : エビデンスに基づく事業実施 (EBP) の実践に向けて 統計学理解度確認課題
本冊子の利用にあたって 本冊子は 能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事 項を選択肢形式の問題として提示したものです 統計学に不安のある受講生は事前の学 習として活用ください 試験ではないので正答数自体は重要ではありません より効果的な学習 復習となるよ う 次のような姿勢で問題に取り組むことを強く推奨いたします 各設問の選択肢から正答を見つけるだけでなく 他の選択肢がなぜ不正解なのかといった理由づけも丁寧に行ってください 統計分析のソフトウェアを用いれば 計算プロセスを省いて容易に正答が分かる問題もあります しかし 統計分析の原理を正しく理解するという観点からは 統計分析ソフトウェアに頼ることは好ましくない面もあります 本冊子内の問題は 全て電卓やエクセル等の表計算ソフトの計算機能の助けを借りることで解答にたどり着けるようにしていますので 手計算で解答を導出してください
Part 1 問 1 から問 8 は 以下の仮想プロジェクトを素材としている 農村金融プロジェクトにおいて プロジェクト活動エリア内に居住する女性を対象に標 本調査を行った 調査では以下のデータを収集した 収集データ 定義 変数名 コード等 誕生年月日 birth_date 年 月 日 (YYMMDD) 行政サービスの満足度 service 大変満足 (=5) 満足(=4) どちらとも言えない (=3) 不満足 (=2) 大変不満足(=1) 一人当たり家計所得 (/ 月 ) income 貯蓄口座の有無 saving 有り =1 なし =0 マイクロファイナンスの利用年数 mf データ例
問 1 以下の A~C は収集されたデータについて述べたものである これらに関し 1 から 5 のうち 正しいものを一つ選べ 誕生年月日は量的変数であり 四則計算を施すことができる 行政サービスへの満足度は順序変数であるが 解析的には離散変数 (discrete variable) として扱うことが許される場面もある 所得データから 貧困ライン以下の層を 0 貧困ライン以上 国家平均水準以下を 1 国家平均水準以上を 2 とするダミー変数を作成することができる 1 A のみ正しい 2 B のみ正しい 3 A と B のみ正しい 4 A と C のみ正しい 5 正しいものはない
問 2 次の図はデータの一人当たり家計所得を階層に分け ヒストグラムとして示したもので ある 1 から 4 のうち 正しい記述を一つ選べ 0 5000 10000 15000 20000 1 中心の代表値として平均値を用いることが望ましい 2 平均値 ± 標準偏差の範囲に全家計のおよそ 70% が入ることが予想される 3 このような形状の分布は 左に歪んでいる という 4 中央値は平均値よりも小さな値となる
問 3 貯蓄口座がどの程度浸透しているのかを把握するために 金融機関に貯蓄口座を有している女性の割合について区間推定を行った なお この問 3 では サンプルサイズは 1000 人と仮定する 1000 人のうち 250 人が貯蓄口座を有していた プロジェクト活動エリアにおける貯蓄口座保有割合の 95% 信頼区間について 1から4のうち 正しいものを一つ選べ 1 この情報だけでは貯蓄口座保有割合の 95% 信頼区間を求めることはできない 2 貯蓄口座保有割合の 95% 信頼区間は 22.3%~27.7% である 3 貯蓄口座保有割合の 95% 信頼区間は 22.7%~27.3% である 4 貯蓄口座保有割合の 95% 信頼区間は 21.5%~28.5% である
問 4 プロジェクト予算が不足したため 調査対象者 ( サンプルサイズ ) を 1000 人から 500 人に半減させることとなった 母集団には変化はない サンプルサイズが半減したこと で どのような結果がもたらされるか?1 から 5 のうち 正しいものを一つ選べ 1 貯蓄口座保有割合の 95% 信頼区間は変わらない 2 貯蓄口座保有割合の 95% 信頼区間は約 2 倍に広がる 3 貯蓄口座保有割合の 95% 信頼区間は約 1.4 倍に広がる 4 貯蓄口座保有割合の 95% 信頼区間は約 0.7 倍に狭まる 5 ケースにより答えは一意に定まらない
問 5 問 3 4 で示したサンプルサイズ 貯蓄口座保有割合は本問では仮定しない ( 忘れて よい ) 貧困家計と非貧困家計について 貯蓄口座保有割合に違いがあるのかを検証するために 母集団においては貧困家計と非貧困家計間で貯蓄口座保有割合は等しい という主張を帰無仮説とする検定を行った なお サンプルサイズは大標本を仮定するに十分な大きさがあるものとする 適切な分析手続きを踏んだ結果 群間には一定の差が見られ P=0.02 という結果を得た この意味するところとして1から4のうち 最も適切なものを一つ選べ 1 帰無仮説が正しいとすれば 観察された差の値は サンプルを変えて同様の検定を繰り返した時 100 回に 2 回程度しか生じない 2 母集団における貧困家計と非貧困家計間で貯蓄口座保有割合の差は 2% である 3 帰無仮説は有意水準 1% で棄却される 4 標本に見られた群間の貯蓄口座保有割合の差は 2% の誤差を有している
問 6 問 5 と同一のデータを用いて 貧困家計と非貧困家計における貯蓄口座保有割合の差の 区間推定を行う 割合の差の区間推定の結果について述べた 1 から 6 のうち 適切なも のを全て選べ 1 95% 信頼区間に 0 は含まれる 2 95% 信頼区間に 0 は含まれない 3 90% 信頼区間に 0 が含まれる 4 90% 信頼区間に 0 が含まれない 5 99% 信頼区間に 0 が含まれる 6 99% 信頼区間に 0 が含まれない
問 7 貧困家計の貯蓄口座保有割合は 23.8% 貯蓄口座保有割合は 49.3% であった 以下の回 帰分析を行った時 切片 ( ) 及び貧困家計ダミーの係数 ( ) の値はいくつになるか? 1 から 6 のうち 正しいものを一つ選べ Saving i = α + βpovety i + ε i Saving: 貯蓄口座保有ダミー ( 有り = 1 無し = 0) Poverty: 貧困家計ダミー ( 貧困家計 = 1 非貧困家計 = 0) ε: 誤差項 1 この情報だけでは の値を求めることはできない 2 α = 0.493, = 0.255 3 α = 0.238, = 0.493 4 α = 0.238, = 0.255 5 α = 0.493, = 0.238 6 α = 0.255, = 0.238
問 8 貯蓄口座を有しているか否かは 一人当たり家計所得以外にも農村女性の年齢やマイク ロファイナンスの利用経験有無も影響しそうである そこで これらの属性が貯蓄口座 保有に与える影響を検証するために 貯蓄口座の有無を被説明変数とする以下のロジッ トモデルを推計した なお サンプルサイズは大標本を仮定するに十分な大きさがある ものとする P(Saving = 1 age, age 2, mf_dmy, income) (α + β 1 age + β 2 age 2 + β 3 mf_dmy + β 4 income) (z) = exp (z) [1 + exp (z)] 分析の結果 以下のような推計値を得た P(Saving = 1 age, age 2, mf_dmy, income) ( 1.89 0.08age + 0.0012age 2 + 1.85mf_dmy + 0.000025income) 年齢 21 歳 所得 16000 マイクロファイナンス利用歴 2 年という A 氏と 年齢 20 歳 所得 7000 マイクロファイナンス利用歴 0 年という B 氏について両者の貯蓄口座保有確率の差を求めた その値として1から5のうち 最も適切なものを選べ 1 25.3% 2 2.0% 3 20.3% 4 16.5% 5 33.6%
Part 2 問 9 から問 12 は 以下の仮想プロジェクトを素材としている 保健システム強化のプロジェクトにおいて 全国に 20 ある全ての郡病院に 5S 活動を導入した なお 20 の病院のうち 8 病院は都市部 残りの 12 病院は農村に位置している プロジェクトでは 5S 活動の進展度合いをモニタリングするために 20 の郡病院から無作為に 10 病院を選び 定期的に実践度スコア (100 点満点 ) を収集することとした データ例 id: score: time: 郡病院識別番号 実践度スコア 5S 導入からの経過月
問 9 以下の A~C は収集されたデータについて述べたものである これらに関し 1 から 6 のうち 正しいものを一つ選べ 実践度スコアのデータセットは その計測構造から繰り返しクロスセクションデータ (repeated cross-section data) である モニタリングの対象となった 10 病院は層別抽出法に則って抽出されている 実践度スコアは厳密には離散データであるが 解析上は連続データとして扱って差し支えはない 1 A のみ正しい 2 B のみ正しい 3 C のみ正しい 4 A と C のみ正しい 5 A と B のみ正しい 6 B と C のみ正しい
問 10 これまでプロジェクト導入後 1 か月時点 及び 2 か月時点のスコアを収集した この 2 時点間で 5S 活動に進展があったか ( 実践度スコアの改善があったか ) を検証するため の分析方法として 1 から 4 のうち 最も適切なものを一つ選べ 1 1 か月時 及び 2 か月時の実践度スコアに対して 対応のない 2 群の平均値差の検定 (t 検定 ) を行う 2 1 か月時点と 2 か月時点の実践度スコアを病院ごとに比べ 改善している病院の割合を求める 3 実践度スコアを経過時間で説明する単回帰分析 (score it = α + βtime it + ε it ) を行い βが 0 であるかどうか検定を行う score it 病院 i の t か月時点の実践度スコア time it 病院 i の t か月時点の 5S 導入からの経過月 ε it 誤差項 4 1 か月時 及び 2 か月時の実践度スコアに対して 対応のある 2 群の平均値差の検定 (t 検定 ) を行う
0 score 20 40 60 80 100 0 0 score 20 40 60 80 score 20 40 60 80 100 100 0 0 score 20 40 60 80 score 20 40 60 80 100 100 問 11 5S 活動導入から 1 年後に 20 の郡病院全てを対象に 5S 活動の進展度合いを測定したところ 病院間で大きなばらつきが見られた その要因として病院職員の平均年間給与額があるのではないかと考え 5S 活動導入 1 年後の実践度スコア (score) を平均年間給与額 (salary) で説明する単回帰分析 (score i = α + βsalary i + ε i ) を行った その結果 平均年間給与額の係数が統計的に有意となる推計値が得られた 仮説通りの結果を得たと一度は満足したが 農村都市間の地域差を考慮しなくてはいけないのではないかと再考し 改めて説明変数に農村部ダミー変数 (rural) を含む重回帰分析 (score i = α + βsalary i + δrural i + ε i ) を行った すると 農村部ダミーの係数が統計的に有意となり 平均年間給与額の係数は有意ではなくなった このような分析結果を生む考えられるデータとして1から5のうち 最も適切なものを一つ選べ 1 2 0 500 1000 1500 2000 salary rural urban 0 500 1000 1500 2000 salary rural urban 3 4 200 400 600 800 1000 1200 salary3 rural urban 0 500 1000 1500 2000 salary rural urban 5 0 500 1000 1500 2000 salary rural urban
問 12 前問の分析に加えて さらに病院の病床数 モニタリングの対象になったか否かを示す ダミー変数を加えた重回帰分析を行った これまでの分析結果は以下の表に要約されて いる (1) (2) (3) 平均年間給与額 0.0362 0.0015 0.0088 (0.007) (0.0131) (0.0127) 農村ダミー 39.17 24.86 (13.22) (14.09) 病床数 1.62 (0.80) モニタリング対象病院ダミー -3.90 (5.41) 定数項 17.00 29.76 21.92 (8.15) (8.05) (9.26) n 20 20 20 ( 自由度調整済 ) 決定係数 0.59 0.70 0.74 注 : カッコ内の値は標準誤差を示している 第 3 列に示された分析結果について述べた 1 から 5 の記述に関し 誤っているものを一 つ選べ 必要に応じて下記の t 分布表を参照すること 1 平均年間給与額の t 値は 0.70 である 2 農村ダミーは 有意水準 10% で有意である 3 病床数の 95% 信頼区間は 0 を含んでいない 4 モニタリング対象病院ダミーの p 値は 0.1 よりも大きい t 分布表 ( 自由度 v の 100 % 点 t α (v)) 自由度 0.1 0.05 0.025 0.01 0.005 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845
Part 3 問 13 プロジェクト対象地域の現状を把握するために 保健省が発行する資料から妊産婦死亡率 乳児死亡率 HIV 有病率といった様々な疾病頻度に関する疫学指標の値を確認した 疫学指標について述べた以下の1から4の記述のうち 正しいものを一つ選べ 1 乳児死亡率は率と表記されているが理論的に割合に分類される 2 割合は必ず 0 から 1 の間に分布をするが 比はマイナスの値を取ることもある 3 有病率は理論的にも率に分類される 4 割合は次元のない量となるが 率の次元は時間の 1 乗となる
問 14 プロジェクト対象地域では 人口 1 万人のうち半数が安全な水へのアクセスを有してい る 同地域では下痢が広範に見られるが 下痢を発症している人の割合と安全な水への アクセスとの関係を調べたところ 以下の結果が得られた 安全な水へのアクセス ( 人 ) 下痢症状 有 無 有 715 4285 無 1525 3475 安全な水へのアクセス無群 ( 水無群 ) に対するアクセス有群 ( 水有群 ) のリスク比につ いて述べた 1 から 5 のうち 正しいものを一つ選べ 1 水有群のリスクは 0.143 水無群のリスクは 0.305 となるので リスク比は 0.47 となる 2 水有群のリスクは 0.072 水無群のリスクは 0.153 となるので リスク比は 0.47 となる 3 水有群のリスクは 0.143 水無群のリスクは 0.305 となるので リスク比は 0.162 となる 4 水有群のリスクは 0.167 水無群のリスクは 0.439 となるので リスク比は 0.38 となる 5 水有群のリスクは 0.319 水無群のリスクは 0.552 となるので リスク比は 0.58 となる
問 15 プロジェクト対象地域の住民から 1000 人を無作為に抽出し 下痢のリスクファクター と考えられる石鹸による手洗い慣行 ( 石鹸を用いている=1 用いていない=0) 家屋 外の共有トイレの使用 ( 使用している=1 使用していない=0) 魚の摂取( 摂取して いる=1 していない=0) に関する情報を収集した 安全な水へのアクセスとともに これらの変数を下痢のリスクファクターとするロジスティック回帰分析を行い 以下の ような推計値を得た オッズ比 標準誤差 95% 信頼区間 安全な水へのアクセス 0.47 0.077 0.34-0.65 石鹸による手洗い慣行 0.58 0.094 0.43-0.80 家屋外の共有トイレの使用 2.53 0.751 1.41-4.52 魚の摂取 1.05 0.185 0.74-1.48 定数項 0.22 0.068 0.12-0.40 推計結果について述べた1から4の記述のうち 最も適切なものを一つ選べ 1 推計されたロジスティック回帰式は以下の通りである P(diarrhea = 1 water, sorp, toilet, fish) (0.22 + 0.47water + 0.58sorp + 2.53toilet + 1.05fish) 2 魚の摂取のオッズ比は 95% 信頼区間に 0 を含んでいないので 統計的に有意である 3 石鹸による手洗い慣行の p 値は 0.05 よりも小さい 4 共有トイレを使用していない人に比べ 使用している人の方が下痢の発症リスクは小さいと考えられる
応募時に 本解答欄を提出ください 所属 名前 統計学理解度確認課題解答 Part 1 問 1 問 2 問 3 問 4 問 5 問 6 問 7 Part 2 問 8 問 9 問 10 問 11 問 12 Part 3 (Part3 の回答は任意です ) 問 13 問 14 問 15