初めて学ぶ統計-公務員のためのオンライン講座-コースポイント集

Similar documents
平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

散布度

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

EBNと疫学

Microsoft PowerPoint - 基礎・経済統計6.ppt

経営統計学

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

PowerPoint プレゼンテーション

データの種類とデータの分布

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

学力スタンダード(様式1)

Microsoft PowerPoint ppt

Blue circle & gradation

第4回

Microsoft Word - 保健医療統計学112817完成版.docx

学習指導要領

Microsoft Word - apstattext04.docx

学習指導要領

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

学習指導要領

【指導のポイント】

学習指導要領

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

基礎統計

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

青焼 1章[15-52].indd

Microsoft PowerPoint - 測量学.ppt [互換モード]

_KyoukaNaiyou_No.4

学習指導要領

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

Microsoft PowerPoint - sc7.ppt [互換モード]

経済統計分析1 イントロダクション

stat-base_ppt [互換モード]

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

データ解析

横浜市環境科学研究所

学習指導要領

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

stat-base [互換モード]

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

学習指導要領

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

基礎統計

情報工学概論

平成 28 年度山梨県学力把握調査 結果分析資料の見方 調査結果概況 正答数分布グラフ 分布の形状から児童生徒の解答状況が分かります 各学校の集計支援ツールでは, 形状だけでなく, 県のデータとの比較もできます 設問別正答率 無解答率グラフ 設問ごとの, 正答率や無解答率が分かります 正答率の低い設

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft PowerPoint - CVM.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

DVIOUT-mem

Microsoft PowerPoint - A1.ppt [互換モード]

第 7 回大阪市人口移動要因調査報告書 平成 27 年 3 月 大阪市都市計画局

経済統計と日本経済 第1回:イントロダクション

ビジネス統計 統計基礎とエクセル分析 正誤表

スライド 1

13章 回帰分析

代表値

中学 1 年生 e ライブラリ数学教材一覧 学校図書 ( 株 ) 中学 1 年 数学 文字式式の計算 項と係数 中学 1 年 数学 次式 中学 1 年 数学 項のまとめ方 中学 1 年 数学 次式の加法 中学 1 年 数学 77

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

Microsoft Word - Stattext12.doc

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

学習指導要領

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

Microsoft Word - nakamoto2.docx

テレビ講座追加資料1105

Medical3

C3 データ可視化とツール

(Microsoft PowerPoint - \214o\215\317\223\235\214va-8.ppt [\214\335\212\267\203\202\201[\203h])

Microsoft Word - apstattext01b.docx

モジュール1のまとめ

Microsoft PowerPoint - Statistics[B]

PowerPoint プレゼンテーション

Microsoft Word - appendix_b

統計学入門 練習問題解答集

Microsoft PowerPoint - statistics pptx

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

画像類似度測定の初歩的な手法の検証

統計的データ解析

Medical3

Transcription:

初めて学ぶ統計 公務員のためのオンライン講座 コースポイント集 第 1 章統計とは第 章データの性質と代表値第 3 章データの分布と相関第 4 章データの見方第 5 章行政運営のための公的統計 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 初めて学ぶ統計 公務員のためのオンライン講座 では上記の内容を学習しました このコースポイント集で全 5 章の学習のポイントをふりかえることができます * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ぜひご活用ください 無断転載禁止 - 1 -

第 1 章統計とは統計の定義 統計は 一定の条件で定められた集団について調べた結果を 集計 加工して得られた数値 と定義されています 統計を利用することの利点全体の特徴を俯瞰的に捉えることができること また 誰もが納得できる客観的な根拠を提示できることが統計を利用することの利点といえます 統計を正しく利用するポイント明確な定義に基づき 明確な条件で得られたデータであるか確認することが大切です Point 1: 何を対象として集計しているかを知る Point : 統計の各項目は何を意味しているのかを正確に知る Point 3: 各数値は 何を調べて集計されたのかを正確に知る Point 4: 各数値は いつの どのような状況を表しているのかを正確に知る公的統計の利用 公的統計 は誰でも利用可能です 法令上で定められた利用や行政施策の立案 政策の評価における利用など 様々な場面で利用されます 第 章データの性質と代表値データの分類 データは以下のように大別することができます 質的データ ( 数量で表すことができないデータ ) 名義尺度: 順序や大小がないもの ( 例 ) 国籍 男女 血液型など 順序尺度: 何らかの順序が明確なもの ( 例 ) テストの順位 検定試験の級 満足度など 量的データ ( 数量で表すことができるデータ ) 連続データ: 一定範囲であれば その中のどの数値もとり得るもの ( 例 ) 気温 体重など 離散データ: 一定の値だけで その間の数値はとり得ないもの ( 例 ) 世帯人員 コンビニエンスストアの数 など 間隔尺度: その数値やその間隔には共通認識があるが ある値を別の値で割っても意味をなさないもの ( 例 ) 時刻 気温 偏差値など 比例尺度: ある値と別の値の程度を比によって表すことができるもの ( 例 ) 経過時間 速度 年齢 体重などなお 質的データは数値化して量的データに変換することにより 集計処理ができるようになり 統計に活用しやすくなります ( 例 ) 男性を1 女性を 0 と二値変数に変換して集計 分析する等 度数分布とヒストグラム データ全体を区別する区分を 階級 各階級に属するデータの個数を 度数 といいます 設定した各階級における度数の 全体の分布状況を 度数分布 といい 階級ごとの度数を 柱の面積で表したグラフのことを ヒストグラム といいます ヒストグラムを活用することで階級毎の度数の分布状況が視覚化され わかりやすくなります ヒストグラムにおいてデータが集中している箇所を 峰 ( ピーク ) とよびます ヒストグラムと棒グラフ ヒストグラムは 横軸が必ず数値であり 量のつながり ( 連続性 ) を表現するために 柱同士の間隔はあけません 棒グラフが度数を 棒の長さ のみで表すのに対し ヒストグラムは 柱の面積 縦 横 で表します ヒストグラムの例ある会社の 300 の事業所の売上高分布 縦軸 ( 度数 ) 事業所数横軸 ( 階級 ) 売上高 ヒストグラムの階級の幅 ( 数 ) ヒストグラムの階級の幅は広すぎると峰の位置が不明確になり 逆に狭過ぎると凹凸が激しく全体像が不明確 無断転載禁止 - -

になります ヒストグラムの階級の数を決める一つの方法として ス タージェスの公式 というものがあります log10 n m 1 log n 1 log 10 m : 階級の数 n : データ数 ヒストグラムの対数変換 収入 貯蓄 資本金等の分布のように裾野が片方に大 中央値は高額貯蓄階級の影響を受けにくい きく広がったヒストグラムの場合 各階級の値を 対数変換 するという方法があります 対数変換したグラフでは 分布形が左右対称に近づきますが 対数変換した数値による階級は意味が分かりにくくなるので注意が必要です データの代表値 ~ 最頻値 ~ 最頻値とは 最も度数が多い階級の値をいいます いくつ以上 ~いくつ未満 など幅をもって表現されてい る階級において 特定の値を 最頻値 として決めたい場合は 以下のような算出方法があります ( 例 1) 階級の真ん中の値を最頻値とする ( 例 ) 最頻値を含む階級の度数と両隣の階級の度数の差の比で案分する平均値と中央値と最頻値の違いデータの分布状態によって平均値 中央値 最頻値の関係に違いが生じてくるのでデータの特徴等を考慮し データの代表値 ~ 平均値 ~ 最も的確な代表値を選びましょう 平均値には以下のようなものがあります 算術平均: データの総和をデータ数で割ったもの 幾何平均: データの数値をすべて掛けて データの個数による累乗根をとったもの トリム平均: 両端のデータを除いて計算したもの 加重平均: 同じ値のデータの個数を重みとして計算したものデータの代表値 ~ 中央値 ~ 中央値は データ全体を順番に並べたときの真ん中の値です 平均値に比べて 外れ値 ( 他の値から大きくはずれたもの ) の影響を受けにくいのが特徴です 左右対称分布 双峰性の分布 右側の裾が長い分布 第 3 章データの分布と相関 データの散らばり各データの平均からの差を 偏差 といい 各データの偏差を用いてデータ全体の散らばり 分散 を計算することができます また 標準偏差 は分散の平方根をとったもので それぞれの計算式は次のようになります 無断転載禁止 - 3 -

偏差 ( i ) { データ ( i ) - 平均 } ることが可能です 分散 ( σ ) { データ(1) -平均} { データ ( N ) 平均 } N 標準偏差 ( σ) 分散 (σ) ばらつきの大きい下の分布の方が分散 標準偏差は大きくなる 箱ひげ図 四分位数 四分位範囲 四分位偏差データを小さい方から順に並べ 中央値を第 四分位数 (Q) とし 第 四分位数 (Q) より小さい値の集団の中での中央値を第 1 四分位数 (Q1) 第 四分位数 (Q) より大きい値の集団の中での中央値を第 3 四分位数 (Q3) といいます 四分位数で区切られた範囲のデータ数はそれぞれ総数の 5% ずつになるので 例えば 10,000 人を対象としたデータであれば 各,500 人分のデータとなる 第 3 四分位から第 1 四分位を引いた値を 四分位範囲 といい 四分位範囲をで割ったものを 四分位偏差 といいます ばらつきの大きい分布においては 四分位範囲 四分位偏差ともに大きくなります パーセンタイル四分位数はデータ数全体を 5% ずつで区切る値でしたが この割合を任意で決めることができます このデータ数を区切る値を パーセンタイル といいます ( 例 ) 下位 10% のデータを区切る値 10 パーセンタイル正規分布様々な要因が積み重なって発生する誤差 成長など自然界でしばしば観察される釣鐘型の分布のことを 正規分布 といい 正規分布は 平均と標準偏差が決まれば その形が決まります 偏差値と標準化テストの教科別得点による総合評価では 各教科における得点分布のばらつきの違いを考慮する必要があります このような場合 評価対象者の得点が平均から標準偏差の何倍離れているかを指標化した 偏差値 という考え方をよく用います 得点 - 平均点偏差値 標準偏差 10 50 また 各データを以下の式に当てはめて変換することを データの標準化 といい 標準化されたデータの平均は 0 となり その標準偏差は 1 となります 得点 - 平均点標準化データ 標準偏差 箱ひげ図四分位範囲に記載した箱の第 四分位の値に線を引き データの最大値と最小値まで線を引いたものを 箱ひげ図 といいます サンプルサイズが異なる箱ひげ図を並べて見る際には箱ひげ図の幅を変えて表現できます 箱ひげ図は狭いスペースに複数の分布を並べて表現す 標準正規分布標準化されたデータが正規分布に近い分布と判断される場合 個々のデータが標準正規分布のどのくらいの位置 ( 何 % 点 ) となっているかを割り出すことができます 無断転載禁止 - 4 -

相関図 身長が高い人は体重が重い といったように データの項目には相互に関係性があると思われるものがあります このようなデータの項目間の関係性を見る際には 各項目を縦軸と横軸にとってデータをプロットします こうして作成された図を相関図 又は散布図とよびます 散布図の縦軸 横軸をデータの平均値で4つの領域に区切って相関の傾向を見ることができます 相関のパターンには 以下の3パターンがあり A と B は データ間に関係性がある C は データ間に関係性はない と推測できます さらに一方の項目の増減と他方の項目の増減に直線的関係性があることを 相関がある といいます A のエリアから3のエリアにかけて分布 B 1のエリアから4のエリアにかけて分布 C 134すべてのエリアにまんべんなく分布 相関係数は0に近いほど相関図上では直線的な関係が弱い相関係数は極端なデータの存在に大きな影響を受けるので そのような場合は 縦軸と横軸の変数をそれぞれの順位にして相関図 相関係数を見ることが有効なケースがあり これを 順位相関 といいます また つの変数には直接的な関係がないにも関わらず 別の共通の要因によってもたらされた変化があたかも 変数間に関連があるように見せてしまうことを 疑似相関 といいます 第 4 章データの見方統計表 統計表は以下のような構造になっています 5 歳男児のデータ縦軸 : 体重横軸 : 身長 ~3 にかけて分布 1 3 4 相関係数変数同士の相関の強さは 相関係数 で表すことができます 相関係数は以下の計算式で求められます 項目 XとYの相関係数 { X (1) の偏差 Y(1) の偏差 } { X ( n) の偏差 Y( n) の偏差 } n 標準偏差 σ ( X ) 標準偏差 σ ( Y) 算出された数値が 0 より大きい場合は 正の相関 が 0 より小さい場合は 負の相関 があるといえます ただし いずれにおいても数値が 0 に近い場合は 相関がない と考えた方がいいでしょう 相関係数と相関図には以下の特性があります 相関係数の最小値は-1 最大値は +1 相関係数は-1や1に近いほど 相関図上では直線的な関係が強い 表題の記述には以下のルールがあります 分類項目がクロスしている場合 カンマ (,) で結ばれる 分類項目が並列の場合 なかてん ( ) で結ばれる表頭 表側の分類事項表頭 表側の分類には 性別 産業 職業といった 質的分類 と 年齢 年間収入 従業者数といった 量的分類 があります 質的分類は各統計間で定義が異なると比較が困難になるので 日本標準産業分類 や 日本標準職業分類 といった標準統計分類が設定されており 各統計はこれに基づいた分類で集計を行っています 無断転載禁止 - 5 -

統計表の数値を理解するための注意点統計表の数値を理解するためには まず用語の定義と調査方法を理解することが重要です ( 例 ) 完全失業者 の定義 1 月末 1 週間に少しも仕事をしなかった 仕事があればすぐに就くことができる 3 月末 1 週間に仕事を探す活動や事業を始める準備をしていた以上の条件をすべて満たす者統計表の中の記号の意味統計表の中で用いられる記号のそれぞれの意味は以下のとおりです 複合グラフ棒グラフと折れ線グラフを一つにまとめたグラフが典型的なものです 円グラフ全体に対する割合を視覚的に表現するグラフで 扇形の中心角の大きさで各カテゴリーの割合を表します 棒グラフ数量の大小を比較する際に使用し 棒の高さや長さが数量を表します 棒を横向きにした横棒グラフ 何種類かの値を同時にグラフ化した複数系列の棒グラフもあります 帯グラフ全体を 100% としたときのそれぞれの割合を帯の幅で表します 円グラフ同様に割合を表すグラフですが 総数の異なる二つのデータは 割合を計算し 帯グラフにして並べると比較をしやすくなります 折れ線グラフ時間とともに数量が変わる様子を折れ線の傾き方で表します 傾きが急な場合は大きく増加 ( 減少 ) し 緩やかな場合は変化が少ないといえます 横軸は必ず目盛を等間隔に設定することが大切です レーダーチャート項目の数に合った多角形の形をしており 各頂点はそれぞれの項目の基準値に対する比率に対応させ 各頂点を線分で結びます 値が大きいほど外に広がり 小さいほど中心に集束し また各項目の値のバランスが取れているほど正多角形に近い形となります 無断転載禁止 - 6 -

ヒストグラム連続型の量的データの度数分布表を柱の面積で表したグラフで 横軸が必ず数値となっています 量のつながり ( 連続性 ) を表現するために 柱同士の間隔はあけません ヒストグラムからは以下の特徴を読みとることができます 多峰性ピークがつ以上あり 異質な集団のデータが混在している可能性があるのでデータを分けて分析するなどの工夫が必要 左右非対称ピークが右や左に偏り 片側に長く裾を引く場合がある 代表値を見る場合には注意が必要 外れ値異質なデータが混在している可能性がある 入力ミスや異質なデータが混在していないかの確認が必要 パレート図質的データの度数分布表をもとに度数を表す棒グラフと累積相対度数を表す折れ線グラフを合わせて表したグラフです パレート図を用いて全体に占める度数の割合が大きい項目を A 中程度の項目を B 少ない項目は C と分類して 全体に占める割合の大きさごとに分析を行っていく分析手法を ABC 分析 と言います この分析手法は品質管理等で活用されています ローレンツ曲線とジニ係数データのばらつきの大きさ 分配の不平等度を表すものとして ローレンツ曲線 と ジニ係数 があります 次の図のように縦軸と横軸にそれぞれの値の累積百分 率をとって 10% の世帯で全体の何パーセントの収入を得ているか 0% でいくつ というようにグラフを描いたもので この曲線が下方向に張り出すほど 不平等度が高いことを表します ジニ係数とは 均等分布線と横軸と縦軸 ( 右側 ) で囲まれた三角形の面積を分母に 均等分布線とローレンツ曲線で囲まれた弓形の面積を分子にとって計算したものです 家計調査 (014 年 ) 全国 二人以上の世帯 勤労者世帯 構成比と相対比比率には 総数とその内訳の比率を表す 構成比 と 異なるデータを分子 分母に取った比率や単位当たりの量といった 相対比 があります 構成比の例 15 歳未満人口割合 =(15 歳未満の人数 )/( 総人口 ) エンゲル係数 =( 食料費 )/( 消費支出 ) 相対比の例人口密度 = ( 人口 )/( 面積 ) BMI=( 体重 )/( 身長 ) 構成比を用いた地域間比較地域の産業構造の特徴を見比べる際に実数だけで見比べると人口規模の違いにより その特徴が見えにくくなることがあります こうした場合には 構成比を用いて比較するとその特徴がより分かりやすくなります 相対比を用いた地域間比較構成比と同様に規模の影響を排除して比較する際に用いられ 一般的に分母に基準とする単位を取ることが多く 地域間比較では目的に応じて以下のような分母をとります 近接性や利便性を見たい場合 面積を分母 温泉の数等 コンビニエンスストアの数 ( 利便性 ) 一人当たりの量を見たい場合 人口を分母 自家用車の保有数等 コンビニエンスストアの数 ( 混雑率 ) 無断転載禁止 - 7 -

時系列データの種類 時間の順序で並べられたデータを 時系列データ といい 一般的に時点の古い方から新しい方に向かってデータが並べられます 様々な観測頻度や区切りの時系列データがあるので 利用する際は注意が必要です 時系列データは ある一時点の状態をとらえた ストックデータ ( 静態データ ) とある期間内の発生量や変化量を表した フローデータ ( 動態データ ) があります ストックデータ ( 静態データ ) の例平成 7 年 10 月 1 日現在の人口 フローデータ ( 動態データ ) の例平成 6 年の 1 年間の出生数 経済データでは フローデータの減少が先に発生し その後ストックデータが減少に転じるという傾向が出ますので 経済の見通し等はフローデータで見て 普及状況等はストックデータで見るといった使い分けをします 名目と実質 金額を扱う統計では 名目 と 実質 という考え方が用いられます 名目はその時々の価格により表した金額で 消費実感に近い金額であり 実質はある基準となる時点の価格により表した金額です 実質は物価変動を排除して 購入量による金額変動を見たい時などに利用します 時系列データにおける季節性 季節変動 とは季節に関連する要因によって発生する変動です ( 例 ) 夏にビール消費が増える 冬に灯油購入が増えるボーナス時期に商品売上が増える等その年の傾向を季節性を排除してみる方法に 前年同月比 という考え方があります 季節調整法 前年同月比 = 当月の値前年の同月の値 季節変動のパターンは毎年ほぼ一定と仮定した際に有効 季節性のあるデータで前月比動向を見たい場合には 様々な 季節調整法 が用いられます 季節調整法では 時系列データ ( 原系列 O) を 傾向変動(T) 長期にわたる傾向的な変化 循環変動(C) 周期的に繰り返される1 年周期ではない変動 季節変動(S)1 年周期の規則的な変動 不規則変動(I) 上記以外の不規則な変動からなると考え 季節性を除去します 季節調整法には 前後の数か月の値を平均した値をその月の値とみなし 不規則な変動をスムーズにならす 移動平均法 やアメリカセンサス局が開発した X1-ARIMA といったものがあります 第 5 章行政運営のための公的統計公的統計の役割 統計は 現在の状態を客観的かつ正確に把握するためのものであり 現在の状態を客観的かつ正確に捉えるためのデータを計測し 目的に応じて集計 加工し 適切に記述します 代表的な公的統計調査である国勢調査は 国内の人口や世帯の実態を明らかにするための調査 です 行政機関 地方公共団体や独立行政法人等が作成する 公的統計 に対して 民間が実施する統計調査によって得られる統計を 民間統計 といいます 基幹統計と一般統計公的統計は 基幹統計 と 一般統計 に分けられます 基幹統計国勢統計 国民経済計算といった特に重要な統計のことで 回答者に報告義務を課している 一般統計一般統計調査においては 回答者の報告は任意となっている 一次統計と二次統計統計を作成する方法は 調査統計 業務統計 加工統計 の3つに分類することができます 調査統計統計調査を実施することによって得られる統計 ( 例 ) 国勢調査 経済センサス 農林業センサス等 業務統計政府の業務で得られた行政記録から作成される統計 ( 例 ) 人口動態統計 貿易統計 建築着工統計等 加工統計調査統計や業務統計を基に加工して作成される統計 ( 例 ) 国民経済計算 消費者物価指数 鉱工業指数等 無断転載禁止 - 8 -

調査統計と業務統計は 一次統計 加工統計は 二次統計 と言われています 統計法公的統計の体系的かつ効率的な整備及びその有用性の確保を図ることを目的として 統計法 が定められています 統計法のポイントは次のとおりです 1 公的統計の整備に関する基本的な計画の策定 統計データの利用促進と秘密の保護 3 統計委員会の設置 二段抽出法 1 段目で調査地域を選び出し 段目で調査地域内から調査対象を選び出すという 段階で標本を選ぶ方法 公的統計の作成 公的統計の企画から結果の公表までの流れは次のとおりです 抽出 層別抽出法調査対象を同質なグループに分け グループごとに標本を無作為抽出する方法 抽出 抽出 抽出 全数調査と標本調査統計調査において 調べたい対象全体からなる集団のことを 母集団 母集団から抽出された一部の集団のことを 標本 といいます また 母集団のすべてを調べる調査のことを 全数調査 母集団の一部の情報を基に母集団を推定するために実施する調査のことを 標本調査 といいます 標本調査における対象の抽出方法には 調査対象を公平に選定できるように 無作為に抽出する 無作為抽出 と 母集団をよく代表していると考えられる調査対象を専門家の判断に基づいて抽出する 有意抽出 があります 無作為抽出された標本調査であっても回答には意図しない偏りが出ることもあるので注意が必要です 様々な標本抽出方法標本の抽出方法には次のようなものがあります 集落抽出法調査対象の集まりである集落を無作為に抽出し その集落内のすべての調査対象を調査する方法 結果の推定方法標本調査では 母集団から一部の標本を抽出して その標本の値を用いて 母集団の値を推定します 推定の方法は 標本理論に基づいた推定式によって求められます 推定式は 抽出方法によって異なります 標本誤差と非標本誤差標本調査の結果は 必ずしも母集団の値 つまり真の値とは一致せず 何らかの差があります このように標本を無作為に抽出することによって生じる差のことを 標本誤差 といいます また 標本調査の調査結果が確率的にばらつく幅を示す値を 標準誤差 といいます 標準誤差は 近似的に次のように表すことができ 標本の大きさの平方根に反比例します 母集団の標準偏差標準誤差 標本の大きさの平方根標本誤差が一部の標本から母集団を推定することによって生じる誤差であるのに対して 調査や集計の不完全さによって生じる誤差のことを 非標本誤差 といいます 無断転載禁止 - 9 -