基礎統計

Similar documents
22. 都道府県別の結果及び評価結果一覧 ( 大腸がん検診 集団検診 ) 13 都道府県用チェックリストの遵守状況大腸がん部会の活動状況 (: 実施済 : 今後実施予定はある : 実施しない : 評価対象外 ) (61 項目中 ) 大腸がん部会の開催 がん部会による 北海道 22 C D 青森県 2

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378>

< E B B798E7793B188F5936F985E8ED EA97975F8E9696B18BC CBB8DDD816A E786C7378>

 

通話品質 KDDI(au) N 満足やや満足 ソフトバンクモバイル N 満足やや満足 全体 21, 全体 18, 全体 15, NTTドコモ

住宅宿泊事業の宿泊実績について 令和元年 5 月 16 日観光庁 ( 平成 31 年 2-3 月分及び平成 30 年度累計値 : 住宅宿泊事業者からの定期報告の集計 ) 概要 住宅宿泊事業の宿泊実績について 住宅宿泊事業法第 14 条に基づく住宅宿泊事業者から の定期報告に基づき観光庁において集計

129


1 1 A % % 税負 300 担額

平成 31 年 3 月 20 日更新 全国女性の参画マップ 平成 30 年 12 月作成 内閣府男女共同参画局

共同住宅の空き家について分析-平成25年住宅・土地統計調査(速報集計結果)からの推計-

< E188CA8C9F8FD88A65955C2E786C73>

地域医療ビッグデータに触ってみよう ほぼハンズオンマニュアル

»°ËÞ½ŸA“⁄†QŸA“⁄Æ�°½No9

2 受入施設別献血量 ( 推計値 ) ブロ都ック道府県 合計 全国血液センター献血者数速報 (Ⅰ) 血液センター 平成 30 年 12 月分 L % L % 日 L L % 日 L L % 台 L L % 台 L 8, ,768

厚生労働科学研究費補助金(循環器疾患等生活習慣病対策総合研究事業)

<4D F736F F D20486F744E E D BD90AC E93788AEE8AB28AC CF906B89BB97A6816A817C82BB82CC A2E646F63>

<925089BF955C81698CF6955C816A2E786C73>

平成 27 年 2 月から適用する公共工事設計労務単価 1 公共工事設計労務単価は 公共工事の工事費の積算に用いるためのものであり 下請契約等における労務単価や雇用契約における労働者への支払い賃金を拘束するものではない 2 本単価は 所定労働時間内 8 時間当たりの単価である 3 時間外 休日及び深

共通基準による観光入込客統計 ~ 共通基準に基づき 平成 22 年 月期調査を実施した 39 都府県分がまとまりました~ 平成 23 年 10 月 31 日観光庁 各都道府県では 平成 22 年 4 月より順次 観光入込客統計に関する共通基準 を導入し 信頼 性の高い観光入込客統計調査を

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - lec_student-chp3_1-representative

RBB TODAY SPEED TEST


3章 度数分布とヒストグラム

<4D F736F F D2081A030308B4C8ED294AD955C8E9197BF955C8E862E646F63>

労働力調査(基本集計)平成25年(2013年)平均(速報)結果の要約,概要,統計表等

年齢 年齢 1. 柏 2. 名古屋 3. G 大阪 4. 仙台 5. 横浜 FM 6. 鹿島 -19 歳 0 0.0% 0 0.0% 2 2.7% 1 1.4% 3 4.0% 3 4.6% 歳 4 5.0% 5 6.7% 7 9.6% 2 2.7% 2 2.7% % 25-2

平成17年3月24日

厚生労働科学研究費補助金 (地域健康危機管理研究事業)

共同住宅の空き家について分析-平成25年住宅・土地統計調査(確報集計結果)からの推計-

A-1_中央年報 「野菜」品目別産地別月別取扱高表H28(A4横)

統計トピックスNo.96 登山・ハイキングの状況 -「山の日」にちなんで-

レビューの雛型(ワード)

第 40 回 看護総合 2009 年 平成 21 年 2009/7/18-19 京都府京都市 2009 年 2010 年 精神看護 2009/7/23-24 島根県松江市 2009 年 2010 年 母性看護 2009/8/6-7 佐賀県佐賀市 2009 年 2010 年 看護教育 2009/8/2

調査実施概況 小学校 ( 都道府県 ( 指定都市除く )) 教育委員会数 ( 1) 学校数児童数 ( 2) 全体 実施数 調査対象者在籍学校数 実施数国語 A 国語 B 主体的 対話的で深い学びに関する状況 ( 3) 算数 A 算数 B 質問紙 平均正答率 13~15 問 国語

3章 度数分布とヒストグラム

2. 長期係数の改定 保険期間を2~5 年とする契約の保険料を一括で支払う場合の保険料の計算に使用する長期係数について 近年の金利状況を踏まえ 下表のとおり変更します 保険期間 2 年 3 年 4 年 5 年 長期係数 現行 改定後

Microsoft Word - 保健医療統計学112817完成版.docx

関東 優良産廃処理業者認定制度で優良認定を受けている許可証 組合員都道府県 許可地域組合員名所在地 茨城県 黒沢産業 ( 株 ) 茨城県 関 茨城県 茨城県 ( 株 ) マツミ ジャパン 茨城県 茨城県 ( 株 ) 国分商会 埼玉県

Microsoft PowerPoint - スポーツ経済度ランキング.ppt

2-5 住宅の設備

表 1) また 従属人口指数 は 生産年齢 (15~64 歳 ) 人口 100 人で 年少者 (0~14 歳 ) と高齢者 (65 歳以上 ) を何名支えているのかを示す指数である 一般的に 従属人口指数 が低下する局面は 全人口に占める生産年齢人口の割合が高まり 人口構造が経済にプラスに作用すると

住宅着工統計による再建築状況の概要 ( 平成 1 9 年度分 ) 国土交通省総合政策局情報安全 調査課建設統計室 平成 20 年 11 月 5 日公表 [ 問い合わせ先 ] 担当下岡 ( 課長補佐 ) 遠藤( 建築統計係長 ) 中村 TEL ( 代表 ) 内線

平成29年3月高等学校卒業者の就職状況(平成29年3月末現在)に関する調査について

Microsoft Word - 認知度調査HP原稿

< ( 平成 29 年 9 月分 )> 2010 年平均 =100 ブロック別 北海道地方 東北地方


N_①公表資料2017

H ( 火 ) H ( 水 ) H ( 金 ) H ( 火 ) H ( 月 ) H ( 火 ) H ( 土 ) H ( 日 ) H ( 木 ) H ( 火 ) H

Microsoft PowerPoint - データ解析基礎2.ppt

経営統計学

中央年報 「野菜」品目別産地別月別取扱高表H26(A4横)

Microsoft Word - 公表資料2013本番

PowerPoint プレゼンテーション

表 3 の総人口を 100 としたときの指数でみた総人口 順位 全国 94.2 全国 沖縄県 沖縄県 東京都 東京都 神奈川県 99.6 滋賀県 愛知県 99.2 愛知県 滋賀県 神奈川

平成 22 年第 2 四半期エイズ発生動向 ( 平成 22(2010) 年 3 月 29 日 ~ 平成 22(2010) 年 6 月 27 日 ) 平成 22 年 8 月 13 日 厚生労働省エイズ動向委員会

公文書管理条例等の制定状況調査結果 平成 3 0 年 3 月総務省自治行政局行政経営支援室


景況レポート-表

文字数と行数を指定テンプレート

平成 26 年 3 月 28 日 消防庁 平成 25 年の救急出動件数等 ( 速報 ) の公表 平成 25 年における救急出動件数等の速報を取りまとめましたので公表します 救急出動件数 搬送人員とも過去最多を記録 平成 25 年中の救急自動車による救急出動件数は 591 万 5,956 件 ( 対前

平成 27 年の救急出動件数等 ( 速報 ) 消防庁

<944D92868FC75F8F578C D834F F E F1817A35302E786C736D>

PowerPoint プレゼンテーション

○ 第1~8表、図1~4(平成25年度公立学校教員採用選考試験の実施状況について)

平成 26 年の救急出動件数等 ( 速報 ) 消防庁

平成19年度環境ラベルに関するアンケート調査集計結果報告

図表 1 個人保険の新規契約 保有契約 ( 万件 % 億円) 新規契約 保有契約 件数 金額 ( 契約高 ) 件数 金額 ( 契約高 ) 前年度比 前年度比 前年度比 前年度比 平成 25 年度 1, , , ,575,

これだけは知っておきたい地震保険

調査結果(資料1~資料9)

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

11 m2~15 m2 7m2~10 m2 6m2以下 1 級地別記 7 別記 8 別記 9 2 級地別記 7 別記 8 別記 9 3 級地別記 7 別記 8 別記 9 ただし 次に掲げる当該世帯の自立助長の観点から引き続き当該住居等に居住することが必要と認められる場合又は当該地域の住宅事情の状況に

平成 24 年度職場体験 インターンシップ実施状況等調査 ( 平成 25 年 3 月現在 ) 国立教育政策研究所生徒指導 進路指導研究センター Ⅰ 公立中学校における職場体験の実施状況等調査 ( 集計結果 ) ( ) は 23 年度の数値 1 職場体験の実施状況について ( 平成 24 年度調査時点

平成13-15年度厚生労働科学研究費補助金

平成28年版高齢社会白書(概要版)

B 新潟県神戸市千葉市徳島県 新潟県神戸シニア選抜千葉市シニア徳島カバロスシニア (1 日目 ) 第 2 9:55-10:40 新潟県 0 ( ) 4 神戸市 (1 日目 ) 第 2 9:55-10:40 千葉市 1 ( (1 日目 ) 第 6 13:35-14:20 ) 1 徳島県 新潟県 0 (

第 18 表都道府県 産業大分類別 1 人平均月間現金給与額 ( 平成 27 年平均 ) 都道府県 鉱業, 採石業, 砂利採取業建設業製造業 円円円円円円円円円 全国 420, , , , , , , ,716 28

1. 社会福祉法人経営動向調査 ( 平成 30 年 ) の概要 目的 社会福祉法人と特別養護老人ホームの現場の実感を調査し 運営実態を明らかにすることで 社会福祉法人の経営や社会福祉政策の適切な運営に寄与する 対象 回答状況 対 象 特別養護老人ホームを運営する社会福祉法人 489 法人 (WAM

「交通マナー」に関するアンケート調査結果

(3) 最大較差 平成 17 年国調口平成 22 年国調口 H24.9 選挙名簿 在外選挙名簿 H25.9 選挙名簿 在外選挙名簿 最大 : 千葉 4 569,835 東京 ,677 最大 : 千葉 4 497,350 北海道 1 487,678 最小 : 高知 3 258,681 鳥取

散布度

「公立小・中・高等学校における土曜日の教育活動実施予定状況調査」調査結果

公表資料2014セット版

統計トピックスNo.120 我が国のこどもの数―「こどもの日」にちなんで―

平成29年度通級による指導実施状況調査結果について(別紙2)

Microsoft PowerPoint HP掲載資料v6

都道府県ごとの健康保険料率 ( 平成 30 年 ) 基本保険料率 / 特定保険料率の合算料率 都道府県 料率 都道府県 料率 都道府県 料率 都道府県 料率 北海道 東京 滋賀 香川 青森 神奈川 京都

県別 大学進学 37県で流出超過!|旺文社教育情報センター

本土 ( 沖縄県を除く ) 保険期間 60か月 48か月 37か月 36か月 35か月 34か月 33か月 32か月 31か月 30か月 29か月 28か月 27か月 26か月 25か月 24か月 23か月 22か月 21か月 20か月 合 自家用 A B 営 業 用 用 C D 自 家 用 用 4

Contents 1 Section Chapter Part Part Chapter Part1 9 Part2 12 Part3 14 Part4 16 Chapter Part1 17 Par

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

1 移動系通信の契約数における事業者別シェアの推移 ( グループ別 ) グループ内取引調整後 1 単純合算 % 29.5% 29.7% 29.7% 29.7% ソフトハ ンクク ルーフ, 29.4% 9 3.4% 3.9% 31.4% 31.7% 32. ソフトハ ンクク ルーフ, 32

cds_cat.indd

サラリーマンのお昼ごはん事情 に関するアンケート

DVIOUT-mem

秋田市会場最終結果一覧2.pdf

スライド 1

Ver.8 Ver 年 8 月 3 日にリオデジャネイロで開催された国際オリンピック委員会 (IOC) 総会において オリンピックにおける追加種目 (5 競技 18 種目 ) が正式に採択されたことに伴い 練習施設 ( 会場 ) に係る要件および国内競技団体連絡先

Transcription:

基礎統計 第 2 回講義資料

講義資料 テキスト 入門統計解析 倉田博史 星野崇宏, 新世社,2009. (2500 円 + 税 ) スライド資料 http://lecture.ecc.u-tokyo.ac.jp/~candoma/ 基礎統計 ( 16) にてスライド資料 (PDF ファイル )

学内の PC 端末からアクセスするには 情報教育棟にある PC 端末で Safari を起動すると 講義用 WWW サーバ をクリック 安藤先生 :( 養 ) をクリック

参考図書 : 統計処理 Excel 関連 Excel による統計入門 -Excel2007 対応版 縄田和満著, 朝倉書店. R 関連 R 初心者のための ABC A. ジュール ( 著 ) 他, シュプリンガー ジャパン. The R Tips データ解析環境 R の基本技 グラフィックス活用集, 舟尾暢男著,Ohmsha.

参考図書 : 演習 基本演習確率統計 和田秀三著, サイエンス社. 演習確率統計 洲之内治男他共著, サイエンス社. 数理統計演習 国沢清典他共著, サイエンス社.

本日の講義内容 第 2 章 :1 次元データの整理 度数分布表とヒストグラム データ分布の中心の指標 データ分布の散らばりの指標 データ分布の形状の指標 ( 発展 ) ローレンツ曲線とジニ係数 記述統計

記述統計学 集団としての特徴を記述するために, 観測対象となった各個体について観測し, 得られたデータを整理 要約する方法 観測 : 個体 : データ : 調査や実験のこと 人, もの 個体の観測値をまとめたもの 図やグラフによる方法 データの分布の様子を大雑把につかむのに適している 数値による方法 データを正確に理解する助けとなる

表やグラフによる方法 (2.1 度数分布表とヒストグラム ) 事例 : ある地区 200 世帯のある 1 ヵ月の電灯使用量 ( 単位 : kwh) 21 234 278 96 140 155 76 128 101 96 54 206 249 63 161 154 108 128 61 95 89 176 220 197 183 135 131 104 101 95 119 145 201 169 183 111 131 68 125 94 147 119 172 143 160 80 107 68 100 94 178 88 144 116 138 79 76 104 125 94 94 100 127 75 109 112 84 117 54 209 235 19 86 36 82 135 107 127 124 298 15 93 48 84 82 151 130 102 122 92 317 52 8 115 112 150 130 67 99 88 352 92 4 143 138 135 107 67 98 92 118 37 385 168 157 109 121 73 102 145 92 86 410 194 180 79 70 125 97 91 445 175 116 189 155 79 105 125 120 206 452 91 144 164 138 108 129 102 96 382 224 91 172 140 111 134 128 65 120 254 198 350 90 115 81 150 104 64 96 90 90 120 102 70 134 80 83 215 278 310 286 305 247 82 111 108 69 125 120 90 96 90 125 104 78 136 114 272 302 258 全体の分布の状況を掴みたい 度数分布表 ヒストグラム 情報の視覚化

度数分布表 電灯使用量 世帯数 累積 累積相対 ( 階級 ) 階級値 ( 度数 ) 度数 相対度数 度数 0~50 25 8 8 0.040 0.040 50~100 75 63 71 0.315 0.355 100~150 125 76 147 0.380 0.735 150~200 175 24 171 0.120 0.855 200~250 225 11 182 0.055 0.910 250~300 275 7 189 0.035 0.945 300~350 325 4 193 0.020 0.965 350~400 375 4 197 0.020 0.985 400~450 425 2 199 0.010 0.995 450~500 475 1 200 0.005 1.000 合計 200 1.000

度数分布表の作成手順 1 範囲 ( レンジ )(= 最大値ー最小値 ) を計算するレンジ = 452 ー 4 = 448 2 階級幅を決定する階級幅 =50 3 階級限界 ( 階級下限, 階級上限 ) を定める 0~50,50~100,,450~500 4 階級値を計算する 25(=(0+50)/2), 75, 125,, 475 5 各階級に入る観測値の数, すなわち階級度数を計算する 6 相対度数, 累積度数, 累積相対度数を計算する

度数分布表を読み解くポイント データの中心傾向データが集中するところからみて過半数が収まる範囲をつかむ. 平均的な傾向が分かる. 例 : 電灯使用量 50kWh 150kWh で全体の 6 割を占める. モード (mode): 度数が最大となる階級の階級値 Mo=125 データの全体のばらつきを把握する過半数 (50%), ほとんど (90%), ほとんどすべて (99%), 全体 (100%) の範囲をおさえることで特定できる. 少数の異質性を探る

ヒストグラム ヒストグラム 世帯数 80 70 60 50 40 30 20 10 0 世帯数 ( 度数 ) 0~50 50~100 100~150 150~200 200~250 250~300 300~350 350~400 400~450 450~500 電灯使用量

グラフによる表示 柱状図 ( ヒストグラム ) 度数柱状図 ( 柱状の高さ = 度数, 図 2-1,p17) 相対度数柱状図 ( 柱状の高さ = 相対度数, 図 2-2,p18) 規準化相対度数柱状図 各階級の柱の面積の合計が 1 に基準化. メリット 同じ母集団で, 標本数や階級幅の異なる度数分布を比較するとき 1 つの度数分布表において階級幅の異なる階級が含まれているとき 度数多角形 ( 離散変数の度数分布 )

ヒストグラムを読み解くポイント (1) 形状 A) 単峰性 ( 山が 1 つ ) で左右対称な形例 : 身体測定データ ( 身長など ) 中心の位置 散らばりに注目! 50%

ヒストグラムを読み解くポイント (2) B) 多峰性 ( 山が 2 つ以上 ) を示す形例 : 住宅の広さのヒストグラム 性質の異なるデータがまじりあっている場合 借家 専用住宅数 層別 持家 床面積

ヒストグラムを読み解くポイント (3) C) 非対称な形 ( 左右対称でない形 ) 例 : 電灯使用量のヒストグラム 峰が中央から左側に寄っている右側に長く裾を引く分布 右に歪んだ分布 左右対称な砂山 ( 分布 ) を右側から押したイメージ

非対称な分布の例 25 博物館の数 ( 人口 100 万人当たり, 都道府県別 ) ( 出典 : 文科省社会教育調査,2011 年度 ) 20 15 10 上位 5 県 1 位 : 長野 2 位 : 山梨 3 位 : 富山 4 位 : 島根 5 位 : 石川 5 0 0~5 5~10 10~15 15~20 20~25 25~30 30~35 35~40

ヒストグラムを読み解くポイント (4) D) 外れ値が存在する 異質なデータの存在 取り除く 影響を小さくする

事例 :2005 年度公営賃貸住宅の家賃 ( 円,1 カ月 3.3 m2 ) の都道府県別データ ( テキスト p14) 番号 都道府県名 家賃 ( 円 ) 番号 都道府県名 家賃 ( 円 ) 1 北海道 1393 25 滋賀県 1706 2 青森県 1005 26 京都府 2142 3 岩手県 1048 27 大阪府 1936 4 宮城県 1369 28 兵庫県 2079 5 秋田県 1226 29 奈良県 2543 6 山形県 1074 30 和歌山県 1352 7 福島県 1048 31 鳥取県 995 8 茨城県 1222 32 島根県 983 9 栃木県 1301 33 岡山県 909 10 群馬県 1239 34 広島県 1196 11 埼玉県 2538 35 山口県 987 12 千葉県 2771 36 徳島県 1026 13 東京都 3395 37 香川県 1163 14 神奈川県 3245 38 愛媛県 905 15 新潟県 1461 39 高知県 1019 16 富山県 1097 40 福岡県 2165 17 石川県 1247 41 佐賀県 1068 18 福井県 1134 42 長崎県 1255 19 山梨県 1266 43 熊本県 1424 20 長野県 1244 44 大分県 1162 21 岐阜県 942 45 宮崎県 1037 22 静岡県 1594 46 鹿児島県 1295 23 愛知県 2005 47 沖縄県 1382 24 三重県 1023 教科書で事例を確認してみよう!

補足 階級数 階級幅の選択階級数は多すぎても少なすぎてもよくない. 目安の一つにスタージェスの公式がある. 両端が開いた分布 ( 例 : 所得分布 ) 最初の階級の下限値, 最後の階級の上限値がない場合厳密にはヒストグラムを描けない. 最後の階級の柱の高さは適当に決めるしかない. 階級幅が異なる階級が混在する場合 ( 階級の合併 p17) データ数 10 20 30 50 100 150 200 300 500 1000 階級数 (k) 4 5 6 7 8 8 9 9 10 11 階級幅が他よりも大きいところでは, 面積が度数を反映するように高さが決められている. 相対度数柱状図

標本データの背後にある母集団を考える必要がある 事例で用いた電灯使用量データを標本データとみなすとき, いずれの母集団からの代表的標本と考えることができるか? A) ある地区のある 1 ヵ月の世帯当たりの電灯使用量 B) ある県のある 1 ヵ月の世帯当たりの電灯使用量 C) 全国のある 1 ヵ月の世帯当たりの電灯使用量 注意点 標本データの集計結果から得られた結論をどこまで一般化できるかは, 母集団の想定範囲にかかっている. 研究目的に応じた母集団の措定, 想定する母集団からの無作為抽出による標本の選択が重要.

数値による方法 (2.2 データ分布の中心の指標 ) 度数分布表 ヒストグラム (+) 視覚的にとらえやすい. (-) 階級数 ( 階級幅 ) の取り方によって印象が変わる. (-) 客観的評価がしずらい. 分布の特徴を表す基本統計量 代表値 ( 平均 中央値 ( メディアン ) 最頻値など ) 散らばり ( 分散 標準偏差 四分位偏差など )

データ 1 次の 10 個のデータを用いて, 代表値と散らばりを見ていくことにする. 1 2 3 3 4 4 4 6 9 14 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

2.2.1 平均 ( 算術平均 ) 平均 例 4 平均 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

優勝者は? 次の表は 1~6 の選手の演技を A~E の評価者が 5 点満点で採点した結果である. 評価者 A が自国の選手 1 に甘い採点をしているようだが A B C D E 1 4.9 3.8 3.9 3.7 3.9 2 3.5 3.4 3.8 3.4 3.3 3 3.3 3.2 3.6 3.3 3.2 4 3.2 4.1 4.3 4.2 3.9 5 3.4 3.3 3.4 3.2 3.1 6 3.7 3.7 3.5 3.5 3.4

算術平均 A B C D E 1 4.9 3.8 3.9 3.7 3.9 4.0 2 3.5 3.4 3.8 3.4 3.3 3.5 3 3.3 3.2 3.6 3.3 3.2 3.3 4 3.2 4.1 4.3 4.2 3.9 3.9 5 3.4 3.3 3.4 3.2 3.1 3.3 6 3.7 3.7 3.5 3.5 3.4 3.6

トリム平均 trimmed mean 調整平均とも呼ばれる. データを小さい順に並び替え, 大きい方からまた小さい方から同じ数 ( 同じ割合 ) のデータを除き, 残ったデータを用いて平均値を計算したもの. 例 :20% トリム平均 1 2 3 3 4 4 4 6 9 14 (2+3+3+4+4+4+6+9)/8=4.375

A B C D E 1 4.9 3.8 3.9 3.7 3.9 4.0 3.87 2 3.5 3.4 3.8 3.4 3.3 3.5 3.43 3 3.3 3.2 3.6 3.3 3.2 3.3 3.27 4 3.2 4.1 4.3 4.2 3.9 3.9 4.07 5 3.4 3.3 3.4 3.2 3.1 3.3 3.30 6 3.7 3.7 3.5 3.5 3.4 3.6 3.57

2.2.2 メディアン データ を大きさの順に並べ替える 順序データ 例 1 2 3 3 4 4 4 6 9 14 メディアン ( 中央値, 中位数, メジアン ) ちょうど中央に位置するデータの値 (n が奇数のとき ) (n が偶数のとき ) 例

2.2.4 平均 メディアン モードの関係 モード ( 最頻値 ) 分布の峰に対応する値, 度数分布表において, 度数が最大となる階級の階級値 例モードモード 4 4 3 2 1 メディアン 平均 分布の形状 - 右に歪んだ分布平均 メディアン モード - 左に歪んだ分布平均 メディアン モード モード メディアン 平均 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

補足 : 平均値の性質 a. 各データの平均からの偏差の和は 0 である. 逆に各データとの偏差の和を 0 とする値は平均に限る. n i 1 ( x i a) 0 a b. 各データとの偏差の 2 乗和を最小にする値は平均である. min a n i 1 ( x i a) 2 n i 1 c. 各データを一斉に a 倍して b を加えたときの平均は, もとのデータの平均を a 倍して b を加えたものに等しい. x ( x i x) 2 問題 2.2 の 2 参照 2.2.3 最小 2 乗値としての平均 参照 ax b ax b 2.2.4 単位の変換に関する公式 参照

データ分布の中心の指標 : 代表値 分布の代表値として適切さの基準 分布に含まれる各値との近さ 距離 x i t の総和 x i t の小ささ i 1 最小にする値はメディアン 距離の2 乗 t の総和 x i t の小ささ 最小にする値は平均 N x 2 i N i 1 2 ( テキスト p26)

補足 : 度数分布表から平均値を求める (p25 注 2.3) 度数 階級値 電灯使用量 階級値 度数 ( 階級 ) 0~50 25 8 200 50~100 75 63 4725 100~150 125 76 9500 150~200 175 24 4200 27150 200 = 135.75 200~250 225 11 2475 250~300 275 7 1925 原データから求めた場合は 平均 135.325 一致しない 300~350 325 4 1300 350~400 375 4 1500 400~450 425 2 850 450~500 475 1 475 合計 200 27150

2.3 データ分布の散らばりの指標 データを整理 要約する際 中心の指標のみではデータ分布を特徴付けたとはいえない. Histogram of x 0 5 10 15 20 0 10 20 30 40 0 5 10 15 Histogram of y 平均

分散 (2.3.1) と標準偏差 (2.3.2) 偏差 ( 平均値からの偏差 ) 分散 n ではなく n-1 で割った場合を不偏分散と呼ぶ 標準偏差 ( 分散の平方根 ) とも書ける 観測値と同じ測定単位で評価できる 例

平均偏差 (2.3.3) 偏差 ( 平均値からの偏差 ) 平均偏差 例

範囲と四分位偏差 (2.3.4) 範囲 例 散らばりの尺度としては粗いもの 極端に大きい ( 小さい ) 異常値の影響を受ける 例えば 1 1 2 2 2 3 3 3 4 14 Rg=14 1 = 13

範囲と四分位偏差 (2.3.4) 四分位偏差 第 1 四分位点 ( :25%) 第 2 四分位点 ( メディアン :50%) 第 3 四分位点 ( :75%) パーセンタイル (( 百 ) 分位点 ) 1 2 3 3 4 4 4 6 9 14 25% 50% 75% 例

変動係数 (2.3.5) 無名数 ( 単位の付いていない数 ) 変動係数分布の中心の位置が, 著しく異なるものを比較するのに有効 100 円の商品で値段が 10 円違うと大きい (10/100=0.1) が, 1000 円の商品で 10 円違ってもそんなに大きく感じない (10/1000=0.01). 例 : 一人当たりの県民所得 1965 年平均 26.6 万円標準偏差 7.5 万円変動係数 0.28 1975 年平均 117.5 万円標準偏差 23.8 万円変動係数 0.20 所得格差が広がったように見えるが, 平均を考慮した上で評価すると小さくなっている.

補足 : 分散の性質 データの 1 次変換 (2.3.6 単位の変換参照 ) 分散の計算 X の分散は 平均のときと同様に度数分布表から分散 ( の近似値 ) を求めることができる. 度数分布表から求めた平均 不偏標本分散

2.4 基準化変量 基準化変量 変数 x の標準偏差 偏差値得点 平均 50 点 標準偏差 10 点となるように変換したもの

2.5 データ分布の形状の指標 2.5.1 歪度 (skewness) 歪度 ( わいど ): 分布の非対称性をみる 右に歪んでいる場合 左右対称 ( 歪みのない ) の場合 左に歪んでいる場合

2.5.2 尖度 (kurtosis) 尖度 ( せんど ): データ分布が釣鐘型に近いか否かを測る指標 ( 外れ値の検出にも利用可 ) 正規分布よりも尖りが強い 正規分布と同程度 正規分布よりも尖りが弱い

2.6 ローレンツ曲線とジニ係数 1 ローレンツ曲線とは, 分配の状態を折れ線グラフで表したものであり, 分配の平等 不平等を観察することができる ( 例 : 所得の分配の不平等性を指摘するときに用いられる ). 従業者数と事業所数のデータ 1-4 人規模の事業所が 4428 千件. 全体の 68.2% 1-4 人規模の事業所で働いている人の総数 9486 千人. 全体の 19.4% すべての事業所の従業員数が等しければ対角線となる. 従業者数 (%) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 事業所数 (%)

2.6 ローレンツ曲線とジニ係数 2 ジニ係数 : 平等 不平等を 1 次元の数値で表したもの. 完全平等線 ( 対角線 ) とローレンツ曲線で挟まれた部分の 2 倍に相当する. 多数の分配の不平等性を同時に比較したいときに便利.

次回の講義内容 (4/25) 第 2 章 :1 次元データの整理 ( つづき ) 第 3 章 :2 次元データの整理 散布図 [ グラフ ] 共分散と相関係数 [ 数値 ] 回帰分析 [ 数値とグラフ ] 偏相関係数 [ 数値 ]