Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Similar documents
【指導のポイント】

Microsoft Word - lec_student-chp3_1-representative

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint ppt

経営統計学

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

データの種類とデータの分布

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

3章 度数分布とヒストグラム

Microsoft PowerPoint - 基礎・経済統計6.ppt

散布度

ビジネス統計 統計基礎とエクセル分析 正誤表

代表値

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

3章 度数分布とヒストグラム

Microsoft Word - 保健医療統計学112817完成版.docx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

第4回

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

テレビ講座追加資料1105

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft Word - nakamoto2.docx

画像類似度測定の初歩的な手法の検証

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Microsoft PowerPoint - 測量学.ppt [互換モード]

データ解析

平成 28 年度山梨県学力把握調査 結果分析資料の見方 調査結果概況 正答数分布グラフ 分布の形状から児童生徒の解答状況が分かります 各学校の集計支援ツールでは, 形状だけでなく, 県のデータとの比較もできます 設問別正答率 無解答率グラフ 設問ごとの, 正答率や無解答率が分かります 正答率の低い設

PowerPoint プレゼンテーション

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

情報工学概論

Microsoft Word - apstattext04.docx

年生 章資料の活用 ( 基本問題練習 ) 入試問題を解くための準備問題です 1 に適当なことばを入れなさい 資料のとる値のうち, 最大のものから最小のものをひいた差を ア という 度数分布表において, 資料を整理するための区間を階級といい, その幅を 3 右の表は, 生徒 人のある日の睡眠時間を,

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

基礎統計

Microsoft PowerPoint - CVM.ppt [互換モード]

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

EBNと疫学

DataAnalysisI02.pptx

Microsoft Word - スーパーナビ 第6回 数学.docx

Blue circle & gradation

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

stat-base_ppt [互換モード]

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

学習指導要領

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

<4D F736F F D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

経済統計分析1 イントロダクション

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

スライド 1

青焼 1章[15-52].indd

stat-base [互換モード]

Microsoft Word - Stattext07.doc

DVIOUT-mem

Microsoft Word - apstattext01b.docx

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Medical3

画像処理工学

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

学習指導要領

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

数値計算法

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

日心TWS

このデータは ダイアモンドの価格 ( 価格 ) に対する 評価の影響を調べるために収集されたものです 影響と考えられるものは カラット重量 カラー クラリティー 深さ テーブル径 カット 鑑定機関 の 7 つになります 特に カラット重量 カラー クラリティー カット は 4C と呼ばれ ダイヤモン

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

Microsoft Word - Stattext11.doc

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

【FdData中間期末過去問題】中学数学1年(負の数/数直線/絶対値/数の大小)

スライド 1

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

新学習指導要領における数学科 「資料の活用」および「データの分析」 で育む統計的問題解決授業

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

PowerPoint プレゼンテーション

モジュール1のまとめ

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Excel2013基礎 数式と表編集

中1数学 移行措置資料

1. 期待収益率 ( 期待リターン ) 収益率 ( リターン ) には次の二つがあります 実際の価格データから計算した 事後的な収益率 将来発生しうると予想する 事前的な収益率 これまでみてきた債券の利回りを求める計算などは 事後的な収益率 の計算でした 事後的な収益率は一つですが 事前に予想できる

統計学入門 練習問題解答集

Microsoft Word - 微分入門.doc

JAPLA研究会資料 2018/6/16

測量試補 重要事項

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

学習指導要領

Microsoft Word - 201hyouka-tangen-1.doc

学力スタンダード(様式1)

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

統計的データ解析

横浜市環境科学研究所

基礎化学 Ⅰ 第 5 講原子量とモル数 第 5 講原子量とモル数 1 原子量 (1) 相対質量 まず, 大きさの復習から 原子 ピンポン玉 原子の直径は, 約 1 億分の 1cm ( 第 1 講 ) 原子とピンポン玉の関係は, ピンポン玉と地球の関係と同じくらいの大きさです 地球 では, 原子 1

Transcription:

第2章 1 変量データのまとめ方 本章では, 記述統計の手法について説明します 具体的には, 得られたデータから表やグラフを作成し, 意昧のある統計量を算出する方法など,1 変量データのまとめ方について学びます 本章から理解を深めるための数式が出てきますが, 必ずしも, これらの式を覚える必要はありません それぞれのデータの性質や統計量の意義を理解することが重要です 円グラフと棒グラフ 1 変量質的データをまとめる方法としてよく使われるグラフは, 円グラフと棒グラフです まず, 図 2.1 に, 円グラフの例を示します これは, 学生に好きなスポーツを質問した際に得られたデータをまとめた例です 図 2.1: 円グラフの例 1変量データのまとめ方57 一方, 図 2.2.1 と図 2.2.2 の棒グラフの例は, 各項目の割合を比較するだけでなく, データの度数 ( 頻度 ) そのものを比較することができます

識編111第2 章 図 2.2.1: 棒グラフの例図 2.2.2: 棒グラフの例 ( 降順 ) 円グラフと棒グラフは, 状況に応じて使い分けます 円グラフは, 項目数がそれほど多くない場合に, 各項目の割合を比較する際に有用です 割合の大小を直感的に理解できます 一方, 各項目の度数を比較したい場合や項目数が多い場合には, 円グラフよりも棒グラフのほうが適切です 棒グラフの棒が高いものから低いものへと並ぶように, 頻度順で降順に並び替えてグラフ化することも多くの場合, 有用です このとき, その他 については, 個別に頻度を計算すると数が小さくなってしまう項目 を集めたものと考えられるので, 各項目を降順に並べ替えた後のいちばん最後に示すことが一般的です 度数分布表とヒストグラム 1 変量量的データをまとめる基本的な方法はヒストグラムであり, ヒストグラムを描くためにデータを表形式でまとめたものを度数分布表といいます 一般に, 調査や実験により得られた量的データは, そのままでは数値の羅列にすぎません まず最初に, これらの量的データがどのようにばらついているのかを調べることが必要です ここでは, ヒストグラムを用いて量的データの分布を調べる方法について説明します 2-2-1 度数分布表とヒストグラムの読み方日本人の 20 歳男性 120 人の身長 ( cm ) のデータが以下のように得られたとします 165.3 166.2 181.0 183.9 162.3 177.5 このような量的データに対しては, データの傾向をとらえるため, 表 2.1 のような度数分布表を作成します 度数分布表では, データを階級と呼ばれるいくつかのグループに分け, 22222と22212258 知

第2章各階級に含まれるデータの個数 ( 度数 ) を数えたものを表にします 各階級は, 同じ幅を持 った区間で与えられ, 階級の中心の値を階級値といいます 度数分布表を作成する手順は次 のとおりです 表 2.1: 20 歳男性身長 ( cm ) の度数分布表 階級 階級値 度数 相対度数 累積度数 累積相対度数 150 ~ 155 152.5 1 0.008 1 0.008 155 ~ 160 157.5 5 0.042 6 0.050 160 ~ 165 162.5 16 0.133 22 0.183 165 ~ 170 167.5 35 0.292 57 0.475 170 ~ 175 172.5 32 0.267 89 0.742 175 ~ 180 177.5 19 0.158 108 0.900 180 ~ 185 182.5 9 0.075 117 0.975 185 ~ 190 187.5 3 0.025 120 1 計 120 1 Step 1 データの最大値, 最小値を見つけ, データの範囲 R = 最大値 - 最小値を求める Step 2 階級値 c を決める 階級数は 10 程度に分けることが多いが, データ数に応じて c n 程度を目安として決める 1 Step 3 階級幅 w を,w R/c を目安として決める ただし w は測定単位の整数倍となるように調整する Step 4 階級を決める もっとも小さい階級の下側境界値を 最小値から測定単位の半分を引いた値 とし, ここから w ずつ加えていき, 各階級の境界値を求める このとき, 境界値が最大値 x max より大きくなるまで階級を作る Step 5 各階級をもとに, データの度数を数え, 度数分布表を作成する 度数分布表は, 各階級に含まれるデータが何個あるかという度数を表示しています また, データの総数に対する度数の割合である相対度数は, データ数が異なる複数のデータを比較する場合などに用います さらに, 度数, 相対度数それぞれの累積値を累積度数, 累積相対度数と呼び, これらの値が有効な場合もあります この度数分布表をグラフ化したものがヒ ストグラム ( 図 2.3) です 1変量データのまとめ方59 1 という記号は, だいたいそのくらいの値という大よその等号を表しています たとえば, 階級幅は切りのよい数字が望ましいので,R/c = 2.1623 のような場合,w 2.0 などとしてもよいでしょう

222222222222222識編第2 ヒストグラム章図2.3: ヒストグラムは, その形状によりデータの分布を直感的に把握することができます 特に以下の点について注目することが重要です 1. 単峰形かそうでないか : 得られたデータが一山形の分布 ( 単峰形分布 ) であるのか, 二山, またはそれ以上のピークを持つ分布 ( 多峰形分布 ) であるのかは重要な観点です ( 図 2.4) 山が複数存在する多峰形の場合には, 異なる性質を持つ複数のデータが混在している可能性があるので, その原因を探る必要があります 2. 対称かそうでないか : ヒストグラムが左右対称か非対称かは, この分布が第 7 章の検定や推定で出てくる正規分布をあてはめてよいかどうかに通じます 分布が左右非対称である場合, データの平均値が直観とは異なる値をとることもあるので注意が必要です 3. 中心位置はどこか : データの中心位置を知ることは, 統計解析における基本事項であり, ヒストグラムからおおよその中心を把握することができます 4. ばらつきはどの程度か : データの中心と同時に, データのばらつきの程度を調べることは, もっとも基本的な事項の 1 つです 後述のばらつきを測る尺度と結び付けて, 理解するとよいでしょう 5. 外れ値が存在するか : 外れ値とは, ほかの大多数のデータとかけ離れた値を持つ観測値のことをいいます ( 図 2.5) 外れ値が存在する場合には, その原因を探求してみる必要があります 外れ値が発生する原因はさまざまで, データの転記ミスといった場合もあれば, 何かしらの重大な異常が隠されている場合もあります 外れ値が生じた原因を探ることで, 重要な発見につながる可能性があります 260 知

第2章図 2.4: 一山型と二山型のヒストグラム 図 2.5: 外れ値を含むデータに対するヒストグラム データの中心を表す統計量 データからなんらかの計算により得られた値のことを統計量と呼びます 統計量にはさま ざまな種類があり, データの持つ統計的性質を定量的に測る基準となります ここでは, 統計量のなかでも, 連続データの中心位置を表す統計量について解説します 2-3-1 平均値 代表値のなかで, もっともよく用いられるのが平均値です n 個の観測値 x 1,x 2,,x n が与えられたとすると, 算術平均 x は次の式で計算されます 1変量データのまとめ方61 この算術平均は, 相加平均とも呼ばれ, 日常的にもよく用いられる平均値です ほかの種類の平均値と区別するときには算術平均と呼ばれますが, 単に平均値や平均と呼んだ場合には, この算術平均を指していることが多くあります また, 統計解析において標本平均といった場合も, この算術平均を指す場合がほとんどです 本書においても, 単に平均値という

222222222222222識編 2-3-2 中央値 ゆが平均値は, 外れ値が存在したり, 分布が片方に歪んでいると, その影響を強く受けること が知られています このような外れ値や分布の歪みに影響を受けにくい統計量として, 中央 値 ( メジアン ) があります 中央値は, データを大きさの順に並べたとき, ちょうど真ん中 にくる観測値で定義され, データが偶数個の場合は中央にくる 2 つの観測値の平均を中央値とします たとえば, 以下の 10 個のデータが与えられた場合, 中央値は (5 + 6)/2 = 5.5 となります 1 2 2 3 5 6 8 9 9 50 一方, これらのデータの平均値を計算すると,9.5 になり,50 以外のすべてのデータは平均値よりも小さいデータであることになります これは平均値が外れ値の影響を受けやすいことを示しています 中央値は, 上の例の 50が1000になっても変わらず 5.5となります 2-3-3 最頻値 度数分布のなかでもっとも度数の大きい階級の階級値を最頻値 ( モード ) といいます たとえば, 表 2.1 のデータであれば, 最頻値は 167.5cmということになります 離散データの分布であれば, もっとも頻度の高い値を特定できますが, 連続データの場合には同じ観測値が観測されないことが多いため, 通常は上記のように階級値を使うしかありません そのため, この場合の最頻値は, 度数分布表の階級の作り方により変わることを認識しておく必要があります また, 最頻値も外れ値の影響を受けにくい統計量であると言えるでしょう 2-3-4 平均値 中央値 最頻値の関係 ヒストグラムを描いたときに, 左右対称の単峰形分布であれば, 平均値, 中央値, 最頻値はほとんど値が変わりません 一方, 分布が歪んでいる場合には, 図 2.6 のようになります このグラフのように, ヒストグラムが左に偏った形状の場合, 代表値の値は, 最頻値 < 中央値 < 平均値の順番になります 逆に右に偏った形状の場合は, 最頻値 > 中央値 > 平均値となり, 平均値よりも中央値の方がデータの中心を表すのに適していると考えることもできます たとえば, 日本の社会人全体の収入の程度を把握するために, 平均年収を用いるのが妥当かどうか, という議論はよくあります 年収 5,000 万円以上という高額所得者がいる一方, マイナスの所得者はいませんから, 左右非対称の分布になります 平均年収は, 大多数の人の年収より高めに出るので, 中央値や最頻値を合わせて見るべきと言えます 第2 章場合には算術平均を意昧するものとします 262 知