2. 幹葉図数表はデータの詳細な値を知ることができますが, 一見してデータ全体の傾向を読み取るのは困難です. 一方, グラフはデータ全体の傾向を視覚的に捉えることができますが, 細かい値を知るには適していません. 幹葉図はこの両面性を備え, かつ, データの集計にも使えるという方法です. 例 次のデ

Similar documents
平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft PowerPoint ppt

散布度

第4回

Microsoft Word - lec_student-chp3_1-representative

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

経営統計学

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft Word - apstattext04.docx

1. 期待収益率 ( 期待リターン ) 収益率 ( リターン ) には次の二つがあります 実際の価格データから計算した 事後的な収益率 将来発生しうると予想する 事前的な収益率 これまでみてきた債券の利回りを求める計算などは 事後的な収益率 の計算でした 事後的な収益率は一つですが 事前に予想できる

PowerPoint プレゼンテーション

Microsoft Word - 操作マニュアル-Excel-2.doc

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft Word - ミクロ経済学02-01費用関数.doc

Microsoft Word - 保健医療統計学112817完成版.docx

学習指導要領

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

3章 度数分布とヒストグラム

EBNと疫学

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

10SS

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

C3 データ可視化とツール

3章 度数分布とヒストグラム

Microsoft Word - 微分入門.doc

スペクトルの用語 1 スペクトル図表は フーリエ変換の終着駅です スペクトル 正確には パワースペクトル ですね この図表は 非常に重要な情報を提供してくれます この内容をきちんと解明しなければいけません まず 用語を検討してみましょう 用語では パワー と スペクトル に分けましょう 次に その意

2011年度 東京大・文系数学

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

(Microsoft Word - \207U\202P.doc)

データ解析

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

学習指導要領

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

統計的手法を用いた抜き取り検査 小長井和裕 KAZUHIRO Konagai 1. はじめに 1ロット10 万本で生産したねじからサンプル 10 本を抜き取って検査を行った結果 サンプルは10 本とも全て合格だった 残りの 99,990 本のねじは全て合格か? 私はパソコンでの品質管理システム QC

Microsoft PowerPoint - 測量学.ppt [互換モード]

医用工学概論  Medical Engineering (ME)   3年前期の医用工学概論実習と 合わせ、 医療の現場で使用されている 医用機器を正しく安全に使用するために必要な医用工学(ME)の 基礎知識を習得する。

2015年度 岡山大・理系数学

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - スーパーナビ 第6回 数学.docx

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

2017年度 長崎大・医系数学

データの種類とデータの分布

3Dプリンタ用CADソフト Autodesk Meshmixer入門編[日本語版]

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft Word - 201hyouka-tangen-1.doc

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

2018年度 岡山大・理系数学

2011年度 東京工大・数学

このデータは ダイアモンドの価格 ( 価格 ) に対する 評価の影響を調べるために収集されたものです 影響と考えられるものは カラット重量 カラー クラリティー 深さ テーブル径 カット 鑑定機関 の 7 つになります 特に カラット重量 カラー クラリティー カット は 4C と呼ばれ ダイヤモン

Excel2013基礎 数式と表編集

Microsoft Word - thesis.doc

ギリシャ文字の読み方を教えてください

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

Microsoft PowerPoint - 基礎・経済統計6.ppt

グラフ 集計表導入前 売り上げ管理アプリ その都度売上状況を Excel で集計してグラフを作成していた 集計に手間がかかってしまう 毎回 最新の情報に更新しなければならない 蓄積されているデータを出力して 手作業で集計していた 2

画像処理工学

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

2017年度 千葉大・理系数学

Transcription:

小学生にもできる統計の手法 幹葉図と箱ヒゲ図 吉田一 0. はじめに 数学教室 No.603(2002 年 2 月号 ) の AMI International で Quantitative Literacy とは とい う文を書きましたが, そこで取り上げたみきはず幹葉図 Stem-and-Leaf Plot と箱ヒゲ図 Box-and-Whisker Plot について, その考え方と手法を説明します. これは 1970 年代後半から広まっている探索的データ解析 Exploratory Data Analysis (EDA) と呼ばれ る手法でよく使われる方法です.ICME などの国際会議でも, 統計の授業で子どもたちの作った作品とし て見かけることがあります. 中学生用の数学学習辞典にも載っています. つまり, 少なくない国々で, こ れらの方法は小学生にも教えられているということです. 日本での統計教育は軽視されていると言っても 言い過ぎではないでしょう. そのせいで, 伝統的な手法以外はなかなか目にする機会がないというのが実 情です. 統計を授業で扱うには, 題材のおもしろさと共に道具も重要な要素です. 小中学校の現状では道 具不足ではないか, と感じます. 1. 従来の手法の問題点量の認識は比べることから始まります. 個々の物どうしの比較のため, 量が数値化されます. 統計の原点は集団どうしの比較です. 複数の集団の比較のために平均値や標準偏差などの統計値が使われます. 集団の代表値として平均値や最頻値 Mode, 中央値 Median が使われ, バラツキを表すためには分散あるいは標準偏差が用いられます. さて, 平均の計算は足し算と割り算だけでできるので, 小学生にも可能です. 小学生ばかりではなく, 数学なんて四則計算だけで十分だと思っていたり, ルートなんか忘れてしまったおとなにも平均は計算できます. 分散を計算するには 2 乗の計算が必要で, 小学生にもできないことはないでしょう. しかし, 標準偏差を計算するには平方根の知識と計算が必要になります. だから, 集団のバラツキを数値化して比較することは, 中学生以降の教材ということになってしまいます. また, 平均値は集団から極端に外れた値によって影響を受けやすいこともよく知られた事実です. 数値からだけではなく, グラフによって視覚から判断することも大切です. しかし, ヒストグラムを発展させて, 連続的な曲線による分布グラフを描くことも中学生以降の教材です. いや, 中学校からもなくなってしまいましたし, 高校でも選択教材です. だから, 分布グラフの形によって, バラツキや歪みを判断することもできません. 箱ヒゲ図は複雑な計算なしに, バラツキや歪みを含めて, 集団どうしの比較ができる図です. ただし, データの集計の際には計算の代わりに, データを順位付け Sorting することが不可欠となります. YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 1/5

2. 幹葉図数表はデータの詳細な値を知ることができますが, 一見してデータ全体の傾向を読み取るのは困難です. 一方, グラフはデータ全体の傾向を視覚的に捉えることができますが, 細かい値を知るには適していません. 幹葉図はこの両面性を備え, かつ, データの集計にも使えるという方法です. 例 次のデータを 10 刻みで, すなわち,10 未満,10 以上 20 未満,20 以上 30 未満のように集計して みましょう. 22, 35, 15, 20, 41, 28, 9, 22, 32, 28, 17, 33 手順 (1) 縦に 0, 10, 20, 30, 40 と書きます. これが幹 stem にあたります. 幹の部分を区別するために, 幹の右側に縦線を引いておきます. (2) データの最初の数は 22 です. 幹の 20 の横に,22 の1 位の値 2を書きます. この2 が葉 leaf になります. データの 2 番目の数は 35 です. 幹の 30 の横に,35 の 1 位の値 5を書きます. (3) 以下, 同様に繰り返していきます. 幹の横に葉が並んだ図になります. (4) データを見やすくするために, 葉の部分を昇順に並べ換えます. すなわち, もうひとつ別の図をかき, 葉の部分だけを昇順に書き直すと, 幹葉図が完成します. 葉 を塗りつぶして, 図全体を左に 90 傾ければ, 度数分布グラフ ( ヒストグラム ) になります. 数字を読めば数表, 形を見ればグラフです. このように, 幹葉図は元のデータの情報を保ちながら, 視覚にもうったえることのできる図法です. 上の例では幹の部分は上から昇順に書きましたが, 下から昇順に書くこともあります. また, 幹を横に並べて, 葉を上に積み上げることもできます. このほうがヒストグラムに近くなります. でも, 白紙に左上から集計していくことを考えると, 葉を横に並べるほうが自然です. (1) (2) (3) (4) 0 10 20 30 40 0 10 20 2 30 5 40 0 9 10 5 7 20 2 0 8 2 8 30 5 2 3 40 1 0 9 10 5 7 20 0 2 2 8 8 30 2 3 5 40 1 8 8 2 5 7 2 3 9 5 0 2 1 0 10 20 30 40 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 2/5

3. 五数要約平均値を使うにしても中央値を使うにしても, そもそも集団の 代表値 をひとつの値で表してしまうことに無理があるのではないでしょうか. このように考えて, 集団の 代表値 として次の 5つの値を使うことにします. これを五数要約といいます. ただし, 集団の代表値 と言うからには, 集団 といえるだけのデータ数を持った集団を対象とします. 最小値, 下四分位値, 中央値, 上四分位値, 最大値 (Min) (Q1) (Median) (Q3) (Max) ここで, 下四分位値 Lower Quartile とは, 最小値と中央値 Median との中央の値をいい, また上四分位値 Upper Quartile とは, 中央値と最大値との中央の値をいいます. それぞれ, 下から 4 分の1 の順位にあたる値, 下から 4 分の3 の順位にあたる値であることから,Q1,Q3 という記号で表します. 中央値は Q2 です. 最大値と最小値との差はデータの範囲 Range の値になります. また, 上四分位値と下四分位値との差 Q3-Q1 を四分位数範囲といいいます. 四分位数範囲の値が小さければ, データは中央値付近に集中していることになるので, バラツキの目安の値とすることができます. 五数要約の 5つの値に範囲と四分位数範囲の 2つの値を加えて七数要約と呼ぶこともあります. 4. 箱ヒゲ図五数要約を図で表現したものが箱ヒゲ図 Box-and-Whisker Plot です. 単に Box Plot と呼ぶこともあります.Q1~Q3 の範囲を箱 Box で描き, 中央値の部分に縦線を引きます. 言い換えて,Q1~Q2 の箱と Q2~Q3 の箱を描く, といってもいいでしょう. その箱の両側,Min~Q1 および Q3~Max の範囲には線分を引きます. これがヒゲ Whisker にあたる部分です. 箱やヒゲの部分が短ければ, その間にデータが詰まっていることになりますし, 逆に長ければ, データが散在していることになります. これによりデータの分布のバラツキ具合が視覚的にわかります. また, 中央値の縦線を中心にして左右に対称ならば, データの分布も対称です. 対称でなければ, 幅の短い方にデータが偏っていることになります. これによりデータの分布の歪み具合が視覚的にわかります. このほか, 箱ヒゲ図には, 極外値 ( 集団からかけ離れた値 ) を示すように発展させた方法もあります. YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 3/5

これは, ヒゲの両端の部分では実際にはデータが散在していることが多いので, データの存在しない部分にもヒゲの線が引かれてしまうことを避けるためです. ヒゲから離れた部分に 印や 印のついた箱ヒゲ図を見かけたら, そういう手法でかかれた図です. 箱ヒゲ図は数値軸を縦方向にとり, 縦向きに描くこともできます. こうして, 横軸に時間軸を取り, 時間的な経過ごとに箱ヒゲ図を横に並べて描くと, 集団の時間的な変化を表現できる図ができます. たとえば, 下のグラフでは, 値が上昇するだけでなく, 格差も広がっていくようすがわかります. これは従来の分布グラフではなかなか表現が難しい図です. 5. 実例 これまで述べてきた方法によって, ひとつの文に含まれる文字の数を,(1) 朝日新聞の天声人語,(2) 中 教審答申の前文, とで比較してみました. (1) 朝日新聞 天声人語 623 文字 /22 文 元のデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 文字数 22 52 19 20 10 33 35 29 23 33 46 45 37 25 21 17 35 25 39 14 17 26 書き出した幹葉図 昇順に並べ換えた幹葉図 10 9 0 7 4 7 10 0 4 7 7 9 20 2 0 9 3 5 1 5 6 20 0 1 2 3 5 5 6 9 30 3 5 3 7 5 9 30 3 3 5 5 7 9 40 6 5 40 5 6 50 2 50 2 文字数の昇順に並べ換えたデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 文字数 10 14 17 17 19 20 21 22 23 25 25 26 29 33 33 35 35 37 39 45 46 52 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 4/5

五数要約 Min=10, Q1=20, Med=25.5, Q3=35, Max=52. (2) 中教審答申前文 1200 文字 /19 文 元のデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 文字数 43 69 67 75 74 83 72 33 77 84 41 54 93 28 78 28 42 96 63 書き出した幹葉図 昇順に並べ換えた幹葉図 10 10 20 8 8 20 8 8 30 3 30 3 40 3 1 2 40 1 2 3 50 4 50 4 60 9 7 3 60 3 7 9 70 5 4 2 7 8 70 2 4 5 7 8 80 3 4 80 3 4 90 3 6 90 3 6 文字数の昇順に並べ換えたデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 文字数 28 28 33 41 42 43 54 63 67 69 72 74 75 77 78 83 84 93 96 五数要約 Min=28, Q1=42, Med=69, Q3=78, Max=96. 箱ヒゲ図 ( 上段 : 朝日新聞 天声人語, 下段 : 中教審答申前文 ) 参考文献 探索的データ解析入門 渡辺洋他, 朝倉書店,1985 "Mathematics Study Dictionary" Frank Tapson, Barron's Educational Series, 1996 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 5/5