小学生にもできる統計の手法 幹葉図と箱ヒゲ図 吉田一 0. はじめに 数学教室 No.603(2002 年 2 月号 ) の AMI International で Quantitative Literacy とは とい う文を書きましたが, そこで取り上げたみきはず幹葉図 Stem-and-Leaf Plot と箱ヒゲ図 Box-and-Whisker Plot について, その考え方と手法を説明します. これは 1970 年代後半から広まっている探索的データ解析 Exploratory Data Analysis (EDA) と呼ばれ る手法でよく使われる方法です.ICME などの国際会議でも, 統計の授業で子どもたちの作った作品とし て見かけることがあります. 中学生用の数学学習辞典にも載っています. つまり, 少なくない国々で, こ れらの方法は小学生にも教えられているということです. 日本での統計教育は軽視されていると言っても 言い過ぎではないでしょう. そのせいで, 伝統的な手法以外はなかなか目にする機会がないというのが実 情です. 統計を授業で扱うには, 題材のおもしろさと共に道具も重要な要素です. 小中学校の現状では道 具不足ではないか, と感じます. 1. 従来の手法の問題点量の認識は比べることから始まります. 個々の物どうしの比較のため, 量が数値化されます. 統計の原点は集団どうしの比較です. 複数の集団の比較のために平均値や標準偏差などの統計値が使われます. 集団の代表値として平均値や最頻値 Mode, 中央値 Median が使われ, バラツキを表すためには分散あるいは標準偏差が用いられます. さて, 平均の計算は足し算と割り算だけでできるので, 小学生にも可能です. 小学生ばかりではなく, 数学なんて四則計算だけで十分だと思っていたり, ルートなんか忘れてしまったおとなにも平均は計算できます. 分散を計算するには 2 乗の計算が必要で, 小学生にもできないことはないでしょう. しかし, 標準偏差を計算するには平方根の知識と計算が必要になります. だから, 集団のバラツキを数値化して比較することは, 中学生以降の教材ということになってしまいます. また, 平均値は集団から極端に外れた値によって影響を受けやすいこともよく知られた事実です. 数値からだけではなく, グラフによって視覚から判断することも大切です. しかし, ヒストグラムを発展させて, 連続的な曲線による分布グラフを描くことも中学生以降の教材です. いや, 中学校からもなくなってしまいましたし, 高校でも選択教材です. だから, 分布グラフの形によって, バラツキや歪みを判断することもできません. 箱ヒゲ図は複雑な計算なしに, バラツキや歪みを含めて, 集団どうしの比較ができる図です. ただし, データの集計の際には計算の代わりに, データを順位付け Sorting することが不可欠となります. YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 1/5
2. 幹葉図数表はデータの詳細な値を知ることができますが, 一見してデータ全体の傾向を読み取るのは困難です. 一方, グラフはデータ全体の傾向を視覚的に捉えることができますが, 細かい値を知るには適していません. 幹葉図はこの両面性を備え, かつ, データの集計にも使えるという方法です. 例 次のデータを 10 刻みで, すなわち,10 未満,10 以上 20 未満,20 以上 30 未満のように集計して みましょう. 22, 35, 15, 20, 41, 28, 9, 22, 32, 28, 17, 33 手順 (1) 縦に 0, 10, 20, 30, 40 と書きます. これが幹 stem にあたります. 幹の部分を区別するために, 幹の右側に縦線を引いておきます. (2) データの最初の数は 22 です. 幹の 20 の横に,22 の1 位の値 2を書きます. この2 が葉 leaf になります. データの 2 番目の数は 35 です. 幹の 30 の横に,35 の 1 位の値 5を書きます. (3) 以下, 同様に繰り返していきます. 幹の横に葉が並んだ図になります. (4) データを見やすくするために, 葉の部分を昇順に並べ換えます. すなわち, もうひとつ別の図をかき, 葉の部分だけを昇順に書き直すと, 幹葉図が完成します. 葉 を塗りつぶして, 図全体を左に 90 傾ければ, 度数分布グラフ ( ヒストグラム ) になります. 数字を読めば数表, 形を見ればグラフです. このように, 幹葉図は元のデータの情報を保ちながら, 視覚にもうったえることのできる図法です. 上の例では幹の部分は上から昇順に書きましたが, 下から昇順に書くこともあります. また, 幹を横に並べて, 葉を上に積み上げることもできます. このほうがヒストグラムに近くなります. でも, 白紙に左上から集計していくことを考えると, 葉を横に並べるほうが自然です. (1) (2) (3) (4) 0 10 20 30 40 0 10 20 2 30 5 40 0 9 10 5 7 20 2 0 8 2 8 30 5 2 3 40 1 0 9 10 5 7 20 0 2 2 8 8 30 2 3 5 40 1 8 8 2 5 7 2 3 9 5 0 2 1 0 10 20 30 40 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 2/5
3. 五数要約平均値を使うにしても中央値を使うにしても, そもそも集団の 代表値 をひとつの値で表してしまうことに無理があるのではないでしょうか. このように考えて, 集団の 代表値 として次の 5つの値を使うことにします. これを五数要約といいます. ただし, 集団の代表値 と言うからには, 集団 といえるだけのデータ数を持った集団を対象とします. 最小値, 下四分位値, 中央値, 上四分位値, 最大値 (Min) (Q1) (Median) (Q3) (Max) ここで, 下四分位値 Lower Quartile とは, 最小値と中央値 Median との中央の値をいい, また上四分位値 Upper Quartile とは, 中央値と最大値との中央の値をいいます. それぞれ, 下から 4 分の1 の順位にあたる値, 下から 4 分の3 の順位にあたる値であることから,Q1,Q3 という記号で表します. 中央値は Q2 です. 最大値と最小値との差はデータの範囲 Range の値になります. また, 上四分位値と下四分位値との差 Q3-Q1 を四分位数範囲といいいます. 四分位数範囲の値が小さければ, データは中央値付近に集中していることになるので, バラツキの目安の値とすることができます. 五数要約の 5つの値に範囲と四分位数範囲の 2つの値を加えて七数要約と呼ぶこともあります. 4. 箱ヒゲ図五数要約を図で表現したものが箱ヒゲ図 Box-and-Whisker Plot です. 単に Box Plot と呼ぶこともあります.Q1~Q3 の範囲を箱 Box で描き, 中央値の部分に縦線を引きます. 言い換えて,Q1~Q2 の箱と Q2~Q3 の箱を描く, といってもいいでしょう. その箱の両側,Min~Q1 および Q3~Max の範囲には線分を引きます. これがヒゲ Whisker にあたる部分です. 箱やヒゲの部分が短ければ, その間にデータが詰まっていることになりますし, 逆に長ければ, データが散在していることになります. これによりデータの分布のバラツキ具合が視覚的にわかります. また, 中央値の縦線を中心にして左右に対称ならば, データの分布も対称です. 対称でなければ, 幅の短い方にデータが偏っていることになります. これによりデータの分布の歪み具合が視覚的にわかります. このほか, 箱ヒゲ図には, 極外値 ( 集団からかけ離れた値 ) を示すように発展させた方法もあります. YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 3/5
これは, ヒゲの両端の部分では実際にはデータが散在していることが多いので, データの存在しない部分にもヒゲの線が引かれてしまうことを避けるためです. ヒゲから離れた部分に 印や 印のついた箱ヒゲ図を見かけたら, そういう手法でかかれた図です. 箱ヒゲ図は数値軸を縦方向にとり, 縦向きに描くこともできます. こうして, 横軸に時間軸を取り, 時間的な経過ごとに箱ヒゲ図を横に並べて描くと, 集団の時間的な変化を表現できる図ができます. たとえば, 下のグラフでは, 値が上昇するだけでなく, 格差も広がっていくようすがわかります. これは従来の分布グラフではなかなか表現が難しい図です. 5. 実例 これまで述べてきた方法によって, ひとつの文に含まれる文字の数を,(1) 朝日新聞の天声人語,(2) 中 教審答申の前文, とで比較してみました. (1) 朝日新聞 天声人語 623 文字 /22 文 元のデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 文字数 22 52 19 20 10 33 35 29 23 33 46 45 37 25 21 17 35 25 39 14 17 26 書き出した幹葉図 昇順に並べ換えた幹葉図 10 9 0 7 4 7 10 0 4 7 7 9 20 2 0 9 3 5 1 5 6 20 0 1 2 3 5 5 6 9 30 3 5 3 7 5 9 30 3 3 5 5 7 9 40 6 5 40 5 6 50 2 50 2 文字数の昇順に並べ換えたデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 文字数 10 14 17 17 19 20 21 22 23 25 25 26 29 33 33 35 35 37 39 45 46 52 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 4/5
五数要約 Min=10, Q1=20, Med=25.5, Q3=35, Max=52. (2) 中教審答申前文 1200 文字 /19 文 元のデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 文字数 43 69 67 75 74 83 72 33 77 84 41 54 93 28 78 28 42 96 63 書き出した幹葉図 昇順に並べ換えた幹葉図 10 10 20 8 8 20 8 8 30 3 30 3 40 3 1 2 40 1 2 3 50 4 50 4 60 9 7 3 60 3 7 9 70 5 4 2 7 8 70 2 4 5 7 8 80 3 4 80 3 4 90 3 6 90 3 6 文字数の昇順に並べ換えたデータ No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 文字数 28 28 33 41 42 43 54 63 67 69 72 74 75 77 78 83 84 93 96 五数要約 Min=28, Q1=42, Med=69, Q3=78, Max=96. 箱ヒゲ図 ( 上段 : 朝日新聞 天声人語, 下段 : 中教審答申前文 ) 参考文献 探索的データ解析入門 渡辺洋他, 朝倉書店,1985 "Mathematics Study Dictionary" Frank Tapson, Barron's Educational Series, 1996 YOSHIDA Hajime, 2002, 数学教育協議会会員誌 研究と実践 ( 一部改稿 ) 5/5