はじめてのデータマイニング[3]: 箱ひげ図の示すもの

Excel® 2010 を使った散布図の作成」で解説した散布図は、2変数以上の関係を読み取る際に、たいへん強力なツールとなります。しかし、すべてのデータをありのままにプロットするため、「1変数に関する全体傾向の把握」に時間を要するという弱点もあります。例えば国語と数学の得点関係を示す散布図から、「数学の試験結果には、どのような特徴がありますか?」と問われると、即座に回答することは難しいでしょう。

箱ひげ図」は、散布図の弱みを補い、散布図と協調してデータマイニングの方向性(どこを掘れば宝が出てきそうか)を示す、たいへん重要なグラフです。今回は、箱ひげ図の外観および描画に必要な統計量について理解し、箱ひげ図から何がわかるのか考えていきたいと思います。


箱ひげ図(box plot、以下BP)は、「データの散らばり具合」を示すグラフの一つで、2012年度から高等学校・数学I「データの分析」(「学習指導要領」p.54)において取り上げられるようになりました。しかし、BPには描画方法(基礎となる統計量の求め方)が複数存在するため、これが指導者の頭を悩ませる結果になったようです。

この連載記事では混乱を避けるため、「Tukey の hinge 」にもとづくBPを、「標準」として用います。これは, R の boxplot関数を使って描画するBPの、既定値でもあります。(R については、今後の連載記事で取り上げます。)

R で作成した標準BPのサンプルと、描画に必要な統計量を示したものが下の図です。図の作成には、「国語・数学・英語の試験結果」に含まれる数学の得点を用いました。

R の boxplot関数 で描画した「箱ひげ図」の解釈

R の boxplot関数 で描画した「箱ひげ図」の解釈

 

図の構成要素

BPは、幾何学的な形状を持つ「三つの部品」で構成されます: (1) 箱(2分割された長方形)、(2) 箱から上下に延びる「ひげ」(直線)、(3)  外れ値(他からかけ離れた非凡な値)を示すマーカー(図中の「○」)。

少し補足しておくと、上図のBPは「90度回転させて描く」場合もあります。その場合、上の文中の「上下」を「左右」に、「水平線」を「垂直線」に読み替えてください。また(1) については、箱に「ノッチ」と呼ぶ切れ込みを入れることがあり、形状が長方形とは異なる場合もあります。(3) については、使用するソフトウェアによって、マーカーの表示方法が異なります。

基礎となる統計量

BPを構成する部品の「位置や大きさ」を決定する統計量が、中央値・上側ヒンジ・下側ヒンジ・最大値・最小値です。これらは「分布の偏りの影響を受けづらい」性質を持っており、これが箱ひげ図の特徴にもなっています。このほか、極端に大きい(あるいは小さい)値を示す統計量として、「外れ値」を用います。

ここで、代表値(すべてのデータを代表する値)として、平均値とともによく用いる「中央値」を例に取り、「偏りに強い」根拠を示しておきましょう。
例えば、生徒5名の試験結果(100点満点)が「36, 37, 41, 46, 100」であったとします。このとき平均値は52点、中央値は41点になります(中央値の計算は下節を参照)。平均値は、極端に大きな値である「100」に引き寄せられる形になりますが、中央値はその影響を受けません。5名の得点を代表する値としては、中央値が相応しいと思いますが、あなたはどのように感じますか。

以下、五つの統計量について、計算方法の概略を述べます。

中央値

中央値(メジアン、メディアン)は、全データの中で順位的に中央(50%)に位置する値をいいます。BPにおいては、これを「箱を二分する水平線」で示します。

計算方法は次のように至ってシンプルです:

  • データが奇数個の場合には、「中間の順位」が存在するため、これが中央値となる。先の例「36, 37, 41, 46, 100」では、5名の中間は3番目なので、中央値は41になる。
  • 「36, 37, 41, 46」のように偶数個の場合、全体を二分して、値の小さなグループ「36, 37」の最大値と、値の大きなグループ「41, 46」の最小値を平均する。したがって、中央値は「(37+41)/2=39」。

上図の例ではデータ数が偶数個(44)ですので、青・オレンジのグループ内で最大値を、緑・黄のグループ内で最小値をそれぞれ求め平均します。値はいずれも82ですから、中央値は「82点」になります。

※「同一の値が多数存在する場合には、別の計算方法を用いるべき」という考え方もあります。詳細については、「中央値(Me)」などを参照してください。

ヒンジ

ヒンジ(Turkey の hinge)は、「箱」の外枠を形成する統計量です。ヒンジには「下側ヒンジ(以下、LH)」と「上側ヒンジ(UH)」があり、それぞれ「中央値以下のデータ」の中央値「中央値以上のデータ」の中央値として求めます。LH・UHともに、中央値の求め方に帰着するため、計算は容易です。

  • 「36, 37, 41, 46, 100」の場合、LHは、中央値41以下の中央値、すなわち「36, 37, 41」の中央値となり37。UHは「41, 46, 100」の中央値で46。
  • 「36, 37, 41, 46」のように偶数個の場合には、中央値は39。しかし、この値は実存しないので、LHは「36, 37」を対象に求める。結果としてLHは、「(36+37)/2=36.5」、同様にUHは「(41+46)/2=43.5」。

上図のようにデータ数が増えても、計算要領は全く同じです。LHは「青・オレンジのグループの中央値」、UHは「緑・黄のグループの中央値」として求まるので、それぞれ75・85になります。図をよく観察すれば、ヒンジの求め方を視覚的に理解できるでしょう。

ところで、ヒンジに類似した統計量として「四分位数」があります。冒頭で「BPの描画方法には複数ある」と述べましたが、その一つが四分位数にもとづく方法です。

四分位数は、値の順位にもとづき全体を4等分したとき、値の小さな方から25%、50%、75%に該当する数値です。そして、それぞれを第1四分位数(以下、Q1)、第2四分位数(Q2)、第3四分位数(Q3)と呼びます。ここで、Q2は上で述べた中央値と同義です。

データが奇数個の場合には、LH・UHとQ1・Q3はそれぞれ求め方が同じになり、二つの統計量は一致します。しかし、データが偶数個になると、Q1とQ3は中央値のように2数の平均では求まらず、比例配分の計算が必要になります。このため、LH・UHとQ1・Q3は一致しない場合が出てきます。

※偶数個のデータに対する計算方法は、「四分位数」などの資料を参考にしてください。

実際に計算してみると、データが偶数個の場合でも、Q1・Q3とLH・UHの値に大差は生じません。しかし、論文やレポートなど、学術的な文書でBPを扱う場合には、箱の描画にどのような統計量を用いたのか、明記しておく必要があります。

最大値・最小値・外れ値

最大値と最小値は、ひげの終端を定める数値です。したがって、両者とヒンジとの距離が「ひげの長さ」になります。最大値・最小値とも、普通ならあっさり求まる統計量ですが、標準BPでは、最大・最小に条件がつくため注意が必要です。

条件つきの最大・最小は次の手順で求めます。

  1. 「箱の長さ」にもとづき、暫定的なひげの終端(最大値・最小値)を求める。ここで、ひげの長さは、箱の長さ「UH-LH」の1.5倍と定義する。すると、上・下に伸びるひげの終端は、それぞれ、UH+(UH-LH)・1.5、LH-(UH-LH)・1.5となる。
  2. ひげの終端値を、実存データと照合する。「上のひげ」については、暫定的な上端以下に存在する最も大きな値を、最終的なひげの上端、すなわち最大値と定める。「下方のひげ」についても同様に、下端(最小値)を定める。

このことを、図のデータで確認してみましょう。手順1. を数学の試験結果に当てはめると、ひげの上端は 85+(85-75)・1.5=100、下端は 75-(85-75)・1.5=60 になります。これらがそれぞれ暫定的な最大値・最小値です。
次に手順2. に従い、実際のデータと照合します。暫定的最大値100以下の実存データは、98。暫定的最小値60以上の実存データは、60です。したがって、最終的な最大値・最小値は、それぞれ98・60と定まり、これらの値まで「ひげ」を伸ばします。

もし上で定めた最大・最小値の範囲外にデータが存在すれば、それは「外れ値」としてプロットされます。図では最小値の下に、59が存在しますので、これが外れ値になります。

外れ値が検出され、その発生原因があとから修正不能な人為的な過誤(計測ミスや記録ミスなど)によることが明白ならば、外れ値を除去して分析することもあります。

なお、外れ値についても、検出のアルゴリズムが複数存在します。したがって、学術文書ではどのように外れ値を検出したか、明記しておく必要があります。

箱ひげ図が示すもの

上図で示したBPの右側に、「1変数の散布図」を配置したのが下の図です。これは、BPが示す「データの散らばり具合」を、実存データと比較するために描いたものです。このような散布図をBPとともに描くことはあまりしませんが、分布傾向を読み取る上で、良い方法だと筆者は考えています。

箱ひげ図と1変数の散布図

箱ひげ図と1変数の散布図

縦方向に配置した散布図では、同一得点のデータ同士が重なり合い、一つのマーカー(●)で表示されています(外れ値59だけ、赤)ので注意してください。したがって、すべての●を数え上げても、データ総数の44に一致しません。

では、この図をもとに、「箱ひげ図から何がわかるのか」について考えてみましょう。

BPの役割は、「データの散らばり具合」の要約と可視化です。したがって、散布状況を速やかに大まかに把握できれば、その役割を果たしたことになります。

箱ひげ図の定義から、「箱」には全データの半数(25%目から75%目)が含まれます。それらのデータは、集団において中間層を形成することから、「順位的にごく普通の(一般的な)データ」、すなわち「集団を代表するデータの集まり」とみなせます。そして、箱の中で「最も一般的データを一つ挙げる」とすれば、それが全データを代表する「中央値」です。
一方、「ひげ」が示す範囲内のデータは、「集団の両極に存在するやや特殊なデータ」と見ることができます。

さて、本稿の冒頭で「数学の試験結果には、どのような特徴がありますか?」という問いかけを例示しました。これには、上で述べた内容を踏まえ、次の観点から特徴をまとめ上げ答えればよいでしょう。

  • 全データを代表する中央値(箱を分割する水平線)は?
  • 代表的データの集まり(箱の中身)は、どのような範囲にある?
  • 中央値は「代表的データの集まり」の中で、どこ位置する(分割線は箱の中でどのように偏っている)?
  • やや特殊なデータの限界値(二つのひげの終端)は?
  • 外れ値(並外れた値、特殊なデータ)は存在する?

ただし、BPを解釈する上で注意すべき点もあります。それは、「箱」や「ひげ」の範囲内に、実際のデータが(数値的に)必ずしも等間隔で散らばっているわけではない、ということです。これは右の散布図から明らかです。
BPはあくまでも要約図なので、全データを4等分した、その中身まで細かく読み取ることはできません。しかし、散布図だけを見ていても、「具体的な特徴」は簡単には見えてきません。

データマイニングでは、散布図と箱ひげ図を併せてデータを眺め、集団全体の特徴を把握することが重要です。このことをぜひ記憶にとどめてください。

今回は、BPの理論についてまとめました。次回の記事では、Excel® 2010 を使ってBPを実際に描画したいと思います。

まとめ

  • 箱ひげ図は、「データの散らばり具合」を要約して示すグラフ
  • 箱ひげ図は、幾何学的な形状を有する三つの部品で構成される: (1) 箱(2分割された長方形)、(2) 箱から上下に延びる「ひげ」(直線)、(3) 外れ値(他からかけ離れた非凡な値)を示すマーカー
  • 「Tukey の hinge」を 使った箱ひげ図では、中央値・上側ヒンジ・下側ヒンジ・最大値・最小値を使い、部品の大きさ・長さを定める
  • 箱ひげ図の描画方法は複数存在するため、学術的な文書では方法を明記する
  • データマイニングでは、箱ひげ図と散布図を併用し、互いの利点を生かしながらデータの特徴を明らかにする

ver.0.0.0-120518
ver.0.1.0-120518
ver.0.1.1-120518
ver.0.1.2-120519 
2014-01-12: アイキャッチ画像を設置

 

カテゴリー: 教育 タグ: