箱ひげ図

>> Home >> 分位数 >> 箱ひげ図

1.  Excel型・高校数学型の四分位数
2.  離散分布の分位数
3.  学校四分位数
4.  PERCENTILE関数
5.  箱ひげ図

五数要約とは

データの分布をみるために,最小値,第1四分位数,中央値,第3四分位数,最大値の5つの特性値を求めることを五数要約という。 五数要約の場合,四分位数という名称であってもヒンジであることが多い。 実際,R言語では quantile() で分位数を求めることができるが, 五数要約関数 fivenum() で得られる値はヒンジになっている。

箱ひげ図とは

箱ひげ図はデータの分布をみるための図で,第1四分位数,中央値,第3四分位数等が書き込まれる。 箱の両端は第1四分位数 Q1 と第3四分位数 Q3 で,箱を区切る線は中央値 Me である。 箱の幅は四分位範囲 IQR となる。

IQR = Q3 − Q1

箱から伸びる線の長さは最大で IQR の1.5倍までとする。 つまり値が小さいほうの端は Q1 − 1.5 IQR まで, 大きいほうの端は Q3 + 1.5 IQR までである。 箱の両端から 1.5 IQR を超えるデータ値を外れ値といい,1個ずつ図に書き込む。

────┤
┌─
├──────┤
└─
 
-50510

上側の箱ひげ図では,Q1=1,Me=2,Q3=4,IQR=3 で,外れ値 10,11,12,13 をもつ。 最小値は0,最大値は13である。 下側の箱ひげ図では,Q1=−2,Me=0,Q3=2,IQR=4 で,外れ値をもたない。 最小値は−7,最大値は7である。

その他の書き方

第1四分位数・第3四分位数のかわりに,下側ヒンジ・上側ヒンジを用いる場合もある。箱の幅はヒンジ散布度になる。 また,箱の部分に平均値(算術平均値)を書き込むこともある。

箱から伸びる線の長さは 1.5 IQR までとすることが多い。箱の端から 1.5 IQR から 3 IQR の間だけ離れているものを軽度の外れ値, 箱の端から 3 IQR より離れているものを極端な外れ値という。 箱ひげ図には,軽度の外れ値と極端な外れ値で異なる記号を書き込む。

箱から伸びる線の長さを 1.5 IQR としないこともある。2パーセント値と98パーセント値まで線を伸ばしたり, 最小値と最大値まで伸ばすこともある。 高等学校の現行課程では,最小値と最大値まで線を伸ばし,外れ値を考えないことになっている。

箱ひげ図と標本数の関係

標本数が多すぎると,箱ひげ図を書くのが難しくなる。 たとえば,箱の両端から 1.5 IQR の長さの線を伸ばす場合は,外れ値が無数にできて図に書ききれなくなる。 あるいは箱の両端から最小値や最大値まで線を伸ばす場合は,極端に線が長くなったりする。 箱ひげ図は標本数があまり多くない場合に適している。

奇妙な箱ひげ図

Minitab News Letterには,奇妙な箱ひげ図の例が示されている。 大きさ6の標本 1, 9, 12, 14, 19, 79 についてMinitabの四分位数を求めると Q1=7, Q2=13, Q3=34 となる。 四分位範囲は IQR=27 で,1.5 IQR を超える外れ値は 79 のみである。 この標本において外れ値を除いた最大値は 19 であるが,その値は第3四分位数 34 より小さい。 次のような箱ひげ図ができる。

┌─┬──────
├─├──────────────────
└─┴──────
1713193479

箱の両端の値としてMinitabの四分位数(R-6の分位数)を用いる場合,標本数が4n+2で,かつQ3より大きいデータがすべて外れ値なら上のような奇妙な箱ひげ図になる可能性がある。 Excelの四分位数(R-7の分位数)を用いる場合,標本数が4nで,かつQ3より大きいデータがすべて外れ値なら上のような箱ひげ図になる可能性がある。 しかしこのような現象は外れ値を含んだ非常に小さい標本でなければ起こらないであろう。

箱の両端の値としてヒンジ(Tukeyのヒンジ,またはMoore & McCabeのヒンジ)を用いた場合は,上のような箱ひげ図はできない。

外部リンク

2012.12.12 作成 / 2015.1.29 更新

1 2 3 4 5 Home

>> Home >> 分位数 >> 箱ひげ図