基本統計量の基本!平均値とメディアンについて説明します。平均値とメディアンは、集めたデータ(サンプリングしたデータ)の中心を表す基本統計量です。
平均値
例えば、ある生産工程からサンプリングし、測定したらこんなデータが取れたとしましょう。今回は、計量値です。計量値は、重さや長など測って得られる数値データのことです。
データ1:5 4 8 2 10 6
数字の羅列を見ただけでは、何もわかりませんよね。まずは、このデータの中心はどこにあるのか計算してみましょう。つまり、平均値を計算することです。平均値は次の式で表されます。
平均値=データの合計÷データの数
一般式で表すと次のようになります。
はエックスバーと読み、平均値を表す記号です。
はデータの数のことを表します。
の詳しい説明は、∑(シグマの説明)∑(シグマ)の説明を参照ください。では、データ1の平均値を求めてみましょう。
=(5+4+8+2+10+6)÷6=35÷6=5.8となります。この平均値をデータの中心を表す基本統計量と言います。
メディアン
ほかにもデータの中心を表す基本統計量があります。それはメディアンです。メディアンは
と書きます。メディアンは中央値とも言います。メディアンの定義は、データの真ん中の値です。まずは、データを小さい順に並べ、その真ん中にある値を見つければよいのです。データ1を小さい順に並べると
2 4 5 6 8 10
となり、この真ん中の値は、5と6になります。データの数が奇数であればその値をメディアンとすればよいのですが、真ん中の値が2つあるときは、その2つを足して2で割ればよいです。つまり、
=(5+6)÷2=5.5
となります。平均値=5.8、メディアン=5.5となり、だいたい同じくらいの値になったようです。しかし、次のデータの平均値とメディアンを求めてみましょう。
データ2:5 4 8 2 30 6
データを昇順に並べると2 4 5 6 8 30となり、メディアン=5.5
平均値=55÷6=9.2
明らかに差があることがわかります。データ2の中の30のように1つだけ大きなデータ(これを異常値という場合がある)が存在すると平均値はその影響を受けてしまいますが、メディアンは影響を受けません。解析の目的にもよりますが、全部のデータを使って算出した平均値はメディアンよりもそのデータの特徴をとらえています。
通常の手続きであれば、異常値をまず調査し、それを計算に入れてよいのかどうかを検討してから解析に入りますが、今回は、計算のやり方を覚えていただければ結構です。