ヒストグラムとは

ヒストグラムとは、横軸に特性値を、縦軸には度数(データの個数)を棒グラフにして並べた図のことを言います。ヒストグラムはデータの集まり(サンプル)の平均値やばらつきを視覚的に理解するために用います。良品の範囲(規格値)をヒストグラム上に載せることで、良品または不良品の発生頻度を知ることもできます。

下の図は、ある精密部品の厚みのデータをヒストグラムにしたものです。

横軸に厚み(単位はmm)を取り、縦軸の度数というのは、データの個数のことをいいます。一番目の棒グラフにはデータが1個、2番目の棒グラフにはデータが3個入っているということです。このヒストグラムの中心くらいに引いてある点線は、このデータの平均値を表しています。また、両側に引かれた縦線は、規格値の線です。右側の線を上限規格、左側の線を下限規格といいます。上限規格と下限規格の間に入っているデータの製品は良品を示し、上限規格の右、下限規格の左にはみ出したデータの製品は不良品になります。1番目の棒グラフと7番目、8番目の棒グラフは規格線よりはみ出していますので、このヒストグラムから確実に読み取れる不良品の数は、6個ということになります。

度数表とは

上記のヒスとグラムを作成するためには、下表の度数表を作成しなければなりません。

度数表とは、各区間(の境界)に何個のデータ(度数)が入っているかを表にしたものです。区間の境界のことを級とも言います。各区間の上側境界(No.1では0.965)は次の区間の下側境界になります。区間の境界の幅(区間の幅という)はすべて同じです(上の例では0.05)。区間の幅はすべての境界で同じですので、区間の境界のNo.1(第1区間という)の下側境界の0.915さえ決めてしまえば、第2区間、第3区間は区間の幅を足していくだけです。つまり、度数表を作成するためには、区間の幅と第1区間の下側境界の値を決めてしまえば、簡単に作成することができます。

ヒストグラムの作成手順

次の例題でヒストグラムの作成手順を説明します。

例題1

次のデータは、ある精密部品の厚み(mm)のデータで、1週間の生産からランダムにサンプルを取り、測定したものです。この50個のサンプルデータをヒストグラムにして、どんなことがわかるか考えてみてください。尚、この厚みの上限規格は1.00mm、下限規格は1.20mmです。

手順1:データを取る。

データはランダムサンプリングで取りましょう。データの数は50個~100個が理想です。今回は、以下の50個データが得られたとします。

手順2:データの最大値、最小値を探す。

データを1個ずつ見ながら最大値と最小値を探す方法でもよいのですが、それだと時間がかかりますし、ミスをする可能性も高くなります。そこで、下のような方法(命名:2段式最大値・最小値探索法)で行うと効率的かつミスをする可能性を低くすることができます。

①各行の中で一番大きい(小さい)データを探し最大は〇、最小は×をマークします。

②次に行と行でマークしたデータを比較します。一番大きいデータ(一番小さいデータ)に◎(✖)をつけます。◎がついたデータが最大で、✖がついたデータが最小となります。つまり、

最大値=1.28

最小値=0.92 となります。

手順3:仮の区間の数を求める

上述したように度数表を作成するには、区間の幅と区間の境界のNo.1(第1区間という)の下側境界(小さいほうの境界値)さえ決めてしまえば、簡単に作成することができます。区間の幅を決めるには、区間の数がだいたいどのくらい必要なのかを知るとよいです。それを仮の区間の数といいます。仮の区間の数は、以下の式で求めます。

この場合、データの数は、50個ですので、

となり、区間の数は第1区間、第2区間・・・と整数値なので、小数点第1位を四捨五入して、
となります。

手順4:区間の幅を求める

次に仮の区間の数とデータの最大値、最小値を使って区間の幅を求めます。最初にデータの範囲(範囲Rの説明はこちらを参照)を求め、それを区間の数で割ると区間の幅が求まります。

ここでのポイントは、区間の幅はデータの測定単位の整数倍にまるめることです。測定単位とは、データを取った時の最小の目盛り(きざみ)のことです。今回とったデータは、1.10mm、1.12mm、1.13mmで0.01mmのきざみでデータを採取したことは推測できると思います。これをデータの測定単位といいます。区間の幅はC=0.05142…となり、割り切れません。そこで、データの測定単位0.01mmの整数倍にまるめます。つまり、小数点第3位を四捨五入します。そうすることでC=0.05と区間の幅を決めることができるのです。

手順5:区間の境界を求める

次に区間の境界のNo.1(第1区間という)の下側境界(小さいほうの境界値)、つまりスタート地点を計算します。スタート地点の式は次の式で計算できます。

なぜこのような式で計算するのかを説明するため、まず、度数表の区間の境界値の表現について説明します。

上の度数表の区間のNo.1は0.915~0.965と表現されております。こを厳密に表現すると以下の式になります。

 つまり、第1区間には、0.915より大きく0.965以下のデータを入れなさいといういみなのです。

第1区間のスタート地点は、データの最小値でよいではないかと思われるかもしれませんが、第1区間のスタート地点をデータの最小値にしてしまうと度数表のルールより、データの最小値が度数表に入らないことになります。そこで、第1区間のスタート地点は、データの最小値から少しだけ小さい値にするため、測定単位の2分の1を引いてあげるのです。

手順6:度数表を作成する

これで区間の幅と第1区間のスタート地点が決まりました。あとは、第1区間のスタート地点に区間の幅を足せば、第1区間の上側の境界値が計算できます。次に第1区間の上側の境界値が第2区間の下側境界値になり、それに区間の幅を足せば、第2区間の上側の境界値が計算できます。次に第2区間の上側の境界値が第3区間の…。計算を表にします。

これで度数表の枠がができました。

データを数える

次に度数表に入れるデータを数えます。これには少し根気と集中力が必要です。データを1つ1つ見て、どの区間にそのデータが入るのかを判断し、チェックマークを入れていきます。

上表のようにデータを1個ずつ見てどの区間に入るのかを判断し、度数表のチェック欄にチェックマークをつけていきます。チェックマークは”正”という字を使ってもかまいません。間違えず、また、効率的にできれば独自のやり方でいいと思います。

次に各区間の中央値を計算します。ヒストグラムの作成自体に中央値の計算は必須ではありませんが、中央値を算出しておくメリットはあとで説明します。第1区間の中央値は下記の式で計算できます。

第2区間以降も同様に計算すれば、各区間の中央値を計算することができます。また、次の式でも中央値を計算することができます。

第1区間の下側に区間の幅の2分の1を足してあげれば中央値は計算できます。

あとはチェックマークの数を計算し、度数に数字を入れれば度数表の完成です(下表)。

手順7:ヒストグラムを作成する

あともう少し!次にヒストグラムを作成します。次の図のように棒グラフを立てていけば完成間近です。

ここで、横軸の目盛りに注目しましょう。右から0.915、0.965、1.015・・・と小数点第3位まであり、非常に認識しにくい数字になっています。ここで度数表の中央値の登場です。度数表の第1区間は、0.915~0.965ですが、これを中央値で表現すると0.94です。桁数が1つ減りました。また、下側と上側をヒストグラム上に記載しなければならなかったのですが、中央値で表現すると0.94の1つの数字でよくなりました。中央値で表現した度数表を下図に示します。

これで横軸がすっきりし、データが読みやすくなったと思います。このように横軸に区間の値をそのまま載せると桁数が多くなり、認識しにくくなってしまうこともあります。それは度数表で区間を決める際、第1区間の下側から測定単位の2分の1を引くことにより、桁数が増えてしまうからです。それを解消するため、中央値を計算し、ヒストグラムの横軸の目盛りに使うとことをお勧めします。

最後に平均値、規格値、必要事項を記入し、ヒストグラムは完成です。

度数表から平均値と標準偏差を求める方法は別ページで紹介します。