平方和

データのばらつきを表す基本統計量である「(偏差)平方和」、「分散」、「標準偏差」を簡単な例を用いてわかりやすく説明していきます。平方和を説明する前にまず知ってほしい統計量があります。それは「偏差」です。偏差は、次の式で表します。

偏差=データ-平均値=

偏差は、平均値から各データがどっちの方向(プラスかマイナス)にどのくらい離れているかを表す統計量です。実際にデータ1を使って偏差を求めてみます。偏差を求める場合は、表を作成するとわかりやすいです。

データ1:2  4  5  6  8

表1 データの偏差

データ 平均 偏差
2 5 2-5=-3
4 5 4-5=-1
5 5 5-5=0
6 5 6-5=1
8 5 8-5=3
25 合計 0

偏差は、データと平均値の差です。データの数だけ偏差は存在しますので、データ1全体のばらつきを表すことはできません。「データ1のばらつきは〇である!」と言い切るために、まずは、偏差を全て足してみましょう。すると、偏差の合計は0になります(表1 データの偏差)。これは、平均値=5ですから、平均値にデータの数をかけるとデータの合計、つまり25になりますので当然の結果です。では「このデータのばらつきは0?」そんなはずはありません。そもそも偏差はマイナスになるものもありますので、偏差の合計は0になってしまいます。それを解消するため、偏差を2乗してみましょう。

表2 偏差の2乗

データ 平均 偏差 (偏差)2 (偏差)2
2 5 2-5=-3 (-3)2 9
4 5 4-5=-1 (-1)2 1
5 5 5-5=0 (0)2 0
6 5 6-5=1 (1)2 1
8 5 8-5=3 (3)2 9
25 合計 0 20

マイナスはなくなり、合計しても0にならなくなります。偏差を2乗した合計は20になりました。これを偏差平方和といいます。単に平方和ともいい、記号は(Sum of squares ラージエス)と書きます。と書くこともあります。

=(データー平均値)の2乗の合計=20

一般式で書くと次の式になります。

∑(シグマ)の意味は∑(シグマ)の説明をご覧ください。また、上記の式を変形すると次の式になります。

上記の式は少し複雑になっていますが、この式を覚えると計算が早くなるだけでなく、QC検定では、いろいろな場面で対応できますので、絶対に覚えてください。この式を言葉で表現すると次のようになります。

=データの2乗の合計ーデータの合計2乗÷データ数

データの合計は平均値を計算する過程で得られますので、データの2乗の合計を計算するだけで、平方和を得られます。計算時間を短縮するためには、この式を覚えておいたほうがよいです。

分散

平方和は、ばらつきを表す基本統計量ですが、データの数が多くなればなるほど大きくなってしまいます。例えばデータ数が違う複数のデータの集まりを比較したい場合、同じようなばらつきをもつデータの集まりであっても、データ数で平方和の大きさが左右されてしまうため都合が悪いのです。例えばこんな2つのデータの集まりの平方和を比較してみましょう。

データ1:2 4 5 6 8

データ2:2 4 5 6 8 2 4 5 6 8

データを見る限り一見ばらつきは同じくらいだろうと予測がつきますよね。しかし、平方和を計算すると全く違った値になってしまいます。

データ1の平方和=20

データ2の平方和=40

異なるデータ数の平均値やばらつきを比較する機会は結構多いと思います。例えば、2つのデータの集まりをサンプリングしたが、どちらかのデータをいくつか取り損ねたり、また、サンプリングまではよかったが、測定段階で何らかの理由により測定不能になってしまったり。こんな場合、平方和をデータ数(正確にはデータ-1)で割った分散を計算します。分散の計算式は、次の式になります。

分散=平方和÷(データー1) 一般式で書くと次の式です。

分散は、(Variance)と表現します。また、は自由度と呼びます。自由度の説明はとても複雑なので、ここでは割愛しますが、分散を求めるときは平方和をデーター1で割ることを覚えてください。では、データ1とデータ2の分散を計算してみましょう。

予測したとおり分散はデータ1とデータ2でほぼ同じような値になりました。分散もばらつきを表す基本統計量です。ちなみに、とはデータ1の分散、とはデータ2の分散のことです。

標準偏差

しかし、分散は、もとのデータを2乗して計算しているため、単位は2乗になってしまいます。つまり、重さであればg2、長さではm2です。違和感がありますよね。g2なんて単位は、専門的な分野であればひょっとして存在するのかもしれませんが、一般的にこんな単位を聞いたことがありません。また、長さを測定したのにm2のように面積になってしまうのもおかしいです。そこで分散をルートした(正式には分散の平方根を取った)標準偏差を計算します。標準偏差の式は以下になります。

標準偏差は(standard deviation スモールエス)と表現します。ではデータ1とデータ2の標準偏差を計算してみましょう。とはデータ1の標準偏差、とはデータ2の標準偏差のことです。

見た目データ1とデータ2の分散と標準偏差の値は近そうです。つまり、ばらつきは同じといってよいかもしれません。しかし、ここでデータ1とデータ2のばらつきは同じであると断言してもよいのでしょうか。標準偏差が0.1違っても製品のアウトプットに影響を与えるのであれば、もっとちゃんと確認したほうがよいです。このページでは割愛しますが、別のページでQC手法を通してそれを説明をしていきたいと思います。

以上がばらつきを表す基本統計量である(偏差)平方和、分散、標準偏差の説明です。QCを学ぶ中でまず最初につまづくところですのですが、これがわからないと次のステップに行けませんし、QC検定でも合格ラインに達しませんので、平方和、分散、標準偏差の計算方法は必ず覚えてください。特に公式は覚えてください。

続いて、変動係数を求めてみましょう。変動係数は次の計算式で算出できます。

変動係数

変動係数=標準偏差÷平均値×100(%) 一般式は、次の式で表します。

変動係数は、と表します。は標準偏差で、は平均値を表します。変動係数の意味は、標準偏差が平均値に対してどのくらの割合かを示す基本統計量になります。変動係数はパーセント(百分率)で表しますので、×100は忘れないようにしましょう。それでは、データ1とデータ2の変動係数を計算してみましょう。はそれぞれ、データ1の変動係数、データ2の変動係数のことを表します。

以上で基本統計量の話を終わります。基本統計量は、母集団よりサンプリングし、データを採取したあとに行う最も基本的な解析です。解析というより、解析を行うための計算といったほうがよいでしょう。ほかのページで、QC検定でよく出題される基本統計量の応用的な計算方法を説明しますので、ぜひ参考にしてみてください。