データとは
QCの中でも基本中の基本、データについて説明します。
基本統計量を学ぶ前にデータの意味を理解しましょう。データというのは、「QCの思考」の1つ「事実に基づく管理」英語でいうと”Fact Control”(ファクトコントロール)といいますが、それを実現するために必要なものです。定性的(事実データのない)議論はお互いの思考レベルが合わないことが多いため、理解し合えません。
どこにでもいますよね~。重箱のすみをつつくようなことを言う上司や同僚!
もちろん、重箱のすみをつつくような上司や同僚には腹が立ちます。しかし、上げ足を取られるのは、自分自身が足らなかったと認識し、事実データ(数字)を示し、上司、同僚から上げ足を取られないようにしましょう。
「事実」とは「データ」のことです。例えば、みなさんが、上司に自分が担当している工程の問題を打ち上げるとしましょう。自分が製造担当している製品の不良がいつもより多いことを伝えたいとします。そんなとき、みなさんはどうやってその「事実」を伝えますか?
よくあるのが、
「班長、〇〇という品番で今日はいつもより不良が多いです。すぐに生産を止め、技術員に条件の見直しをしてもらったほうがいいと思います。」
という報告の仕方です。こんな報告は絶対にしないでください。なぜなら、「いつもより不良が多い」というのは、あくまで報告する人の主観、または、推測だからです。では、どのように報告すればよいのでしょうか。例えばこんな感じで報告してみてはどうですか。
「班長、〇〇という品番ですが、昨日、100個作り、不良は2個でした。今日は、100個作って10個も不良が出ています。昨日と明らかに違いますので、何か対策を打つべきだと思います。」
このように報告すると上司は、いつもより5倍も不良が多いと、その問題を認識するはずです。この時、日報のデータを見せながら話をするとベストです。この場合、「事実」というのが「100個作って10個の不良」ということです。
データには、いろいろな種類があります。下図をご覧ください。
データの種類
データは、まず、数値データと言語データに分かれます。数値データは、数字で表すデータのことです。また、言語もデータになり得ますので重要です。よくアンケート調査の最後の方に「弊社にご要望がありましたらご記入ください」という質問がありますが、ここに書かれた文章は後に言語データとして扱われ、いろいろな手法で解析されます。今回は、数値データの解析方法を説明しますので、言語データの解析方法は別の機会に説明します。
さらに数値データは、計量値、計数値、分類データ、順位データに分かれます。計量値とは、「量って得られるデータ」です。例えば、重さ、長さ、強度などで、連続的な値をとります。重さで言えば、質量が60kgとするとその次の値は、61kg、60.1kg、60.001kg、60.0001kgと無数に存在します。このような値のことを計量値といいます。
計数値は、「数えて得られる」データです。例えば、個数、件数などで、非連続的な値をとります。1個の次は2個です、2個の次は3個、とその間の値はありません。このような値のことを計数値といいます。
次に分類データです。分類データとは、血液型や男女などのデータのことで、順位データとは、その名の通り、マラソンの順位やお酒やしょうゆなどのように1級品、2級品など、データ間で優越があるときは順位データになります。
他の例です。会社の中には、いろいろな部署がありますよね。誰がどの部署に属しているかは、分類データを表します。また、会社内には、いろいろな役職がありますよね。誰がどの役職に就いているのかは、順位データになります。つまり、同じように分類をするが、優越があるのは順位データ、優越がないのは分類データになります。
今回は、データの中で最も重要で情報量が多い、計量値データを中心に解析の手法を説明します。
その前になんのためにデータを取るのか、データを取る目的とどのようにデータを取ればよいのか、データのとり方を説明します。
データを取る目的は、大きく3つある
- 解析用:何か問題があり、その問題を解決したいとき、また、解決した効果を確認したいときなどに取るデータのことです
- 管理用:日々の生産において、異常はないかなど今の生産のよい状態を維持するために取るデータのことです。
- 検査用:ある製品や材料が良いものか悪いものかを判断するために取るデータのことです。
データを取る前に目的をはっきりさせましょう。
次に「母集団」と「サンプル(標本)」について説明します。
無限母集団
生産工程から全ての製品を取り、全ての製品の特性値(後ほど説明)を測定すれば一番正確に解析できるのですが、それをするには膨大な時間とお金を浪費してしまいます。また、全てのデータということは、そのものの生産が終了するまでデータを取り続けることとなり、生産が終了してから解析していては遅いのです。そこで、我々は生産工程からいくつか抜き出すための方法とその抜き出す数を決め、これをサンプルといいますが、これらを測定し、データを取り、解析し、母集団、つまり、生産工程に処置を行います。サンプルを取る行為をサンプリングといいます。ここでいう生産工程のことは無限母集団といわれています。次のような場合もあります。
有限母集団
これは、材料などの検査に適用します。材料のロットの合格、不合格、要するによいものか悪いものかを判定するために材料のロットを母集団としてサンプリングし、測定し、データを取り、そのロットの合否を判定するときにも使われます。、ロットというのは、わかりやすく言えば1回の生産でできる量のことで、このロットは絶対量が分かっているので、有限母集団と言います。
では、母集団からサンプリングする場合、どのように行えばよいと思いますか。適当にサンプリングしてもよいでしょうか。我々は、母集団に対してアクションを起こしたいので、サンプルはできる限り母集団を代表したものであるべきです。また、できる限り楽にサンプリングしたいですよね。かたよったサンプリングは、母集団を正確に把握することができません。ランダムダンプリングという方法を用います。ランダムとは、「無作為に」という意味で、すべてのものに対して同じ確率で選ばれるようにしなければなりません。全てのものを同じ確率で選ばれるようにするため、よく、乱数表やサイコロ、エクセルでは、RAND()関数を使ったりします。今回の説明では、ランダムサンプリングの手法の説明は割愛しますが、ランダムに(無作為に、また、全てのものが同じ確率で選ばれるように)サンプリングするよう心がけてください。