第23回 相関と因果とビッグデータ…関係を見抜く
企業の売り上げ規模と従業員満足度には明確に関係がある。よって、経営者が売り上げを高めたいのなら、従業員満足度を高める施策が不可欠である。
経営コンサルタントからプレゼンで、こんなメッセージとともに次のようなグラフが示されたとしたら、みなさんはどのように判断するでしょうか。
このようなプレゼンによって実際に「従業員満足度を高める施策」を導入して、そのコストにより経営が傾いてしまった企業を私は知っています。今回のテーマは「相関関係と因果関係」です。
マーガリンの使用量と離婚率に因果関係?
次のデータは非常に有名なものです。マーガリンの使用量とアメリカのメイン州の離婚率のグラフを合わせたものです。
いかがでしょうか。ほぼ同じ傾向を示していますね。では、「離婚率を減らすために、マーガリンをスーパーからなくせばいい」となるでしょうか? それは効果がないことはみなさん理解できると思います。このように「同じ傾向を示す」ものを「相関関係」と言います。そこからさらに、「原因と結果の関係になっている」と言えるものを「因果関係」と言います。
先ほどの売り上げと従業員満足度の例で言えば「従業員満足度」と「売り上げ」には同じ傾向を示す「相関関係」はありました。しかし、「従業員満足度」が「売り上げ」を押し上げる「原因」にはなっていない、つまり「因果関係」はないので、「従業員満足度」を高めても「売り上げ」には影響しないということです。
このような認識の誤りには3つの原因があります。
- (1)たまたま同じ傾向があるだけ
- (2)原因と結果を逆にとらえている
- (3)他に原因となる要素がある
離婚率とマーガリンは(1)だと言えるでしょう。
売り上げと従業員満足度に関しては(2)です。「売り上げ」を高めれば、利益が出て、福利厚生の充実感や安心感によって「従業員満足度」が高まるということですね。
(3)については有名な例が「早起き」と「年収」です。年収が高いほど早起きの割合が多いという明らかな相関関係があります。
しかし「早起きをすると年収が高い」という因果関係も「年収が高いと早起きするようになる」という因果関係もありません。ここには「年齢」という別の要素があるのです。つまり年齢が高くなると年功制度により「年収」も高くなり、生理現象として「早起き」の傾向も強くなるということです。
ビジネスの世界で必要なのは「何をすれば売れるのか」「何をすれば人が動くのか」という因果関係を見抜き、利用することです。しかし、相関関係にすぎない要素を利用しても物事は動きません。よって「相関関係」と「因果関係」を混同してしまうと大きな時間的・資金的な損失を被ることになるのです。
ビッグデータさえあれば「因果関係は考えなくてよい」?
さて、「相関関係」と「因果関係」のトピックスとして、今「ビッグデータ」が注目されています。
ビッグデータ分析では、いままでとは比べ物にならないくらいのサンプルデータを集め、分析することができます。もはや「サンプル」を超えて「すべての」データを収集して分析できる域まで達しようとしています。
そこで出てきた考え方が、「因果関係は考えなくてよい。すべてを分析するビッグデータから判明した相関関係こそ重要なのだ」というものです。「すべてのサンプルを検査した結果出てきた傾向なのだから」というのがこれまでの分析とは根本的に違うというのがその根拠です。たとえばこのような場合はどうでしょう。
「日本全国の」自動販売機のデータを調べたところ2列目の一番左が売れていることがわかった。因果関係はわからない。しかし、日本全国の自動販売機を調べたのだから、日本国内では2列目の一番左が売れると考えるべきだ。
「重要なのは因果関係ではなくもはや相関関係なのだ」というのは、メッセージとしては目を引き、良さそうですが、ビッグデータですべてを網羅していようが「相関関係」は「因果関係」とは違います。
つまり、現存するデータとしては「2列目の一番左」が一番売れているのかもしれませんが、その陳列場所自体が売り上げに貢献する力を本当に持っているのかどうかはまだわからないのです。日本国内すべての自動販売機担当者が無意識に「2列目の一番左」に売れ筋を配置している可能性が残っているからです。さきほどの(3)「他の要因が働いている可能性」のことです。
コカコーラ×ポップコーンはあくまで「候補」
たとえば、ビックデータ分析の先駆者として有名なコカコーラ社がSNSにおいてどのような場面でコカコーラが飲まれるかというビックデータ分析をしたそうです。そこで注目されたのが「ポップコーンとコカコーラが一緒に写っている投稿が多い」という情報でした。
ではコンビニでコカコーラとポップコーンをセットにすれば売れるのでしょうか? もちろん違います。ポップコーンとコカコーラはあくまで相関関係です。そこには「映画館」という要素が働いているのです。よってコカコーラ社はポップコーンをセットにして売るのではなくCMにおいて映画やテレビをみているシーンを意識させる工夫がされているのです。
ここから言えるのは、ビッグデータによって示された相関関係が因果関係と言えるわけではないということです。因果関係が、ある可能性のある候補を挙げてくれているだけです。因果関係があるかどうかは、たとえすべてを調べたビッグデータから読み取れたものであっても確認作業が必要です。
ビッグデータ分析が無意味という訳ではありません。我々が気づかなかったような「因果関係の候補」を抽出してくれるのは間違いないでしょう。そういう意味で、トライアンドエラーが比較的低コストで確認できる分野において非常に有効だといえるでしょう。
【今日から使えるロジカルシンキング】は子供向けにロジカルシンキングのスキルを身につける講座やワークショップを開講する学習塾「ロジム」の塾長・苅野進さんがビジネスパーソンのみなさんにロジカルシンキングの基本を伝える連載です。アーカイブはこちら