<因果関係と相関関係>

 前回までは、事象間の因果関係を検証する方法について話してきました。今回は、“因果関係”と“相関関係”の違いについて書きます。ぶっちゃけ言うと、原因は結果の前に来るという当たり前に思える話をします。但し、ここを注意深く認識しておく事で、データベースの扱い方やエビデンスレベルの評価、特に仮説と検証の違いに対する理解が深まっていくと思いますので、敢えてここで取り上げます。

 

 今まで『寝坊(原因)をしたから遅刻(結果)した』、『薬(原因)を飲んだから効いた(結果)』、『自分がいた(原因)からチームが勝った(結果)』という様に、全て原因が結果の先に来る、という因果律を前提に話を進めてきました。この前提の部分で何が起こっているかを確認していこうという事です。

 

 話が横道に逸れますが、“メッセージ(原作小説『あなたの人生の物語』)”という映画では、この因果律が成り立っていませんでした。また、ベイズの様に決定論的な世界観に基づくモデルでは、この因果律に対する捉え方も異なります(故に、事前確率と事後確率という観念を理論に取り込んでいる)。また、仏教の様に『結局、そんなものは無いんだよ』という世界観(例えば、般若心経)もあります。因果律が実在するかどうかは私には分かりません。しかしながら、我々が世の中のことを考えるには、この因果律に則って考えると便利なことが多いようですし、データに溢れる現代社会で生き抜く為には覚えておいて損は無いと思います。

 

 さて、本題に戻りますと、今、適度に都合の良いデータがあるとします。何でも良いのですが、30分毎の降水量のデータとカエルが鳴いたかどうかのデータがあったとします。私の子供の頃に信じていたことが正しければ、雨が降るとそれを受けてカエルが鳴きだします。この時、データを見てみます。すると、データは30分毎なので、雨が降ったと同時にカエルが鳴きだした様にデータ上は見えるかと思います。すると我々は『雨が降った(原因)からカエルが鳴いた(結果)』と常識的に考えます。では、このデータから『カエルが鳴いた(原因)から雨が降った(結果)』と判断したら間違いでしょうか?どちらもデータの見方として間違いではありません。この事は、データベース解析からわかるのは相関関係(”カエルが鳴く”と”雨が降る”がほぼ同時に起こっている)であって、因果関係までは分からないと言うことから来ています。

 

 では、前後関係をはっきりとさせるために、30分毎に取っていたデータをもっと細かくしたらどうでしょうか。つまり、1分毎とか、1秒毎とか。。。それならば、雨が先に降り、カエルがそれに続いて鳴きだす。という様に我々の常識と一致するデータが得られるかもしれません。但し、全てがそう上手く解決するかと言うと、そうとも言い切れません。例えば、仮定の話ですが、カエルに湿度や気温を感じ取り、雨が降ることを予測できる能力があり、と同時に鳴きだす習性がある。しかし、それは人類に知られていない。そんな場合はどうなるでしょうか?この場合、データ上の見掛けは、カエルが先に鳴き、続いて雨が降るかもしれません。その場合、カエルが雨を降らせたという解釈もできてしまいます。つまり、データを時間毎に細かく区切り、前後関係を考慮しつつ解析することは因果関係を探る上で役に立ちますが、それも原因と結果の関係が予め予想がついている場合だけで、それが未知の状態ではデータベースの解析から正確に解釈できるかはどうかは分からないということです。

 

 クドくなりますが、原因と結果を”正しく”判断しているのは、人間の感覚的な常識であって、データベース解析の結果そのものでは無いという事です。このことを科学に当て嵌めて考えますと、科学者が事象間の因果性の判断に使っているのは、この感覚的な常識に相当する能力、つまり過去の科学的知見から論理的に導き出された妥当な仮説(リサーチクエスチョンとも言われる)の設定能力ということが分かると思います。科学者としての感性と言っても良いと思います。

 

 キチンととした仮説があり、それを検証するのに適切なデータセットを得、適切な方法で解析し、結果を出し、適切に解釈することが科学者たる所以です。または、データセットが与えられた時、適切な方法で解析し、結果をエビデンスレベルと共に評価し、仮説として適切に解釈することです。データセットの優劣はエビデンスレベルには関係しますが、解釈というのは、あくまで科学者の感性とも言うべき論理的思考の産物なのです。

 

 昨今、多くの企業でビッグデータやAIの活用などされていると思います。私も時々、社内で相談に乗ることがあるのですが、いつも困ってしまいます。と言うのは、データの解析結果を持ってきて、『成績の良い社員は出社が早い』、『残業が多い』といった原因と結果を考えやすいものから、『営業車を使っていない』といった本当に因果関係があるものかどうかも疑わしい解析結果まで持って来られて、このデータは使えるでしょうか?または解析手法は使えるでしょうか?何に使えますか?とか、納得いく結果が出る様に条件を絞るにはどうしたら良いでしょうか?等と質問されるのです。率直に答えると『目的に依る』ですが、そういう人に限り、リサーチクエスチョンは?と訊くと、データや手法が使えるかどうか?どうやったら使えるか?という答えが返ってきて禅問答になってしまいます。

 

 AIを使おうが、ビックデータをどう解析しようが、やっていることは相関を見ているか、何らかの関数もしくは関係性が当て嵌まるか、どうかです。この仕組みを理解していれば、何に使えるか?どうやったら使えるか?は適切な質問ではありません。冷静に考えれば、自分は何をしたいか決めていません。使えるでしょうか?何に使えるでしょうか?どうやった役に立つ様に使えるか教えてください。というのは、質問になっているのでしょうか?

 

 話はだいぶ逸れましたが、相関関係から因果関係を探り当てるには、人間の感性が必要ということをお話ししました。また、情報リテラシーの面から皆様に気を付けて頂きたいのは、エビデンスベース、データに基づいていると言っても、トンデモで我田引水な主張が混じっている事が非常に多いので、主張している人の肩書きなどに騙されず、キチンと物事を判断して欲しいということです。