<後ろ向き研究と因果関係>

 今回は前回<結果と相関関係にある因子いろいろ>の続きで、後ろ向き研究を相関関係と因果関係の観点から考えていきたいと思います。始めに探索的な解析を説明し、次にケース・コントロール研究を見ていきたいと思います。

 

 前向き研究の説明では、リサーチクエスチョンに基づいてどういったデータを取っていくか?という話をさせていただきました。今回は、予め十分なデータが取得されている状況(データベース化されている状況)を思い浮かべてください。データの内容も前回と同じものを使います。すなわち、糖分を多く摂取する or 摂取しない、運動する or しない、肥満 or 肥満でない、糖尿病である or 糖尿病でない、本をよく読む or 読まない、持ち家がある or ない、といったデータ項目を含む架空のデータセットを使います。糖分を多く摂取する人では、糖尿病の割合が高く、肥満の割合も高く、運動しない人の割合も高く、本をよく読む人の割合も高いという仮定も全く同じです。

 

 はじめに、前向き研究と、後ろ向き研究のリサーチクエスチョンを比較してみましょう。ここでは後ろ向き研究として、一番単純な探索研究を考えます。ここで、前向き研究のリサーチクエスチョンは、”糖分を多く摂取することが糖尿病の原因となるか”であり、これを検証していくのが前向き研究でした。一方、探索研究のリサーチクエスチョンは、”(データベースから)糖尿病の原因となり得る因子を探索する”というようになると思います。

 

 次に探索研究を順を追って見ていきます。今回の例では、前回用いた”糖分を多く摂取する人では、糖尿病の割合が高く、肥満の割合も高く、運動しない人の割合も高く、本をよく読む人の割合も高い”という集団を使います。そこから“糖尿病の原因となる因子”を探索する訳です。探索するには反実仮想モデルを逆に考えて、糖尿病の人とそうでない人を比較して、糖尿病の人に”有り”、そうでない人に”無い”因子が存在すればそれが糖尿病の原因となっている可能性があると考えます。

 

 やり方は簡単で、糖尿病の集団とそうで無い集団を比較して、糖尿病の集団で多く見つかる因子をリストアップすることになります。つまり相関関係にある因子を取ってきている訳です。(厳密に言うと交絡などの関連もあり100%成功するとは限りませんが、それ以外の手法はありません)

 

 その結果、糖尿病の集団では、”糖分を多く摂取する人”、”肥満の人”、”運動しない人”、”本をよく読む人”の割合が高かったとします。(前提では“糖分を多く摂取する人では、糖尿病の割合が高く、肥満の割合も高く、運動しない人の割合も高く、本をよく読む人の割合も高い”でした。糖尿病の有無で分けたらとこうなったと仮定して説明に使っているだけで、決してこのパターンが唯一無二ではありません。)

 

 この場合、”糖分を多く摂取する”、”肥満”、”運動しない”、”本をよく読む”を糖尿病の原因と考えて良いでしょうか?もう一度、以下を確認してみます。

 

パターン①:糖分を多く摂取する(原因)→糖尿病(結果1)→肥満(結果2)

パターン②:糖分を多く摂取する(原因)→肥満(中間因子)→糖尿病(結果)

パターン③:糖分を多く摂取する(原因)→糖尿病(結果1)、糖分を多く摂取する (原因)→  

      肥満(結果2)

パターン④:糖分を多く摂取する(原因1)→糖尿病(結果)、運動しない(原因2)→糖尿病  

     (結果)(、肥満(中間因子)→糖尿病(結果))

パターン⑤:本をよく読む(原因?)→糖尿病(結果)

 

 パターン①の場合、”肥満”は糖尿病の結果(糖尿病は肥満のリスク因子)であり、”肥満”は原因ではありません。また、パターン③では、”糖分を多く摂取する”ことは、糖尿病の原因であると同時に、”肥満”の原因でもあります。このパターンでは、”肥満”は糖尿病の原因とはなっていません。つまり、原因でない因子も取れてきてしまっている可能性があり、我々はデータを解析しただけでは判別できないということです。

 

 一方、この解析結果からは、パターン②における肥満の様な中間の因子、パターン④における糖分を多く摂取すること、パターン⑤における運動をしないことの様な因子も取ってくることが可能です。前向き研究の場合は、特定の原因と結果を検証しましたが、この探索研究では、相関関係を用いて原因となり得る因子を選んできているが、それら全てが糖尿病の結果になっているとは言い切れない、何故ならいくらデータ見てもパターン①から⑤のどれか分からないから、ということになります。

 

 ですから、因果関係としては、エビデンスレベルが検証研究に比べて低いものの、未知の原因候補を探すという特徴は検証研究にない特徴です。こうしたことから、研究者は自分のやるべきことは探索なのか?検証なのか?を目的に応じて使い分ける必要があります。また、探索研究の結果を検証研究の結果の様にミスリードしてはなりません。

 

 以上、2回に分けて、相関関係と因果関係の違いを、前向き研究と後ろ向き研究に絡めて説明させて頂きました。これで、今回の目的を果たした訳ですが、せっかくですのでケース・コントロール研究についても考えてみたいと思います。ただ、疫学の手法なので、関係ない人は読み飛ばしていただいても構いません。

 

 ケース・コントロール研究のリサーチクエスチョンは、前向き研究と同様、”糖分を多く摂取することが糖尿病の原因となるか”であり、これを検証したい、です。今、説明のために、結果から逆に考えてみます。すなわち、探索研究と全く同様に、糖尿病の人、糖尿病でない人をそれぞれ集めます。そして、過去に遡って原因と考える因子が原因となっているのかを検証します。やっていることは探索研究と同様、相関を求めているので、糖尿病の集団の中に、糖分を多く摂取した人の割合が糖尿病でない人の集団におけるそれよりも多ければ、糖尿病の原因と考えることができますよね。なので、研究は糖尿病であるかないか、と過去に糖分を多く取ったかそうでないか、と言うデータがあれば検証可能です。・・・・といきたいのですが、少し考える必要があります。

 

 ケース・コントロール研究では、データは取っていませんが、他のデータがどうなるか、想像しながら話を先に進めましょう。今回の検証にはパターン①の肥満のデータは、糖尿病と糖分摂取の因果関係に直接関係無いので取る必要はありません。パターン③における肥満も別の因果関係の結果なのでデータとして必要ありません。パターン⑤のように、糖尿病と糖分摂取に因果関係が無かったとしても偶然に相関関係が認められてしまうことがありますが、これはサンプル数を多くすることで防ぐことができます。このことについては<検出力は悪魔を倒せるか?>みたいなタイトルで話せればと考えています。

 

 さて、気を付けなければいけないパターン②と④における”肥満”と”運動しない”について考察してみましょう。最初の探索研究で使った前提を使います。この時、糖尿病の集団における”肥満”、”運動しない人”の割合は高いことになっていました。さて、パターン④では、”運動しない”は糖尿病の原因になっています。ということは、運動をしない人が多く含まれていると、それだけで糖尿病になる確率が高くなってしまいますよね?いわばゲタを履いている訳です。ということは、糖分摂取と糖尿病の因果関係を検証するには、”運動する” or ”運動しない”との様な糖尿病の原因となる他の因子を揃えてやる試験をする必要があります。これはパターン②における”肥満”の様に中間であっても同じです。

 

 では、その対策をどうするか?と言うことです。それには前向きの試験でやった様に、予め結果に対して原因となる因子で分かっているものを洗い出し、対処しなければなりません。一番分かり易いのは、この場合、”運動している人(または運動しない人)”の中で試験を組むなど、試験の集団を規定してしまい、結果に対して、検証すべき原因に他から邪魔が入らない様に試験を組むことです。この様にケース・コントロール研究では、患者さんの背景に気を配り、原因と結果のエビデンスを高める工夫が必要です。