<結果と相関関係にある因子イロイロ>

 今回は、前回<因果関係と相関関係>で述べた『データを時間毎に細かく区切り、前後関係を考慮しつつ解析することは因果関係を探る上で役に立ちますが、それも原因と結果の関係が予め予想がついている場合だけで、それが未知の状態ではデータベースの解析から正確に解釈できるかはどうかは分からないということ』について掘り下げてみたいと思います。

 

 また、<交絡因子という実在の怪物>の回で、『交絡因子が結果に影響するパターンはいくつかあり』という記載をしましたが、表題のごとく、交絡因子のパターンではなく、『“結果と相関関係にある因子のパターン”はいくつかあり』という表現が文脈上正しく、交絡因子はそれら相関関係にあるの因子のうちの一つと捉えるのが正確な表現だと思いますので、この場で訂正させていただきます。交絡因子を、結果と相関する因子のうちの一つと捉える利点は、ケース・コントロール研究や探索研究といった後ろ向きの研究を考える際、または、リスク因子の意味を考える際に明らかになると思います。

 

 先ずは、データベース研究を意識しつつ、お話を進めさせていただこうと思います。今、糖分を多く摂取する or 摂取しない、運動する or しない、肥満 or 肥満でない、糖尿病である or 糖尿病でない、というデータ項目を含んだデータセットを想定します。その他の項目については、本をよく読む or 読まない、持ち家がある or ない等何でも構いませんが、かなり多くの項目が網羅されている状況を想像してください。ここで、生物学的厳密さを欠いたまま仮定の話で進めさせていただきますが、糖分を多く摂取する人では、糖尿病の割合が高く、肥満の割合も高く、運動しない人の割合も高く、本をよく読む人の割合も高いというようなデータセットが得られるとします。

 

 この場合、結果と相関関係にある因子は次の5つのパターンに分けられます。すなわち、結果が更に後続の事象の原因となっているパターン①、原因と結果の間に中間因子が存在するパターン②、原因が異なる2つの結果と因果関係があるパターン③、結果に対し他の原因が存在するパターン③(これが交絡因子です)、単なる偶然により相関ができてしまうパターン⑤。これらを具体例で書くと以下になります。

 

パターン①:糖分を多く摂取する(原因)→糖尿病(結果1)→肥満(結果2)

パターン②:糖分を多く摂取する(原因)→肥満(中間因子)→糖尿病(結果)

パターン③:糖分を多く摂取する(原因)→糖尿病(結果1)、糖分を多く摂取する(原因)→  肥満(結果2)

パターン④:糖分を多く摂取する(原因1)→糖尿病(結果)、運動しない(原因2)→糖尿病(結果)(、肥満(中間因子)→糖尿病(結果))

パターン⑤:本をよく読む(原因?)→糖尿病(結果)

 

 さて我々は先述のデータセットを見ただけでは、これらパターン①から⑤のどれが本当の関係か、または①から⑤の様々な関係が混ざっているのか、どれくらい混ざっているのかは区別が付きません。ただ、別の研究で、肥満は糖尿病になりやすい(リスク因子)とか、運動不足は糖尿病になりやすい(リスク因子)とかの情報はあるかもしれません。この様な別の研究から分かる情報量は、糖尿病のようにある程度研究が進んでいる事象と、全く未知の事象では状況が違うことも頭の隅に置いといてください。

 

 準備が整いました。先ずは前向き研究で、糖分を多く摂取することが糖尿病の原因となるかを検証していきましょう。前向き研究の場合は、どうやってデータを得ることから始めますので、どの様なデータをどうやって得ていけばエビデンスレベルの高い研究ができるか?という流れで考えていきたいと思います。

 

 例のごとく、反実仮想モデルを思い出しながら考えます。糖分を多く摂取する人、糖分摂取が少ない人をそれぞれ集めてきて糖尿病になった人の割合を比較し、糖分を多く摂取した人の群で糖尿病の人が多ければ、糖分を多く摂取することは糖尿病の原因となる、と言えるでしょう。。。と、すんなりはいきません。これが成り立つのは、両方の群の人・集団が全く均一(背景因子が均一)になり、比較可能になった状態でしたね(同じ系統の実験動物を使ったり、クローン人間の集団の様な状態を思い浮かべてください)。もしくは、パターン②、④のような経路が全く存在しないことが証明されている状況です(パターン②や④が絶対にありえないことを証明するのは悪魔の証明なのであり得ない状況ですが)。

 

 今仮に、先行する研究に於いて糖分を多く摂取すると肥満になり、その肥満が糖尿病の原因になっている(パターン②もしくは④)、または運動不足が糖尿病の原因になっている(パターン④)、という事実が分かっているとします。この時、糖分を多く摂取する群に、”予め”肥満の人や運動しない人が多く含まれていたらどうでしょうか?この状況で、糖分を多く摂取することが糖尿病の原因となっているかどうかを検証しても、キチンとした評価はできませんよね?何しろ、糖分を多く摂取する群の人たちは、予め、糖尿病になりやすい人が多く入ってしまっているのですから。。。つまり、この場合、糖分を多く摂取する群の人は糖尿病に罹りやすい人が入ってしまっている(リスク因子を持つ人が多くいる)ということになります。つまり、糖分摂取の他に、糖尿病の原因となる因子(交絡因子)が混ざってしまっているために、糖分摂取と糖尿病の因果関係を検証するためには、その影響を補正して評価する必要があるということです。ですから、前向き研究を実施するとしたら、糖分の摂取データ、糖尿病かどうか、の他に、肥満であるかどうか、運動するかどうか、と言ったデータを取得し、解析時に補正を行う必要があります。

 

 以上の理由で、我々がエビデンスレベルの高い前向き研究を実施する際には、先行研究で分かっている交絡因子を調べ、それらのデータを取得し、何らかのやり方で補正をしなければなりません。今の場合ですと、糖分の摂取量と糖尿病になったかどうか、と、肥満かどうか、運動量のデータも取得することが必要ということです。その他のデータの取得についてはどうでしょうか?これは何とも言えません。読書の有無など、十中八九、糖尿病の罹患に影響しないと考えられる因子については、取得は必要でないと考えても良いと思いますが、遺伝的要因など先行研究が無くても因果関係がありそうだと考えられるものがあれば取得し、補正の必要がないかを改めてデータを確認しつつ解析を進めていくべきと考えます。

 

 この様にして、できる限り交絡している因子を補正するほどエビデンスレベルの高い検証ができます。しかしながら、先行研究で全ての因子について調べ尽くされているとは、誰も言い切れません。神のみぞ知る、ということです。また、先の遺伝的要因にしても、機能の分かっていない遺伝子が影響している可能性もあります。つまり、人類がいくら補正し尽くしても、完璧に補正し尽くしたとは言い切れません。こうした理由で、ランダマイズ化によって交絡を断ち切って行う比較研究よりもエビデンスレベルは低いと言わざるを得ません。ここが疫学研究の限界です。ただし、私見ですが、これはあくまで理論上の話です。と言いますのは、現実において、結果に対し強い影響を及ぼす交絡因子(結果と因果関係が強い因子)は大概、経験的に分かっている筈で、精密なデータを大量に取らないと検証できないような交絡因子は見逃しても実生活上、影響は殆どないと割り切れるからです。

 

 余談になりますが、現在、世界中で希少疾患などを除く大部分の薬剤の効果は、ランダマイズ化比較試験により検証され、それを元に薬剤が承認され、日本ですと保険償還の適応となります。効果が検証されたものを承認し、費用が補助されるのは論理的であり、国として当然ですよね。しかし、少し考えてみる必要があると思います。と言うのは、一般に効果を検証するまでに多くの患者さんの協力と時間を必要とするのです。ですから、効果が検証されるべき薬剤をもっと早く市場に導入すればより社会にとって有用ではないか?と考えることは自然の要求です。効果を検証し、市場に出すことは理論的には誰の目にも明らかでスッキリ線引きができるのですが、実践的にベストか?と言うとそうではないと言うことです(但し、安全性をどうするか?という問いも存在します)。

 

 昨今、Real World Evidence(RWE)をいかに薬剤の承認に取り入れていくかと言うことが盛んに議論されていますが、そういった背景があると言うことです。但し、それには論理的に越えられない壁に対して、我々の認識をどうするか?ということが問われていくと思います。詳しくは、Precision Medicineと一緒にいつかお話ができればと思っています。

 

 次に後ろ向きの解析の場合を考えてみたいと思いますが、まだまだ長くなりそうなので、次回に回させて頂きます。次回も説明しますが、交絡因子の扱いが疫学研究にとっていかに重要か、また、その扱いと解析結果の解釈には研究者のセンスが重要かということを感じていただけますと幸いです。