[PR]

 前回、「科学的主張」を解釈する上での注意点を取り上げた、国際的な総合科学雑誌の「Nature」誌の「Twenty tips for interpreting scientific claims(科学的主張を解釈するための20のヒント)」[※1]という記事の前半を紹介しました。今回は後半編です。

 

 なお、ヒント1~10は、こちらのリンクを参照してください。

「科学的」主張に惑わされないためのヒント(1)

http://www.asahi.com/articles/SDI201711217705.html

 では、早速、残りのヒント11~20を紹介していきたいと思います。

 

11.Seek replication, not pseudoreplication.(偽反復ではなく、真の反復を探し求めよ)

 「pseudoreplication」とは、統計学の専門用語で、「偽反復」「擬似反復」などと訳されます。研究において、目的とするデータを収集する際には、複数回繰り返して測定することが一般的におこなわれています。なぜなら、たった一回の測定では、その値は、本当の状態を表している値なのか、偶然高くなったり低くなったりしている値なのかが区別ができません。そこで、データを「反復」して集めていくことが重要になってきます。しかし、反復してデータを集める際に、注意が必要となります。

 具体的な例として、血圧を測定することを考えてみましょう。血圧は、1日という長さで変化を見ると、昼は高くて夜は低いことがわかっています。これを日内変動といいます。また、自宅で測定すると正常範囲で、病院で測定すると血圧が高くなる人がいます。このような現象は、白衣高血圧などして知られています。つまり、同じ人で血圧を測定しても、時間や場所によって血圧が変化している。もちろん、血圧は、立っている時と寝ている時では値が違ってきます。また、腕で測るか、足で測るかによっても値が違ってきます。

 そうなると、血圧を下げる薬の効果を調べたいときに、測定する時間や場所あるいは姿勢の影響によって、薬の効果を正確に測定できない危険があります。逆に、上記の血圧の特性を悪用して、薬の効果をより良く見せかけたりすることもできてしまう可能性もあります。例えば、薬を飲む前は昼間、病院で測定し、薬を飲んだ後は深夜、自宅で測定すると、薬の効果をより大きくみせることができるかもしれません。もしかすると、薬を飲まなくても血圧が下がっている可能性だってあります。ですから、血圧を反復して測定するときには、同じ時間・場所・姿勢で測定することが重要になってきます。

 なお、この「pseudoreplication(偽反復、擬似反復)」は、環境汚染問題の分析において、データの収集(サンプリング)の際などでも重要になってきます。集められたデータは、どのような条件のもとで測定されたものなのか、注意深く見ていく必要があります。また、ごく限られた範囲でのみ繰り返し測定を行っても、全体像を把握できないという過ちを犯さないようにすることも重要です。

 

12.Scientists are human.(科学者も人間である)

 科学者も人間、つまり「人の子」ですから、権力欲、名誉欲、独占欲など様々な欲望を持っています。研究を継続的におこなうためには、資金が必要ですから、研究費獲得のために、結果をより良く見せたり、誇張したりすることがあるかもしれません。そのようなことが行き過ぎると、次のようなことが起こるのかもしれません。

 

名古屋大の論文、撤回が妥当 高血圧薬めぐる研究

http://www.asahi.com/articles/ASKCR2SLKKCRUBQU00B.html

弘前大医学部の元教授が論文不正 症例数などデータ捏造

http://www.asahi.com/articles/ASKCJ46YZKCJUBQU00N.html

 科学研究では新しい発見(新規性)が重要視される傾向にありますが、新しいものであるからこそ、その結果の正確性や信頼性については、慎重に判断すべきなのだと思います。

13.Significance is significant.(有意は有意)

 「significance(有意)」とは、統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことを指します。そして、比較したい群間差などにおいて「統計学的な有意性」を表すものとして「p値」があります。p値の「p」は、「probability(確率)」のpになります。このコラムでも図や表に、ときどき記載があったかと思います。

 少し乱暴な説明になりますが、p値は偶然によって起こる可能性がどれくらいなのかを表す尺度になります。そして、通常、「p値が0.05未満(p < 0.05)」のときに、「統計学的に有意差がある(= significance)」と論文では記載されます。薬の効果を比較した臨床試験で統計解析をおこなった結果、p値が0.05未満だったとき、薬の効果に違いがあると一般的に解釈されます。

さらに、p値についての注意事項をいくつか挙げておきます。

 ●臨床試験では2つの治療法を比較して、その治療効果に統計学的有意差があるかを検討します。しかし、治療効果に「統計学的に有意差がある」と言うことと、「臨床的に意味のある差がある」と言うことは、厳密には同じではありません。治療効果に統計学的有意差があっても臨床的には意味を成さないような僅かな差でしかないこともありえます。情報を吟味する際は、「治療効果はどれくらいか」という点にも注目してください。

 ●p値は、「『群間差がない』という仮説が正しい確率」を表しています。p = 0.01という場合、1%の確率で仮説が正しい=「群間差がない」ということになります。したがって、統計学的有意差があるということは、「『絶対』あるいは『100%』差がある」ということを意味しているわけではありません。

 ●補完代替医療の効果を検証した小規模の臨床試験では、統計学的有意差がある・なしの境界線を、一般的に用いられているP<0.05(5%)ではなく、p<0.1(10%)としている論文報告があります。それは、つまり、「統計学的有意差があるとされる条件」を作為的にゆるく設定していることを意味しています。その場合、結果の解釈は、より慎重にする必要があります。

 

14.Separate no effect from non-significance.(影響がないということと統計学的有意差がないということは別問題)

 「統計学的に有意な結果が得られなかった」ということ(例えば、p値が0.05以上)は、効果・影響がなかったということを意味しているわけではありません。「効果・影響が統計学的に検出されなかった」ということを意味しています。一般的に、小規模のサンプルを用いた研究では、本当の違いを評価するための統計学的な「検出力」を持っていない場合があります。

 例えば、1000人に1人の割合で起こるような薬剤の副作用を調べようとした時、100人を対象に調べても、副作用は確認されない可能性があり、「その薬剤は副作用を起こさない」と間違った解釈をしてしまう危険性があります。

 何を調べようとしているのか、そして、それを調べるために十分なサンプルサイズで検証をおこなっているのか、注意深く確認する必要があります。

 

15.Effect size matters. (効果の大きさが重要である)

統計学的に有意差があることと、その効果の大きさがどれくらいあるのかは別々に考える必要があります。

例えば、下の図を見てください。

写真・図版

 

 コレステロールを下げる薬を飲む前と飲んだ後の値をグラフにしたものです。どちらも、統計学的有意差をもって、血中コレステロールの値を下げています。しかし、より下げているのは、治療法Bの方になります。実際に、臨床上で重要なのは、どれくらい下げることができたのか、つまり「効果の大きさ」になります。p値は、非常に重要であることに変わりはありませんが、もう一歩踏み込んで、どれくらいの効果があったのかにも注目してみてください。

 なお、Nature誌の論文中では、次のような事例が紹介されていました。

 1990年代、疫学研究者がp値にこだわるばかりに、現実にはあまり意味のない、あるいは場合によっては誤った勧告を公衆衛生政策において打ち出してしまうことが危惧されました。そこで、疫学専門の学術雑誌の編集者らは、研究者達に統計学的有意性について使用の中止を求めたことがあったとのことです。また、最近でも、米国統計学会が、統計学的有意性やp値にこだわりすぎることへの注意喚起をプレスリリースしています[※2]。

 

16.Study relevance limits generalizations.(研究の適用可能性は一般化を制限する)

研究の適合性や妥当性は、実験がどのような条件のもとでおこなわれたのかという条件設定が重要になってきます。わかり易い例で言えば、「動物や細胞を使った実験結果を、人へ一般化することには限界がある」などです。

 

17.Feelings influence risk perception.(感情はリスク認知に影響を与える)

 リスクとは、「ある行動に伴って(あるいは行動しないことによって)、危険に遭う可能性や損をする可能性を意味する概念」とされています。そして、リスクは想定される被害の大きさと生じる確率の積で、客観的に数字で表現することができます。しかし、そのリスクを、どのように感じ取るか、認識するか(リスク認知)は、性別や年齢、その人の生い立ちや置かれた環境によって異なってきます。また、被害が稀(まれ)なことなのかどうか、被害はコントール可能なのかどうか、被害の重大性はどうなのか、など多くの要因によっても影響を受けています。

 関連する内容は、過去の連載でも取り上げました。

「感情」が認知に及ぼす影響[2017年11月9日]

http://www.asahi.com/articles/SDI201711076905.html

 なお、Nature誌の原文では、次のような例が挙げられています。

・アメリカ国民は、自宅に拳銃を所有するリスクを100倍過小評価している

・アメリカ国民は、原子炉に隣接して生活することのリスクを10倍過大評価している

18.Dependencies change the risks.(依存関係がリスクを変化させる)

 人間の体には複雑なネットワークが形成されています。最近では、人間の体を構成している一つ一つの細胞の中においても、さまざまな分子がネットワークを形成し、相互に影響を与え合っていることがわかってきています。ですから、単純にひとつの因子や、ひとつの相関関係だけを分析していると、全体像を見失い、間違った解釈をしてしまう可能性があります。

 これは、人間の体のことだけでなく、自然現象、社会・経済活動などさまざまな領域でも同じことが言えます。

 

19.Data can be dredged or cherry picked.(データは都合の良いものだけが選ばれ集められることがある)

 例えば、健康食品や健康器具などで、「これに効いた」「あれにも効いた」と経験談や体験談を目にすることがあると思います。しかし、「全然効かなかった」という声が表に出ることは、あまりありません。

 重要なのは、どれくらいの人が利用して、どれくらいの人に効果があったのか、つまり効果の割合になります。10人が「効いた」と証言したとしても、利用者が1000人いた中での10人だった場合、10/1000=1%の人にしか効果がなかったということになります。さらに、その効果の割合は、他の方法に比べて優れているのかどうかも検証しなければ、本当の意味での効果はわかりません。

 

20.Extreme measurements may mislead.(極端な測定は誤解を招く)

 都合の良いデータだけを集め、相互関係などを無視して、自分の主張に沿うように解析をおこない、結果を導き出すと、誤解を招きかねない結論に達してしまう。前述の、18、19の ヒントを足しあわせたような内容と理解してください。

 実は、補完代替医療の領域では、このような手法を用いて商品の宣伝をしている事例は数多くあります。これは、悪意を持った確信犯としておこなっている可能性が高いです。

 

 2回にわたりNature誌に取り上げられた「『科学的』主張に惑わされないための20のヒント」を紹介してきました。いきなり日常生活全てにおいて、20個全部をおこなう必要はありません。自分の頭で考え情報を吟味することは、骨の折れる作業です。ですが、情報を吟味する際に、ひとつずつでもよいので実践してみていただけたらと思います。そして、重要な決断・行動の意思決定をしなければならない時に、お役に立つことが出来れば嬉しく思います。

 

[参考文献]

※1.Sutherland WJ, et al. Policy: Twenty tips for interpreting scientific claims. Nature 2013 Nov 21;503(7476):335-7.

※2.AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES. Provides Principles to Improve the Conduct and Interpretation of Quantitative Science. March 7, 2016

https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf別ウインドウで開きます

 

<アピタル:これって効きますか?・健康・医療情報の見極め方>

http://www.asahi.com/apital/healthguide/kiku(アピタル・大野智)

アピタル・大野智

アピタル・大野智(おおの・さとし) 島根大学・教授

島根大学医学部附属病院臨床研究センター・教授。1971年浜松市生まれ。98年島根医科大学(現・島根大学医学部)卒。同大学第二外科(消化器外科)入局。補完代替医療や健康食品に詳しく、厚生労働省「『統合医療』情報発信サイト」の作成に取り組むほか、内閣府消費者委員会専門委員(特定保健用食品の審査)も務める。