超心理学終了のお知らせ
超心理学研究の最終結論
- Daryl Bem Proved ESP Is Real Which means science is broken. MAY 17, 2017,By Daniel Engber,Slate
タイトルを直訳すると、「ダリル・ベムがESPが本当だったと証明-つまり科学が壊れているということ-」みたいな感じ。ただし、ESPが実在したという結論ではない。ベムの実験手法は科学的に正しいとされていたのだが、その方法そのものが間違っていたと言うこと。つまり、科学(統計的評価法)は壊れていたので修正を余儀なくされている。当然超心理学も科学を前提としているのなら、根底から見直されなければいけない。これまでの手法はもはや使えないので、その意味で今までの超心理学は終了なのである。
この記事を一言で要約すると、「とんでもない結果が出てしまったとき、その結果に飛びつくのではなく、その実験方法に間違いがないか、きちんと確かめるべき」という基本的な考えを述べているだけ(これが意外と非常に難しい…)。たとえ、それが標準的な科学的実験方法だったとしても。おそらくこれで超心理学はとどめを刺されるだろう。しかし、諦めの悪い連中はどこにでもいるので、研究はまだまだ続くと考えられる。超心理学研究はもう30年くらい前からゾンビ化していると思っておいたほうがいい。
結局、ベムら超心理学者がこぞって多用した統計的な手法に問題があった。懐疑論者がず〜〜〜〜っと指摘してきたように、統計的有意性だけでは意味がないということがようやく認知されてきたのである。これまでも、統計評価を多用する分野の研究(たとえば心理学)は再現性が低い(再現性の危機)ことが指摘されており、バイアスの影響が懸念されていた。事ここに及んで、権威ある心理学者であるベムが、荒唐無稽な超能力の実験をすると、無視できない統計的有意性が検出され、論文が権威ある学術誌に受理されてしまった。その結果、やっと多くの専門家が、「今までの標準的な統計的手法になにかおかしな点があるのではないか?」と気付いたということである。これはひとつのパラダイムシフトだと思う。p値検定のような統計的評価は所詮人間が決めた基準である。きちんと実際の効果の大きさを測量して、その原因を論理的に説明できたとき、初めてそれは科学となる。
なぜ統計的有意性にバイアスが容易に入り込むかというと、「後付けの理由」の効果が大きい。つまり、実験終了後に実験データをどう評価するか決めると、恣意性が入り込みやすい(p-ハッキング)ということ。ところが、心理学分野では、こうした後付けの評価が2010年頃まで普通に行われていたというのである。超心理学は、統計を多用する心理学の弱点を巧みに突いて、その主張を正当化してきたのである。
今後は、実験を行う前に、どういう実験を行い、それをどう解析するか、宣言しておいてから実験を行う「open science」が主流の時代が来るかも知れない。
この結論がもたらしたもう一つの衝撃は、レイ・ハイマンとチャールズ・ホノートンが1986年に発表した共同コミュニケが、その後、30年近くにわたりまったく遵守されていなかったということである。要するに、強制力のない規律は無意味だったのである。「人間の良心」に依拠するシステムは簡単に崩壊するということ。
これまでの研究方法が間違っていたとしても、それを修正すれば心理学の研究は続けられる。しかし、超心理学は超能力がなければ成立しないので、今後は非常に苦しい状況となるであろう。
そもそも統計学とは、数が限られたサンプルから全体のだいたいの傾向を推測する手法であり、ごく微弱な効果が本当にあるかどうか判定できるような手法ではない。
以下の記事も参照。
- P-Hacher Confessions: Daryl Bem and Me Stuart Vyse、June 13, 2017、Skeptical Inquirer, 25-27
これは、当時の心理学研究者はベムも含めた皆が当たり前のようにp-ハッキングを行っていたという告白の記事である。
この記事の出版を受けてスーザン・ブラックモアが、ダリル・ベムに対してさらに批判的な記事を書いている。
- Daryl Bem and Psi in the Ganzfield Susan Blackmore、Skeptical Inquirer Volume 42.1, January/February 2018
p値の誤用(p値だけで判断してはいけない)
超心理学に限らず、一般にp値の誤用や誤解釈が多すぎるので、アメリカ統計学会ASAは2016年に以下のような声明を発表することとなった。
- "The ASA's Statement on p-Values: Context, Process, and Purpose", Ronald L. Wasserstein & Nicole A. Lazar、Pages 129-133、Accepted author version posted online: 07 Mar 2016, Published online: 09 Jun 2016
ここでは、p値の使用について、以下のような原則を挙げている。
1.データが指定された統計モデルとどの程度相容れないか、p値で示すことができる。
2.研究されている仮説が真実なのか、データがランダムチャンスのみによって生じたのか、その可能性をp値で計ることはできない。
3.p値が特定の閾値を越えたかどうかだけに基づいて、科学的な結論、ビジネスまたは政策上の決定を下してはいけない。
4.適正な推論は、完全な報告と透明性を必要とする。
5.p値または統計的有意性だけでは、効果の大きさまたは結果の重要性を測ることはできない。
6.p値だけでは、モデルや仮説について、良い程度の証拠を提供しない。
これは今さらながらごく当たり前のことを言っているだけなのだが、要するに、p値だけでは、超能力があるかどうかなど判断できないし、その効果の大きさを測ることもできないということである。つまり、超心理学のやってきたことは、統計学の乱用であり、正当化できない。ASAの結論は「どんな指標であれ、それ単独だけでは科学的論法の代わりにはならない」ということである。
再現性の危機
「再現性の危機」については以下の記事も参照。誤解のないように言っておくが、超心理学研究にも再現性はない。「再現性ないですね」と言われると、超心理学は、「いや、その解析方法では再現性ないですけど、この方法なら再現します。そのデータ群では再現性ないですけど、このようにデータ入替えたら再現します」ということを延々とやってきただけ。これは後付けの理由で評価を変えているだけであって、再現性ではない。
- HARKing, p-hacking, asterisk-seekingを助長している学術界 2017-07-27、講義のページにようこそ
HARKingとは、Hypothesizing After the Results are Knownの略語で、データを分析してみて結果を見てから、それにフィットするように仮説を作り、あたかもその仮説がデータ収集よりも先に存在していたかのように論文化していく行為である。これは科学的にみて不適切な方法である。仮説検証型のデータの収集と分析は、先に仮説があって、それを検証するために行うものだから、結果につじつまが合うように仮説を作ることは本末転倒である。もちろん、経験から帰納的に理論を導出していく方法はある。しかし、それをあたかも先に仮説を設定し、そのあとにデータを使って厳密に仮説を検証したかのように論文化していくことが問題なのである。p-hackingとは、有意なp値になるまでデータ分析を繰り返して、有意な値がでたら、それを用いて論文を書こうとする態度である。これは、小さなp値だと価値があって、そうでないp値は価値がないという前提あるいはバイアスに基づいて、価値があるp値が見つかるまで試行錯誤を繰り返すというような態度で、これも真実を追求しようとする科学的態度とは言えない。asterisk-seekingもp-hackingと同じような行為で、多くの統計分析では、有意な値にアスタリスクをつけるが、分析のときに、そればかりを探し求める態度である。科学的態度からすれば、アスタリスクがあるから重要で、ないから重要ではないということはない。Mayerらによれば、実際にジャーナルに掲載された論文で報告されているp値を収集して分布をつくると、正規分布のようなきれいな分布ではなく、ラクダのような分布になるという。つまり、p = 0.05よりも少しだけ小さな値を報告している論文が山ほどある一方で、p = 0.05よりも少しだけ大きな値を報告している論文が極端に少なく、その部分が谷になってラクダのような分布になっているのである。p = 0.05以下のものが選り分けられているか、p = 0.05以下になるようにp-hackingが行われている形跡が伺われるのである。
Meyerらは、近年のこのような状況を回避し、適切な研究、適切な報告が行われるために、いくつかの提案を出している。例えば、実証分析の厳密性・妥当性を高めるためにリサーチデザインを工夫すること、ジャーナル側として、アスタリスクや p < .05といった基準を強調しないこと、データ分析においては、p値や有意・非有意のみにこだわるのではなく、効果サイズを必ず報告すること、データから帰納的に理論や仮説を導出することは1つの研究方法として考えられるが、HARKingをしないで、素直にそのとおりに報告することなどを挙げている。
また、超能力に関する「効果サイズ」はほぼゼロであるということを付け加えておく。つまり、超能力実験に統計的有意性はあるが、実効性はない。ガンツフェルト実験などはなんの実験なのかすらもはっきりしない。
- Why Most Published Research Findings Are False John P. A. Ioannidis, Published: August 30, 2005、PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124
- Shall We Really Do It Again? The Powerful Concept of Replication Is Neglected in the Social Sciences Stefan SchmidtStefan Schmidt、June 2009Review of General Psychology 13(2):90-100、DOI10.1037/a0015108
- HARKing: Hypothesizing After the Results are Known (pdf) Norbert L. Kerr、Personality and Social Psychology Review、1998, Vol. 2, No.3, 196-217
- Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy Raymond Nickerson、July 2000Psychological Methods 5(2):241-301、DOI10.1037/1082-989X.5.2.241
- False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant (pdf) Joseph P. Simmons, Leif D. Nelson, and Uri Simonsohn、Psychological Science、22(11) 1359–1366
以下の文献では、2千人以上の心理学者を調査したところ、半数以上が問題のある研究手法を実践していたという結論になっている。
- Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling Leslie K. John, George Loewenstein, and Drazen Prelec、Psychological Science、23(5) 524–532
p値判定の問題は、例えば以下のリンクを参照。
- 72人の統計学者が連名でp値の閾値を0.05から0.005にしようと言っている。 2017年8月 6日 (日)、Fallen Physicist, Rising Engineer
- Not Even Scientists Can Easily Explain P-values By Christie Aschwanden、FiveThirtyEight
しかし、p値の閾値を変えたところで根本的な解決にはならないだろう。バイアスを排除する実験設計が重要。p値が特定の閾値を越えたかどうかだけに基づいて、科学的な結論を下してはいけない。
- Scientists rise up against statistical significance Valentin Amrhein, Sander Greenland, Blake McShane and more than 800 signatories call for an end to hyped claims and the dismissal of possibly crucial effects.、Nature 567, 305-307 (2019)
2019年3月には、「統計学的有意性」という概念自体を放棄しようというコメント(800人以上の科学者が署名)がネイチャー誌上で発表された。