トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

書評:The Conscious Universe

「Skeptic's Dictionary」のRobert T. Carrollによる書評は以下のリンクを参照。(パート13まである)

I. J. Goodによる書評

この本に関しては、バージニア工科大学のI. J. Good教授による批判的な書評「十億兆はどこへいった?」が1997年のNature誌に掲載されている。(文献9) この書評の全文はNICK HERBERT氏のサイトで読める。その内容は、統計的なデータ解析に対する批判であって、素人が読んでもよくわからない。おもに批判されているのは、1882年から1983年にかけて行われたESPのカード・テストに関する186件の論文についての分析である。

ラディンはメタ解析の結論で、偶然でこのようなことが起こる確率は十億兆分の1であり、(P値が10の-21乗、これは標準偏差の9.5倍(9.5σ)に相当する)この統計的有意性を無効にするには、1つの研究報告につき3300報の報告されていない失敗だった研究が必要だと主張している。このような「報告されていない失敗」の効果を「お蔵入り効果」(引き出しにしまい込まれた効果、「file-drawer effect」)と呼ぶ。

Goodは3300報という数字は過大評価であり、本当は15報(もしくは8報)程度だろうとしている。186件の論文で、400万回のカード実験が行われていたとすると、報告されていない実験も合わせると全実験数は16倍の6400万回程度になる。すると、9.5σは1/4の2.4σになり、この時のP値は1/100となる。実験回数があまりにも大きいので、このP値はヌル仮説(ESPはない)を指示する、というのがGoodの主張。(正直、これだけではどちらの主張が正しいのかよくわからない…)

これに対し、ラディンと、超常現象を信奉する理論物理学者のブライアン・ジョゼフソン氏は、抗議の手紙をNature誌に送っている。二人の手紙の内容はジョセフソンのサイトの「超心理学の本に対するNature誌の根拠のない批判」で読める。ラディンの抗議の一部はNature誌に訂正(Vol.392, p.564, 1998)として掲載された。しかし、ラディンらが反論したかったのはGoodの計算についてであったが、Nature誌が掲載したのは、HanselとRadinの名前を取り違えたという誤植の訂正だけであった。

「お蔵入り効果」についての補足

「お蔵入り効果」とは「出版バイアス」(publication bias)から生じる問題のことである。出版バイアスとは、科学論文において、著者の主張に肯定的な実験結果のみが報告され、有意性のない結果(もしくは否定的な結果)は無視される傾向のことを指す。つまり、論文で報告される結果は、ある程度著者の都合のいいように誇張されているということ。どんな研究でも出版バイアスの影響は避けられないと考えられる。なぜなら、研究者は説得力のあるきれいな結果しか見せないのが普通だからだ。ノイズの多い汚いデータを積極的に見せたがるような研究者はいない。この問題は医薬品や社会科学などの統計的手法をよく用いる分野では特に深刻で、メタ解析meta-analysis)の結果も影響を受ける。超心理学においても当然出版バイアスの影響はあるだろう。

出版バイアスによって、出版されなかった実験結果のことを「お蔵入りしたデータ」 (file drawerにしまいこまれたデータ)と呼ぶ。ラディンは、超心理学研究で得られた統計的に有意な結果を無効化するには、どれくらい「お蔵入りデータ」があればいいのか?という値の推定を行っている。その結果、莫大な量の「お蔵入りデータ」がなければ、得られた結果を無効化できないので、結果の有意性は否定できないと主張している。

しかし、推定はあくまで推定にすぎない。「お蔵入りデータ」の量Nを推定し、出版された結論の有意性を検証することを「fail-safe file‐drawer」(FSFD)法と呼ぶ。(文献27、フェイルセーフN法などとも呼ばれる) ところが、Nの値はその推定方法自体に大きく依存するので、こうした解析には批判がある。この方法を開発したのはR. Rosenthalであるが、RosenthalのNの算出方法自体に間違いがあると指摘する論文『出版バイアス:科学的推論における「お蔵入り」問題: 』(文献28)がある。この論文の要旨の一部を抜粋しておく。

出版バイアスに関するほとんどすべての定量的な合理的モデルにおいて、お蔵入りしたごく少数の研究は深刻なバイアスをもたらす。この結論は、社会学、医学、超心理学研究において広く利用されている、出版バイアスの損害範囲を推定する良く知られたfail-safe file‐drawer(FSFD)法を否定する。この方法は不正確に「お蔵入り」をバイアスなしとみなし、出版バイアスの深刻さをほとんどいつも誤って推定する。

この論文では、ラディンの著書「The Conscious Universe」についても以下のように批判している。

これは私の意見だが、ここで示された理由により、これらの値は無意味であり、統合された研究から得られた肯定的な結果は、出版バイアスのせいであるかもしれない。

また、出版バイアスとメタ解析に関する専門書「Publication Bias in Meta-analysis」(文献27)の第7章においても、FSFD法が取り上げられ批判されている。そのキーポイントの一部を引用しておく。

  • 利用可能なフェイルセーフN法は、幅広く変動する追加の研究数の推定値をもたらし、その結果、出版バイアスが総説の結果に対する脅威となりうるかどうかの予想にも大きな違いをもたらす。
  • 概念上魅力的で比較的簡便に利用できるRosenthalのフェイルセーフN値は、間違った解釈や誤って利用される傾向にあり、その値を解釈するにあたって、統計的な基準もない。
  • より有益な解析法を支持し、フェイルセーフN値は放棄すべきである。

M. M. Pedersenによる書評

また、「SkepticReport」でも、M. M. Pedersenなる人物が書いた、この本に関する批判的な書評(けっこう長い)を読むことができる。(文献13) Pedersen氏は一般の懐疑論者だそうだが、本もきちんと読んでいるようで、かなり細かい批判をしている。しかし、ちょっと言いすぎと思われるような部分もある。ここでは、彼の主張を裏付けるような文献などがあれば、そのつど紹介しつつ、彼の書評を見ていこう。

ラディンの考え方

Pedersen氏のラディンに対する第一印象はあまりよくない。その理由の1つは、ラディンがハロルド・パソフを彼にとっての「理想の研究者」として挙げているからだ。パソフはリモート・ビューイングユリ・ゲラーに関する論文をNature誌に掲載させた人物である。ラディンは次のように述べている。(文献15、p.240)

ゲラーやランディが行ったことに関しては、この本で述べない。それらはサイの科学的評価には無価値なものなので、どちらが行った実験も何一つメタ解析で検証された数千の研究には含まれていない。

ところが、ラディンが理想とするパソフの研究の中心的存在の1つがゲラーだったのである。さらにラディンがもう一人理想の研究者として挙げているエドウィン・メイはジョー・マクモニーグルの研究を行っていた人物である。

この本で、ラディンはJ. B. RhineのESPカードの研究を何度か挙げているが、ロバート・パークの「わたしたちはなぜ科学にだまされるのか」(文献7)で次のような記述があることをPedersenは指摘している。

驚いたことに、ラインの平均値算出法はあきらかに誤っていた。ラインは、被験者がわざとまちがえたのではないかと疑惑を感じた得点を無視し、統計から除外していたのである。ラインは「自分をきらう被験者が、意地悪くカードの模様をわざとまちがえて推測した」と思いこみ、その得点を統計に加えると結果に誤りが生ずると判断したのだ。だが、なぜ被験者がわざとまちがえたことがラインにわかるのだろう?

 「偶然では片付けられないほど、被験者の得点が低かったから」と、ラインは主張した。ラインにとって、ESP実験における異常に低い得点は、被験者の悪意をしめすものだった。ところが、異常に高い得点は、ESPの存在を証明するというのである。

この記述はアーヴィング・ラングミュアIrving Langmuir)が1934年にデューク大学のライン(Rhine)を訪問したときの体験に基づいている。ラングミュアは、ジェネラル・エレクトリック社のKnolls研究所で1953年12月18日に行なった「病的科学:科学でないものについての科学」という講演の中でこの体験を述べている。プリンストン大学のKenneth Steiglitz教授の「PATHOLOGICAL SCIENCE」(文献22)で、その講演内容を見ることができる。このうち、ラインについて述べている箇所は「Extrasensory Perception」である。

もちろんラングミュアは20年近く前の自分の体験に基づいて発言しているので、実際にその記憶がどこまで正確なのかは誰にもわからない。

Pedersenによると、こうした批判に対するラディンの態度は次のようなもの(文献15、p.218)である。

実験者がいくつかの不正を犯した分野において、科学的な主張を放棄しなくてはならないとすると、人間の行いにはインチキがつきものなので、事実上、すべての科学分野を放棄しなくてはならなくなる。

しかし、これは極端な一般化であり、誇張された主張である。たとえば、超伝導の研究分野で不正があったとしても、超伝導という現象がなくなるわけではない。不正の結果は無効となり、不正を働いた人物の研究は信用されなくなるというだけである。

O. J. シンプソンと乱数発生装置

この書評では、O. J. シンプソンの判決の日の乱数発生装置(egg)のグラフが示され、グラフのピーク(eggがもっとも異常を示した瞬間)と実際の判決のテレビ放送の時系列とに、時間的なずれがあることが指摘されている。しかし、こうした微妙なずれは、時間の流れに無頓着な超心理学者には「予知」として説明されてしまう。

しかし、もっとも奇妙なのは、この件に関するテレビ番組が始まった時刻(午前9時)にも、判決が報道されたとき(午前10時)と同程度の強度のピークが現れていることだ。(一時間ほどテレビの報道カメラは判決の瞬間を待ち続けていた) 視聴率的に考えると人々の注目が最も集まるのは、放送が始まったときではなく、判決が下された瞬間のはずである。しかし、eggはそのような反応は示していない。そもそもこの裁判は、多くの物的証拠があったにもかかわらず、無罪の判決がくだったので、番組放送開始のときよりも圧倒的に判決時のほうが注目度は高いはずなのだが。

ラディンのRNG実験に関する評価はかなり曖昧なものであることがPedersenによって指摘されている。たとえば、O. J. シンプソン判決のグラフ(p.167)の前には別のグラフが示されてる。これは観客数40人程度のラスベガスのショーにRNGを持ち込んで測定した結果である。(p.166) まず、驚くべきことはシンプソン判決のときと比べて40人という少人数なのに、測定を始めてすぐにシンプソンの時と同程度の大きな反応をRNGが示していることだ。ところが、ラディンは『こういう大きな揺らぎは偶然によって起きる』と無視している。だとすると、シンプソンに関するグラフはまったく無意味になってしまう。ラディンは実験ごとに結果の評価基準を変えているようだ。

RNGの出力にも一貫性がないことがPedersenによって指摘されている。RNGの示した異常の最大値を比較してみると、次のようにばらばらである。

  • 1995年アカデミー賞授賞式(p.170):数百
  • 1996年アカデミー賞授賞式(p165):数十
  • ラスベガスのカジノにおける観客40人のショー(p.166):約1000
  • シンプソン判決(p.167):数百
  • スーパーボウル(p.168):約10
  • 1996年オリンピックのオープニング(p.170):約1000

これを見てわかることは、スーパーボウルにRNGはほとんど反応を示さないということだけである。さらにRNGの応答時間にも一貫性がない。シンプソン判決のときは番組放送とほぼ同時にRNGは異常を示しているのに、オリンピックのオープニングの場合、セレモニーの前半部分にはなんの異常も現れていない。

サイコロと乱数発生装置

この本にも、サイコロ念力の実験と乱数発生装置(RNG)の実験が登場する。これらの実験は、懐疑論者の批判をもとに改良がなされてきたことをラディンはグラフで示している。サイコロ実験では13の項目、RNG実験では16項目の基準をもとに、実験を評価し、実験回数とともに実験の信頼性が向上していることを示している。これらの項目とは次のようなものである。(この本に記述されてる項目は5つ程度なので、他にどのようなものがあったのかはわからない)

  • 自動記録を導入していたか
  • 証人を導入していたか
  • 比較実験は行われていたか
  • 二重検査は行われていたか
  • 耐衝撃性のRNGが使用されていたか

ところが、Pedersenはラディンの評価に納得していない。なぜなら、これらの項目はちっとも満たされていないし、実験の信頼性の向上も微々たるものだからだ。

たとえば、サイコロ実験については、1935年から1987年にかけての148個の実験についてメタ解析が行われている。ところが、13項目の評価には大きなばらつきがあり、最大で12項目を満たしているのは2つだけ、2項目程度のものも4つほどある。また52年間で平均は4から7に増えているにすぎない。つまり、これは1年につき0.06項目の向上である。RNG実験にいたっては、評価は最大で12が1つ、最低は0が7つもある。平均は、1959年から1987年にかけての350近くの実験について、3.5から5程度に増えているにすぎない。これは1年につき0.05項目の向上である。これで実験の信頼性が向上していると言えるのだろうか?また、共通の評価基準を使ってないので、サイコロ実験とRNG実験の比較ができない。単純に数字だけを比べると、RNGのほうが信頼性は低そうだ。

ラディンによると、サイコロ実験もRNG実験も、偶然で当たる確率を50%とすると、意志の働きかけがあったときは、これが51%に増えるらしい。(サイコロのそれぞれの目が出る確率は6分の1であり、これをパーセントで表すと16.666…%になる。ラディンがこれをどうやって50%に換算したかは不明) 

なんとも小さい増加だが、ラディンによると、こうした現象が起こるのは統計学的に考えると、偶然ではありえないそうだ。サイコロ実験について、偶然に対してこうした現象が起こる確率は10億分の1であり、「お蔵入り効果」を考えた場合、公表されていない17974個の失敗だった実験がなくてはならないそうだ。(これは成功した実験1つにつき、121個の失敗がなくてはならないことになる) RNG実験については、こうした現象が起こる確率は、1兆分の1であり、お蔵入りした失敗実験は54000個(成功1つにつき約90個)なくてはならないことになるそうだ。

よって、ラディンによると、サイコキネシスは実在することになるのだが、これらの数字は何かがおかしい。いったい何をどうしたら、1%という小さな数字から、10億とか1兆という巨大な数字が出てくるのだろうか? そもそも148個の実験の平均が51%だとすると、これを無効(50%)にするには同数(148個)の49%の実験結果があればいいだけだ。48%の結果なら74個で十分。1万8千個もの失敗した実験などいらないはずなのだが、どう考えればいいのだろう?

この疑問について明治大学の石川教授は「メタ超心理学研究室」の「2-9 メタ分析」で答えている。平均値を50%にもどすだけではだめで、その分布も考えねばならない、つまり「分散値」が特異的になってしまうとのこと。ただ、これは石川教授も認めるようにちょっと「極端な例」である。50%からのずれが1%であるのに対し、各分布の幅もおよそ1%程度なのである。こうした分布を足し合わせれば、たしかに全体として異常な分布になってしまう。しかし、分布の幅がもっと広ければ、足し合わせた後の分布の異常も小さくなるだろう。ラディンが得意とする、「お蔵入り」した実験の数を推定する「fail-safe file‐drawer」(FSFD)法に対して批判があることは「I. J. Goodによる書評」の項で述べたとおりである。

なお、RNG実験については、Skeptic's Dictionary(文献19)によると、ハイマンら懐疑論者の解析では、実際に観測されたRNG実験における効果は51%よりも小さく、50.02%ぐらいだとのこと。RNG実験については「プリンストン変則工学研究所 (PEAR)」の項目も参照してください。

賭博と月周期

この本ではどういうわけか、賭博と月周期(月の満ち欠け)の関係についてかなりのページ(p.175〜p.189)を割いて議論している。ラディンは月周期が地磁気もしくは重力を通じてギャンブルの勝ち負けに関係していると考えているらしい。(!) ところが、月の満ち欠けと地磁気の変動は、あるときは正の相関(p.187)、あるときは負の相関(p.182)があり、一貫性がない。また、月や太陽の影響による重力の変動は1日のあいだでも起こる。(たとえば、海の潮汐において、干潮満潮の周期は約12時間25分である) Pedersenは「これがなぜ超能力の証拠になるのか、さっぱりわからない」としている。そもそも月周期が超能力に影響を与えるのならば、すべての超能力実験は月の満ち欠けを考慮して検証しなくてはならなくなるが、ラディンはそんなことはしていない。