2015年11月2日

科學研究現危機—多數研究結果都不可信?

作者/吳佳瑾(佛光大學心理學系助理教授。不喜歡做瑣碎的事,喜歡動腦,因而踏上心理學研究的不歸路。研究興趣為知覺心理學與認知神經科學)

著名的學術期刊Science在2015年8月刊載了一篇文章,題為〈估計心理學研究的再現性(Estimating the reproducibility of psychological science)〉。此研究由270位研究者共同合作,重新執行了三本重要心理學期刊在2008年所刊登的100個研究。他們想知道有多少比率的研究結果可以成功地被再現。

研究團隊使用原作者提供的材料、設計與程序,並以較易偵測到效果的設計來看這些已發表的研究結果能否被再現。結果發現,大部份的研究無法成功地被複製!例如,以最常使用的統計顯著指標P<0.05來看,這100個研究中原本有97% 達到顯著,但在重新執行的研究中,僅有36%達到統計顯著;由另一項指標,效果量(effect size)來看,也僅有47% 的研究結果成功地被複製。

再現性(reproducibility)是科學研究的要件。科學研究報告必須清楚說明研究方法及結果,一方面揭露研究結果是在何種情境下產生,以供他人瞭解、討論,一方面也讓他人可以採用相同的方法來複製研究。然而,這篇Science文章的作者表示,多項因素可能使得研究結果不可信或無法再現,且現行的研究發表制度重視研究的新奇性,複製他人結果的研究難以發表,令人難以知道研究結果的再現性有多高。若一研究結果無法再現,基於此研究結果的討論就沒有意義。由於在大規模地檢驗之後顯示再現率並不高,作者認為期刊投稿制度應在創新研究與複製研究之間取得平衡。

乍看之下,偏低的再現率似乎表示大多數的研究結果並不可信,或令人懷疑學術研究制度出了問題。但是否真是如此?在這裡,我們得先回到更基本的問題:哪些因素會影響再現性?即使在最嚴謹的科學研究上,研究結果的再現性也會受到許多因素的影響,包括:

1. 研究結果的推論
實證性的心理學研究是以研究結果來檢驗研究假設是否成立。例如,某研究想要檢驗某教學法是否有效,科學家會去估計「若此教學法無效,有多少機率我們的研究會得到這樣的結果」,若此機率小於5%,科學家會較有信心下結論說此教學法可能有效,此即所謂的統計顯著(statistically significant)。儘管如此,這個結論仍有5% 的犯錯機率(在統計上稱為Type I error),意即,此教學法仍有5% 的可能性是無效的。前文中所提到的P<0.05即為此概念。因此,任何實證研究結果的推論都有犯錯的可能,百分之百的再現率在實際上並不可能。同樣地,即使在我們的例子中之教學法有效,也有可能純粹因為機率因素而得到該方法無效的結論(在統計上稱為Type II error)。因此,一個研究結果不能被成功地複製,有可能是因為原研究拉了假警報,但也可能是後來的複製研究未能偵測到應有的效果。......【更多內容請閱讀科學月刊第551期】

沒有留言: