重复研究意味着什么?不要等重复完了再讨论

我是科学家iScientist 2020-09-16 23:53

为了避免陷入僵局、总结经验,重复者和原论文作者必须在研究设计上达成一致,提前阐明自己的预期。


笔者协调已发表研究的重复工作已经有好几年了。最常见的结局是双方各行其是、各执一词,尤其是当重复结果与原始结果看起来相矛盾的时候。


“一起来找茬”。| 来源:David Parkins


我们在“可重复性项目”(Reproducibility Project)中也发现了这一点:我们负责管理对癌症生物学一些高影响力论文中的实验进行重复[1]。在最后完成的50项重复性实验中(来自23篇论文),有一个实验要求将白血病细胞移植到免疫功能低下的小鼠体内,并在给予潜在治疗前先让细胞生长。结果,我们团队、审稿人、论文作者都没有想到,我们提出的免疫抑制技术(与原论文中的不同)会影响该疗法能否延长存活时间这个关键问题[2]。待我们重复后,发现存活时间并没有差异[3]。后来,审稿人表示这种差异其实很关键。


类似情况也发生在其他学科。笔者中的一位(B.A.N.)曾在《社会心理学》(Social Psychology)担任客座编辑,曾有一位审稿人反对一项重复性研究的设计,当时要检验的假说是:亚洲女性在被提醒她们的亚洲身份时,会在一项数学测试中表现得更好。之后我们又委托开展了第二个重复研究,这次的研究设计满足了审稿人的要求。结果,第二次的重复失败了,但这位审稿人认为不合适的第一个方案基本重复成功了[4,5]。在得知结果后,审稿人指出第二个研究明显存在缺陷。


重复失败经常会带来认知上的僵局。一些研究人员坚称重复结果反驳了原始论文的观点;其他人则发现重复性工作有这样那样的瑕疵。无论是做重复研究的人员还是原始论文作者,都选择捍卫自己的结论,或至少捍卫自己的能力;而没有选择开展有难度的智力劳动,利用新证据来修正自己的观点。人类天性和学术激励机制让人们很难做到后者。


研究人员如何避免陷入这类僵局呢?我们需要在早期阶段花更多时间搞清楚需要验证的问题,确定验证过程的关键特征以及我们预期得到的认知。我们需要一个更契合人类天性或至少能让我们就事论事的方法。这种方法应以寻找正确答案为重点,而不是维护之前的结果。


我们将这种方法称为“预承诺(precommitment)。论文发表之后、重复研究开始之前,由论文作者和独立重复人员合作设计一项重复性实验,双方都认可其意义——无论最后结果如何。这个过程可以采用预注册的形式进行记录,或是在理想的情况下,利用注册报告(Registered Report) 的形式(见“重复性路线图”)



牢固的框架


在过去十年里,慈善家、政府资助机构和期刊编辑开始为重复性研究制定政策、启动项目、投入资金。方法学家也在思考如何让重复性研究从死胡同里走出一条活路。


但我们缺少工具,无法最大化利用重复性研究。重复性研究经常被看作是带有敌意的举动,而不是科研过程中一个正常而有益的组成部分。预承诺可以让重复性研究更有价值。它鼓励合作、消化对立,发扬谦逊的科研精神。这么做能把精力集中在提高重复性研究的质量上,最大程度汲取经验,降低以重复性工作是否符合先前观点为评价依据的趋势。  


重复取决于能否创造出重复某项结果所必需的条件。即使两项研究使用的方法相同,它们之间依然有着许许多多的差异:年月日、气候、使用的样本、实验人员的身份等等。开展重复性研究要求对一些重要的特征做出理论上的承诺[6]


在结果出炉后再做这种承诺很难。在开展重复性研究前询问研究人员,温度(或年龄或光线或语言等其他任何变量)是否重要?许多人会坦言他们不知道,或是根本没有意识到原始实验的条件是保持不变的。在重复性研究失败后再问这个问题,后见之明会给你另一个答案:“温度或年龄或光线或语言等其他任何变量)当然重要了。”如果重复结果允许在事后再添加假设,重复性研究验证现有认知的作用就不成立了。


赌一把


那么,何为理论上的承诺?经济学家给出的一个观点是:理论承诺是你愿意赌一把的事。


如若研究人员愿意就实验细节千差万别的重复性研究赌一把,说明他们相信某个现象是可概括、经得起检验的。只愿意在缩小条件范围后才预承诺的人,实际是将待验证的现象缩小到了他们有信心的范围。


比如一项研究称经常锻炼可以提高记忆力。支持者可能要求重复试验照搬原始研究中的方法,比如将“经常锻炼”的定义限制在跑步而不是骑车。他们可能还会要求把条件限制得比原来的更细——也许只在夜间对英国35岁以下的成年人开展记忆力测试。这方面的坚持显示出支持者对经常锻炼可以提高记忆力的说法缺乏绝对的信心,他们认可的其实是一个更狭窄的理论。如果他们不能提出任何他们愿意赌一把的实验设计,他们可能根本就不相信原始结果是可以重复的。


修正论点


立意良善的重复性研究会按照原始结论来设计实验。如果结论说明了具体地点,重复时就必须把地点考虑进去。如果结论忽略或不考虑年龄,重复时也不应加以考虑。根据支持者、怀疑者和中立者的观点设计重复性研究,就能明晰结论的边界,特别是那些未加详细定义的结论。


我们目睹过很多次争论双方之所以僵持不下,要么是支持派和怀疑派相互误解,要么是双方各执一词。为了解决这个问题,我们需要建立一个高效的流程,按照演绎法管理重复性实验的设计。这个流程必须产出表述清晰、可以验证的结论,还要能解决反对者提出的质疑。


如果支持者和怀疑者都能为重复性设计背书,又对结果有不同的预测,这种情况下的重复是最有意义的。对抗式协作(adversarial collaboration)的例子体现了这种方法兼具的难度和潜力(见“协作对抗”)。比方说,对于意识持不同看法的权威神经科学家共同参与了巴哈马群岛邓普顿世界慈善基金会(Templeton World Charity Foundation)发起的一项计划,致力于设计出他们各自理论能产生不同结果的实验。一时之间大家群情激昂,甚至有人大呼小叫。但在两天后,他们提出了实验设计。实验结果应于今年晚些时候公布——它不会平息关于意识的争论,但应该能增进我们的理解(详见:go.nature.com/3gqou5u)


协作对抗


支持者和反对者应就达成一致意见的重复性研究设计做出“预承诺”,明确各自不同的预期。


预承诺利用的是对抗式协作——对抗式协作是诺奖得主、心理学家丹尼尔·卡内曼(Daniel Kahneman)和同事在本世纪初提出的一种方法(见参考文献11)。在对抗式协作中,意见不统一的研究者在一名仲裁者的协助下,同意用实验平息争论。


2015年,对一种眼动(称为眼跳)如何影响记忆唤起持不同意见的研究者,采取了对抗式协作和预注册研究设计及各方预期结果相结合的形式。最后,全部作者和中间人在一篇合著论文中报告了他们的结果和不同的分析[12]


Dawid Potgieter认为,这种方法的成功关键在于找到善于倾听、真正想要了解对方主张的对抗者。Potgieter在担任邓普顿世界慈善基金会的发现科学项目主任期间,带头开展了对抗式协作。


一支国际研究团队也提出了类似建议,他们正在检验阐述合作过程的五种对立模型。他们呼吁在工作开始前,先统一研究者的思路,比如制定共同目标、激发好奇心、肯定实验人员的能力和好意[13]


预承诺将秉持这些理念,给每篇论文一个具体流程:一种任意但适宜且可管理的单元。学会评估实验,学会评估别人对你工作的批评,是严谨做研究的核心。我们理应让其成为科学基建的一部分。


从无到有


七年前,我们在一次实践中确信了如何将预承诺的理念付诸行动。如今,践行预承诺的基础硬件唾手可得:注册报告。在这个体系中,作者、审稿人和编辑在研究启动前先进行评估。假使研究问题非常重要,研究方法质量很高,这项研究就能在结果未知的情况下被接收发表[7]


我们的这个概念验证实践包含15篇发表在《社会心理学》特刊中的重复性论文[8]。团队建议对领域内的重要研究成果进行重复,并让原始论文作者和其他专家审稿人对拟议的方法做出评判。尽管双方交流偶尔火药味很浓,但这些“对抗团队”和期刊编辑还是本着同一个目标:设计出一种能让重复结果有意义的实验方法。这当然没有消除所有的争议——远远没有。果不其然,在结果发表后,一篇论文引发了所谓的“重复门”事件,随即而来的是言语中伤、竞争性重复分析,以及对礼貌修养的反思(详见go.nature.com/3ftemmf)


其他论文体现了一种理想的结局:支持者和怀疑者观察重复结果,就其意义展开辩论,并提出其他解释。由于方法和分析都是事先一致认定的,对重复结果的其他解释便相应成了后续研究的内容,而非一次有效实验的必要部分。


举个例子,一篇论文对迷信可以提高表现的结论进行了重复,但重复失败了。这篇论文探讨了这样一种可能性:原始结论为假阳性,或是特定任务类型或论点可以解释这种差异[9]。关键在于,这些潜在的影响因素被描述为今后研究的假设,而不是对非预期重复结果的解释。从许多方面看,这个过程像是我们初入科研领域时,想象中科学运作的理想方式。


如今,超过250本期刊都提供注册报告。《自然-通讯》也在7月初加入其中。美国的流感实验室(Flu Lab)以及纽约的儿童肿瘤基金会这类资助机构分别与科学出版商PLOS合作,资助各自领域中重要发现的注册报告。这些期刊(和许多其他期刊) 在笔者的单位、非营利性质的开放科学中心运行的一个平台(http://osf.io/rr)上存档被接收的注册报告。我们中心支持采用预承诺流程与注册报告相结合的期刊。


改变思路


研究人员把研究结果看作是个人财产,重复性研究则让他们有财产损失的风险,唤起了他们自证无误的“求生欲”。无论是支持者还是怀疑者,预承诺给了所有人一个机会,让他们可以远离低效的制度框架,实现明辨是非曲直的共同目标。提出清晰、具体、可验证的理论,并明确地报告如何验证这些理论的论文作者可以得到奖励。


我们相信,预承诺的可见度够高,足以转变激励的方式。说到底,你更欣赏哪种科学家呢?是从来不赞同对他的成果进行独立验证的人;还是当新结果显示他们错了时,愿意修正自己论点的人?我们有证据证明,研究人员和公众更喜欢后者[10]。批评者会反击说,某些实验本身就很混乱,或是涉及一些高深的技术,或是重复者的精力应该更多地放在原始观点上。我们认为,验证已有结论、增进理解,是推动进步的必要条件。


最终,预承诺应成为一种期待无论结果符合支持者还是怀疑者的预期,它带来的都是真正的知识。



原文作者:Brian A. Nosek & Timothy M. Errington

参考文献:

1. Errington, T. M. et al. eLife 3, e04333 (2014).

2. Fung, J. J. et al. eLife 4, e08997 (2015).

3. Shan, X., Fung, J. J. & Kosaka, A. eLife 6, e25306 (2017).

4. Gibson, C. E., Losee, J. & Vitiello, C. Soc. Psychol. 45, 194–198 (2014).

5. Moon, A. & Roeder, S. S. Soc. Psychol. 45, 199–201 (2014).

6. Nosek, B. A. & Errington, T. M. PLoS Biol. 18, e3000691 (2020).

7. Chambers, C. Nature 573, 187–189 (2019).

8. Nosek, B. A. & Lakens, D. Soc. Psychol. 45, 137–141 (2014).

9. Calin-Jageman, R. J. & Caldwell, T. L. Soc. Psychol. 45, 239–245 (2014).

10. Ebersole, C. R., Axt, J. R. & Nosek, B. A. PLoS Biol. 14, e1002460 (2016).

11. Kahneman, D. Am. Psychol. 58, 723–730 (2003).

12. Matzke, D. et al. J. Exp. Psychol. Gen. 144, e1–e15 (2015).

13. Ellemers, N., Fiske, S. T., Abele, A. E., Koch, A. & Yzerbyt, V. Proc. Natl Acad. Sci. USA 117, 7561–7567 (2020).


原文以The best time to argue about what a replication means? Before you do it为标题发表在2020年7月21日的《自然》评论版块。


原文经授权转载自公众号“Nature自然科研”(ID:Nature-Research),如需转载请联系原账号。


欢迎个人转发到朋友圈


【扩展阅读】研究人员总是感觉心累,是因为可重复性危机吗?


推荐阅读