某些科学研究可能出错的原因之一

有一个 可复制性危机 在科学领域,未识别的“假阳性”是指 甚至连我们顶尖的研究期刊也未能幸免。.

假阳性是指声称存在某种效应,而实际上并不存在。没有人知道已发表的论文中有多少比例包含此类错误或夸大的结果,但确实存在这种情况。 种种迹象表明,这一比例并不小。.

流行病学家约翰·伊奥尼迪斯在2005年一篇题为“……”的著名论文中对这一现象给出了最佳解释。为什么大多数已发表的研究结果都是错误的”伊奥尼迪斯给出的众多错误结果的原因之一,后来被称为“p “黑客行为”源于研究人员感受到的达到统计显著性的压力。

什么是统计学意义?

为了从数据中得出结论,研究人员通常依赖于 显着性测试简单来说,这意味着计算“p 值”,即在确实没有影响的情况下,出现与我们类似的结果的概率。如果 p 当该值足够小时,结果被认为具有统计学意义。

传统上,a p 小于 05 的值是显著性标准。如果您报告一个 p如果 p 值小于 05,读者很可能会认为你发现了真实效应。然而,实际上可能并没有这种效应,你报告的是一个假阳性结果。


内心订阅图形


许多期刊只发表能够报告一项或多项具有统计学意义的结果的研究。研究生很快就会意识到,要达到传说中的“显著性”目标并非易事。 p

这种实现目标的压力 pp值破解。

的诱惑 p 黑客

为了显示 p 以黑客攻击为例,这里举一个假设的例子。

布鲁斯最近刚获得博士学位,并获得了一项颇具声望的资助,得以加入他所在领域顶尖的研究团队之一。他的第一个实验并不成功,但布鲁斯迅速改进了实验流程,并进行了第二次研究。这次研究看起来更有希望,但仍然没有得出确切的结论。 p 值小于05。

布鲁斯确信自己发现了什么,于是收集了更多数据。他决定剔除一些明显不靠谱的结果。

他随后注意到,其中一项措施能更清晰地反映情况,于是他便专注于此。经过几次调整,布鲁斯最终发现了一种略显意外但却非常有趣的效果,即…… p

布鲁斯非常努力地寻找那种效果,以至于他 知道 他潜伏在某个地方。他也感到必须出手的压力。 p

但有一个问题:实际上并没有产生任何影响。尽管结果具有统计学意义,但布鲁斯发表的却是假阳性结果。

布鲁斯认为,他在开始研究后采取的各种步骤,都是在运用他的科学洞察力来揭示这种潜在影响:

  • 他收集了更多数据。
  • 他泄露了一些看似异常的数据。
  • 他放弃了一些措施,转而专注于最有前途的措施。
  • 他以略微不同的方式分析了数据,并做了一些调整。

问题在于,所有这些选择都是已经做出的。 after 看到数据后,布鲁斯可能在无意识中进行了筛选——不断选择和调整,直到获得他梦寐以求的数据。 pp

统计学家有句谚语:只要你对数据进行足够多的“拷问”,它们就会招供。在看到数据之后所做的选择和调整,都是值得商榷的研究做法。而为了获得正确的统计结果,有意或无意地使用这些方法,则是不道德的。 p 黑客这也是已发表的具有统计学意义的结果可能是假阳性的一个重要原因。

已发表的研究结果中有多少是错误的?

这是一个很好的问题,但也是一个非常棘手的问题。没有人知道答案,而且答案很可能因研究领域而异。

2015年,一项旨在解答社会和认知心理学问题的规模庞大且令人印象深刻的研究成果发表。该研究由布莱恩·诺塞克及其在开放科学中心的同事领导。 可重复性项目:心理学 (RP:P) 他们让世界各地的100个研究小组分别对100项已发表的研究结果中的一项进行仔细的重复实验。总体而言, 大约40个样本复制效果相当不错。而在约 60 个案例中,重复研究获得了较小或小得多的效果。

100项RP:P重复研究报告的效应平均只有原始研究报告效应的一半。这些精心设计的重复研究可能比原始研究能给出更准确的估计。 p 我们篡改了原始研究数据,因此可以得出结论:原始研究平均高估了真实效应的两倍。这太令人震惊了!

如何避免 p 黑客

避免的最好办法 p 所谓“黑客行为”,是指在查看数据后避免进行任何选择或调整。换句话说,就是避免使用可疑的研究方法。在大多数情况下,最好的方法是使用…… 预注册.

预注册要求您提前准备一份详细的研究计划,包括将要应用于数据的统计分析方法。然后,您需要在网站上预注册该计划,并附上日期戳。 开放的科学框架 或其他在线注册机构。

然后 开展研究,按照计划分析数据,并报告结果,无论结果如何。读者可以查阅预先注册的计划,从而确信分析方法是事先明确规定的,而不是临时制定的。 p 被黑客攻击了。预注册对许多研究人员来说是一个具有挑战性的新概念,但很可能是未来的发展方向。

估算而非 p 价值观

诱惑 p 黑客攻击是依赖黑客攻击的一大弊端。 p 价值观。另一个是…… p这就好比说某种效应存在或不存在一样。

但世界并非非黑即白。要认识到其中存在的诸多灰色地带,最好使用…… 估计 而非 p 估计的目的是估算效应的大小——效应的大小可能很小,也可能很大,甚至为零或负值。就估计而言,假阳性结果是指估计值大于或远大于效应的真实值。

我们假设有一项关于心理治疗效果的研究。例如,该研究可能估计心理治疗平均能使焦虑程度降低7分。假设我们根据数据计算出…… 置信区间 ——我们最佳估计值的上下不确定性范围为[4, 10]。这表明,我们估计的7很可能与真实效果(即治疗的真实平均获益量)在焦虑量表上的误差在3分以内。

换句话说,置信区间表明了我们估计值的精确程度。了解这样的估计值及其置信区间比任何其他方法都更有价值。 p 计算值。

我将估计法称为“新统计学”之一。这些技术本身并不新,但将其作为从数据中得出结论的主要方法,对许多研究人员来说却是全新的,也是一大进步。它还有助于避免由……造成的扭曲。 p 黑客攻击。

关于作者

杰夫·卡明,荣誉退休教授 拉筹伯大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍:

{amazonWS:searchindex=Books;keywords=peer reviews;maxresults=3}