一些科学研究可能会错误的一个原因

有一个 可复制性危机 在科学 - 不明的“误报”是 甚至遍布我们的顶级研究期刊.

误报是一种说法,即在实际情况下不存在效应。 没有人知道发表论文的比例多少包含这样的错误或夸大的结果,但是有 标志着这一比例不小.

流行病学家John Ioannidis在2005的一篇着名论文中对这种现象作了最好的解释,为什么大多数发表的研究结果是错误”。 Ioannidis给了这么多错误结果的原因之一就是所谓的“p 黑客攻击“,这源于研究人员感受到的压力,达到统计学意义。

什么是统计学意义?

从数据中得出结论,研究人员通常依靠 显着性测试。 简而言之,这意味着计算“p 价值“,如果真的没有效果,就是像我们这样的结果的概率。 如果 p 值足够小,结果被宣布为统计显着。

传统上,a p 小于.05的值是显着性的标准。 如果你报告一个 p<.05,读者可能会相信您已经找到了真正的效果。 但是,也许实际上没有任何效果,并且您报告了误报。


内在自我订阅图形


许多期刊只会发表能够报告一个或多个统计显着效应的研究。 研究生们很快就学会了实现神话 p

这种压力来实现 p黑客攻击。

的诱惑 p 黑客

为了显示 p 黑客攻击,这是一个假设的例子。

布鲁斯最近完成了一个博士学位,并获得了着名的资助,加入了该领域顶尖的研究团队之一。 他的第一个实验工作不好,但布鲁斯迅速完善了程序,并进行了第二次研究。 这看起来更有希望,但还是不给一个 p 值小于.05。

深信他正在进行一些工作,布鲁斯收集更多的数据。 他决定放弃一些看起来很清楚的结果。

然后他注意到他的一个措施给了一个更清晰的画面,所以他把重点放在这个上面。 多一些调整和布鲁斯终于确定了一个有点令人惊讶,但真正有趣的效果达到 p

布鲁斯试图很难找到他的效果 知道 潜伏在某个地方 他也感受到了打击的压力 p

只有一个问题:实际上没有效果。 尽管统计学上有显着的结果,布鲁斯却发表了误报。

布鲁斯觉得他在开始学习之后采取了各种各样的步骤,用自己的科学洞察力来揭示潜在的影响:

  • 他收集了更多的数据。
  • 他放弃了一些看起来异常的数据。
  • 他放弃了一些措施,把重点放在最有前途的方面。
  • 他分析数据有点不同,并做了一些调整。

麻烦的是,所有这些选择都已经完成了 after 看数据。 布鲁斯可能在不知不觉中,一直在挑选 - 调整,直到他获得了难以捉摸的地步 pp

统计学家有一种说法:如果你足够折磨数据,他们会承认。 看到数据后做出的选择和调整是值得怀疑的研究实践。 有意无意地使用这些来达到正确的统计结果 p 黑客,这是公布的一个重要原因,统计意义上的结果可能是误报。

发布的结果有多少比例是错误的?

这是一个很好的问题,也是一个棘手的问题。 没有人知道答案,这在不同的研究领域可能会有所不同。

在2015上发表了一个巨大而令人印象深刻的努力来回答社会和认知心理学的问题。 由Brian Nosek和他在开放科学中心的同事领导 可复制性项目:心理学(RP:P) 全世界的100研究小组都仔细复制了100公布的结果之一。 总体, 大致40复制相当好,而在60的情况下,复制研究得到更小或更小的影响。

100 RP:P复制研究报告的效果平均只有原始研究报告效果的一半。 仔细进行的复制可能会提供比可能的更准确的估计 p 因此我们可以得出结论,原来的研究平均高估了真实的影响,平均是两倍。 真是令人震惊!

如何避免 p 黑客

避免的最好办法 p 黑客攻击是为了避免在查看数据后做出任何选择或调整。 换句话说,避免可疑的研究实践。 在大多数情况下,最好的办法是使用 预注册.

预先注册要求您事先准备详细的研究计划,包括应用于数据的统计分析。 然后你预先登记计划,并带有日期戳, 开放的科学框架 或其他一些在线注册表。

然后 进行研究,根据计划分析数据,并报告结果,不管它们是什么。 读者可以检查预先注册的计划,从而确信分析是事先指定的,而不是 p 黑客攻击。 对于许多研究人员来说,预注册是一个具有挑战性的新想法,但可能是未来的方式。

估计而不是 p 价值观

诱惑 p 黑客是依靠的一大弊端之一 p 值。 另一个就是那个 p而不是说一个效果存在或不存在。

但世界不是黑白的。 要认识到无数的灰色阴影,使用起来会更好 估计 而非 p 值。 估计的目的是估计效应的大小 - 可能是小的或大的,零的,甚至是负的。 在估计方面,假阳性结果是比效应的真实值大或大得多的估计。

我们假设一个关于治疗效果的研究。 例如,该研究可能估计,治疗平均可以使7点焦虑减少。 假设我们从我们的数据计算a 置信区间 - 我们最好估计的一个不确定的范围 - [4,10]。 这告诉我们,我们对7的估计很可能在实际效果的焦虑量级的3点内 - 治疗效果的真正平均量。

换句话说,置信区间表示我们的估计是多么精确。 知道这样的估计和它的置信区间比任何信息都要多得多 p 计算值。

我把这个估计称为“新统计”之一。 这些技术本身并不新鲜,但是用它们作为从数据中得出结论的主要方式对于许多研究人员来说是新的,而且是一大进步。 这也有助于避免由此造成的扭曲 p 黑客攻击。

关于作者

Geoff Cumming,名誉教授, 拉筹伯大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍:

at InnerSelf 市场和亚马逊