算法如何可以比人类更公平

亚马逊最近开始提供 当天发货 在选定的大都市地区。 这对许多客户来说可能是有益的,但是展示显示了计算机化的决策如何也会带来大量的歧视。

明智的是,该公司开始在传送成本最低的地区开展服务,通过确定许多亚马逊现有客户的人口稠密地区的邮政编码,这些地区的收入水平足够高,以便频繁购买可用于当天交货的产品。 该公司提供了一个网页,让客户输入他们的邮政编码,看看当天交付给他们。 彭博新闻调查新闻记者使用该页面 创建亚马逊服务区的当天发货地图.

彭博社的分析显示,很多贫穷的城市地区被排除在服务区之外,而较为富裕的邻近地区则被包括在内。 这些排除在外的许多贫困地区主要由少数民族居住。 例如,除了罗克斯伯里之外,波士顿全部都被覆盖了; 纽约市的报道几乎涵盖了四个行政区,但完全排除了布朗克斯; 芝加哥的覆盖面远远超出了贫穷的南侧,同时大大延伸到富裕的北部和西部郊区。

尽管相信数据驱动的决策是不偏不倚的, 研究和学术讨论 正在开始证明这一点 不公正和歧视依然存在。 在我的 数据道德在线课程,学生学习 算法可以区分。 但是可能有一丝希望:正如彭博社的研究所表明的那样,根据数据做出决定也可能使偏差出现时更容易被发现。

偏见可能是无意的

亚马逊交付政策中的这种不公平现象可能会有许多原因,包括 隐藏的偏见 - 诸如人口均匀分配的假设。 算法设计者可能不打算歧视,甚至可能不会意识到已经陷入了一个问题。


内在自我订阅图形


亚马逊向彭博社表示,它没有任何歧视性的意图,并有充分理由相信这一说法。 针对彭博报道, 官员其他政治家 呼吁亚马逊解决这个问题。 公司 迅速移动添加 原本排除在外的贫困城市邮政编码到其服务区域。

一个类似的问题是 问Uber,这似乎更好地服务于白人比例较高的地区。 未来可能会出现更多零售和服务行业的无意算法歧视案例。

问太多的算法?

我们应该暂停一下,以考虑我们是否过分要求算法决策。 经营实体店的公司经常做出定位决定,考虑与亚马逊不同的标准。 商店试图拥有方便大量潜在客户消费的地点。

因此,很少有商店选择在贫穷的内城区居住。 特别是在杂货店的情况下,这个现象已被广泛研究,而“食物沙漠“被用来描述居民无法便捷地获得新鲜食物的城市地区。 这个 位置偏见 对于整体零售店的研究较少。

作为一个指示性的例子,我看了一家大型综合零售连锁店Target的密西根州55地区。 当我根据平均收入是在全州上半部还是下半部分对每一个密歇根州的邮政编码进行分类时,我发现只有目标商店的16(29百分比)是来自低收入群体的邮政编码。 39商店的数量是XNUMX商店的两倍多,从更富裕的一半的邮政编码中选择。

识别歧视

此外,底特律市没有Target商店,虽然在其(富裕的)郊区有几家。 然而目前还没有受到人们的强烈抗议,指责Target在其店面选址决策中不公平地歧视穷人。 对亚马逊的担忧有两个主要原因是合理的:僵化和主导。

刚性与在线零售商的决策过程以及结果有关。 亚马逊决定在其服务区域内的邮政编码。 如果客户住在亚马逊边界的街对面,那么她就在服务区之外,对此做的事情不多。 相反,居住在没有Target商店的邮政编码的人仍然可以在Target购物 - 虽然可能需要更长时间才能到达目的地。

零售商在消费者心目中的主导地位也很重要。 而目标只是许多实体连锁店之一,亚马逊享有 作为网络零售商的市场主导地位,因此受到更多的关注。 这种优势是今天的一个特点 赢家通吃 网络业务。

虽然他们的刚性和主导地位可能会使我们对在线业务更加关注,但我们也能更好地发现他们的歧视,而不是我们对于实体店铺的歧视。 对于传统的连锁店,我们需要猜测消费者愿意旅行多远。 我们可能还需要认识到时间:距离下一个高速公路出口5英里与通过拥挤的街道到达城镇另一边的5英里不是一回事。 此外,旅行时间本身可以根据一天中的时间变化很大。 在确定店铺服务的可能区域之后,他们可能不会整齐地映射到我们有关种族或收入统计的地理单位。 总之,分析是混乱的,需要很多努力。

相比之下,彭博新闻工作者只需要几个小时就可以开发亚马逊服务区域的地图,并将其与收入或种族相关联。 如果亚马逊在内部完成了这项工作,他们本可以在短短几分钟内完成同样的分析 - 也许可以注意到这些问题,并在同一天的服务甚至开始之前加以修复。

人类如何比较?

让我们看一个非常不同的例子,看看同样的观点是如何广泛适用的。 最近,ProPublica出版了 对种族歧视的极好分析 通过算法预测罪犯再次犯罪的可能性。 该算法考虑了几十个因素,并计算概率估计。 ProPublica的分析发现了显着的系统性种族偏见,即使种族不是所考虑的具体因素。

如果没有这个算法,人类法官会作出类似的估计,作为判决或假释决定的一部分。 人的决定可能会考虑更多的因素,比如刑事的审判室风度。 但是我们知道,从 心理学研究,这 人类的决策充满了偏见甚至当我们尽力公平的时候。

但是,由于法官决定的偏差而导致的任何错误,在法官之间可能会有所不同,甚至由同一个法官作出不同的决定。 总的来说,可能会有种族歧视 潜意识偏见,但确定这一点是棘手的。 美国司法部的一项研究发现了强有力的证据 对白人和黑人犯罪分子的不公正待遇,但不能清楚地确定种族本身是否是这些决定的一个因素。

相比之下,ProPublica完全相同的算法在许多州的数千个案例中使用。 它的刚性大,容量大,容易判断是否歧视,并能提供有效纠正问题的方法。

信息技术的使用似乎使线条更加明亮,差异更加明显,并且更容易获得所有这些数据。 现在昨天可以在地毯上刷什么东西,现在哗众取宠。 随着我们对数据驱动算法的使用越来越多,分析它们的公平性,特别是在推出新的基于数据的服务之前,并不常见。 这样做对于衡量和改进这些日益重要的计算机化计算的公平性将有很大的帮助。

关于作者谈话

HV Jagadish,Bernard A Galler电气工程与计算机科学学院教授, 密歇根大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍

at InnerSelf 市场和亚马逊