剑桥分析公司的Facebook定位模型如何真正起作用您可以如何准确地进行在线配置? 安德鲁Krasovitckii / Shutterstock.com

研究人员的工作位于中心 Facebook-Cambridge Analytica数据分析和政治广告哗然 已经透露他的方法很像那个 Netflix用于推荐电影.

在给我的一封电子邮件中,剑桥大学学者Aleksandr Kogan解释了他的统计模型如何处理Cambridge Analytica的Facebook数据。 他声称的准确性表明它的工作原理和 建立了选民目标定位方法 基于种族,年龄和性别等人口统计。

如果确认,Kogan的账户将意味着Cambridge Analytica使用的数字建模 几乎没有虚拟的水晶球 一些人声称。 然而Kogan提供的数字 也显示 什么是 - 不是 - 实际上可能 by 结合个人资料 与机器学习 为了政治目的。

关于公众关注的一个重要问题,Kogan的数据表明,关于用户个性或“消费心理学“只是该模型如何针对公民的一个适度的部分。 严格来说,这不是一个人格模型,而是将人口统计,社会影响,个性和其他因素归结为一个相关性较高的团体。 即使销售的产品没有像计费那样完美,这种全部相关性和呼叫方式的个性化方法似乎创造了一种有价值的营销工具。


内在自我订阅图形


个性定位的承诺

在特朗普竞选顾问剑桥分析公司使用的启示之后 来自50百万Facebook用户的数据 在2016美国总统选举期间瞄准数字政治广告,Facebook已经 股票市值损失数十亿美元,各国政府 在大西洋两岸 已可以选用 开展调查,还有一个新生儿 社会运动 正在呼吁用户 #DeleteFacebook.

但是一个关键的问题一直没有得到答复:剑桥分析公司是否真的能够根据个性特征有效地将活动信息定位到公民 - 甚至是他们的“内心的恶魔,“作为公司举报人的指称?

如果有人能够知道剑桥分析公司用它的大量Facebook数据做了什么,那就是Aleksandr Kogan和Joseph Chancellor。 它是 他们的初创企业Global Science Research 从中收集配置文件信息 270,000 Facebook用户和数千万他们的朋友 使用名为“thisisyourdigitallife”的个性测试应用程序。

的一部分 我自己的研究 着重于理解 机器学习 方法和 我即将出版的书 讨论了数字公司如何使用推荐模型来构建受众群体。 我对Kogan和Chancellor的模型如何工作有了预感。

所以我发邮件给Kogan问。 高根还是一个 剑桥大学研究员; 他的合作者 总理现在在Facebook工作。 科根回答说,在学术礼貌方面表现出色。

他的回应需要一些拆包,以及一些背景。

从Netflix奖到“心理测量学”

回到2006,当它还是一家DVD邮寄公司时,Netflix提供了一个 奖励$ 1万元 对任何开发出比公司已有的用户电影排名预测更好的方法的人。 一个惊人的顶级竞争对手是一个 独立软件开发人员使用假名Simon Funk,其基本方法最终被纳入所有顶级球队的参赛作品中。 Funk改编了一种叫做“奇异值分解,“将用户对电影的评分压缩成一个 一系列因素或组成部分 - 基本上是一组按重要性排列的推断类别。 作为Funk 在博客文章中解释,

“因此,举例来说,一个类别可能代表动作片,顶部有很多动作的电影,底部有慢动作的电影,相应地喜欢顶部有动作片的用户,以及喜欢慢动作片的用户底部。”

因素是人为的类别,并不总是像人类会想出的那种类别。 该 这是芬克早期Netflix模型中最重要的因素 是由喜爱“珍珠港”和“婚礼策划师”等电影的用户定义的,同时也喜欢电影,比如“迷失在翻译中”或“一尘不染的精神的永恒阳光”。他的模型展示了机器学习如何找到人们和电影群体,人类自己永远不会发现。

Funk的一般方法是使用50或100这两个对用户和电影最重要的因素来对每个用户评价每部电影的方式做一个体面的猜测。 这种方法通常被称为 降维 或矩阵分解,并不新鲜。 政治学研究人员已经证明 使用滚动投票数据的类似技术 可以用90百分比准确度预测国会议员的选票。 在心理学的“大五“模型也被用于通过聚集在一起的人格问题来预测行为,这些问题往往得到类似的回答。

尽管如此,Funk的模式仍然是一大进步:它使得这项技术能够很好地处理大量的数据集,甚至包含大量缺失数据的数据集 - 比如Netflix数据集,在这个数据集中,一般用户只评价公司图书馆。 Netflix奖竞赛结束十多年后, 基于SVD的方法隐式数据的相关模型,仍然是许多网站预测用户阅读,观看或购买内容的首选工具。

这些模型也可以预测其他事情。

Facebook知道你是否是共和党人

在2013上,剑桥大学的研究人员Michal Kosinski,David Stillwell和Thore Graepel发表了一篇文章 Facebook数据的预测能力,使用通过在线个性测试收集的信息。 他们的初步分析与Netflix奖上的分析几乎完全相同,他们使用SVD将用户和他们“喜欢”的东西归入顶级100因素。

该报告显示,仅用用户的Facebook“喜欢”制作的因素模型就是 95百分比准确 在区分黑人和白人受访者时,93在区分男性和女性方面的百分比准确度,以及88在区分确定为男性同性恋者和直接被识别为男性的人方面的准确率。 它甚至可以将共和党人与民主党人85正确区分开来。 它也很有用,虽然不太准确 预测用户的分数 对“五大”人格测试。

舆论哗然 作为回应; 在Facebook之前的几周内 使用户喜欢私密 默认情况下。

作为当时剑桥大学研究人员的Kogan和Chancellor,也开始使用Facebook数据进行选举定位,作为与剑桥分析公司母公司SCL合作的一部分。 Kogan邀请Kosinski和Stillwell加入他的项目,但它 没有解决。 据报道,Kosinski怀疑Kogan和Chancellor可能有 反向设计Facebook的“喜欢”模式 剑桥分析公司。 高根否认了这一点,称他的项目“建立了我们所有的模型 使用我们自己的数据,使用我们自己的软件收集。“

Kogan和Chancellor实际上做了什么?

当我跟踪这个故事的发展时,Kogan和Chancellor确实通过这个应用程序收集了大量他们自己的数据。 他们当然可以建立一个像Kosinski和Stillwell发表的研究中那样的预测性SVD模型。

所以我给Kogan发邮件询问他是否做到了这一点。 有些让我惊讶的是,他回信。

“我们并没有完全使用SVD,”他写道,他指出,当一些用户比其他用户拥有更多的“喜欢”时,SVD可能会很困难。 相反,Kogan解释说:“这项技术是我们自己发展起来的......这不是属于公共领域的东西。”没有深入细节,Kogan将他们的方法描述为“多步骤 共生 办法“。

然而,他的信息继续证实他的方法确实类似于SVD或其他矩阵分解方法,如Netflix奖竞赛和Kosinki-Stillwell-Graepel Facebook模型。 Facebook数据的维度降低是他模型的核心。

它有多准确?

Kogan建议使用确切的模型并不重要,但重要的是预测的准确性。 据Kogan称,“预测分数与实际分数之间的相关性......在所有人格维度上都在[30%]左右。”相比之下,一个人之前的Big Five分数大约是 70到80的百分比准确 在重新考试时预测他们的分数。

当然,Kogan的准确性声明无法独立验证。 任何处于如此高调的丑闻中的人都可能有动机低估他或她的贡献。 在他的 在CNN上露面,Kogan向越来越不信任的安德森库珀解释说,事实上,这些模型实际上效果不佳。

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan回答有关CNN的问题。

事实上,Kogan声称的准确度似乎有点低,但似乎合理。 Kosinski,Stillwell和Graepel报告的结果可比或稍好一些 其他学术研究 使用数字足迹来预测个性(虽然其中一些研究的数据不仅仅是Facebook的“喜欢”)。 令人惊讶的是,如果现成的解决方案看起来一样准确,那么Kogan和Chancellor将会面临设计自己专有模型的麻烦。

然而,重要的是,该模型对人格分数的准确性可以将Kogan的结果与其他研究进行比较。 在预测人格方面具有同等准确性的已发表模型在猜测人口统计学和政治变量时都更准确。

例如,类似的Kosinski-Stillwell-Graepel SVD模型是85在猜测派对中的准确率,即使没有使用除爱好之外的任何简介信息。 Kogan的模型具有相似或更好的准确性。 即使添加少量关于朋友或用户人口统计信息的信息,也可能会提高90以上的准确度。 有关性别,种族,性取向和其他特征的猜测可能也会超过90的准确率。

重要的是,这些猜测对于最活跃的Facebook用户来说特别有用 - 模型主要用于定位的人。 无论如何,分析活动较少的用户可能无法在Facebook上进行分析。

当心理状况主要是人口统计

了解该模型如何构建有助于解释剑桥分析公司关于的明显矛盾的表述 的作用 - 要么 缺乏 - 在其建模中扮演的角色特征和心理特征。 它们在技术上与Kogan所描述的一致。

像Kogan's这样的模型会给出任何用户组中的每个变量的估计值。 这意味着它会自动 估计五大人格分数 为每个选民。 但是这些个性得分是模型的输出,而不是输入。 所有的模型都知道,某些Facebook喜欢和某些用户倾向于组合在一起。

有了这个模型,Cambridge Analytica可以说它确定了对经验和高度神经质缺乏开放性的人。 但同样的模式,对每个用户都有完全相同的预测,可以同样准确地宣称识别教育程度较低的旧共和党人。

Kogan的信息也有助于澄清剑桥Analytica是否存在混淆 实际上删除了它的库 的Facebook数据,从数据建立模型时 似乎仍然在流通, 乃至 正在进一步发展.

谈话降维模型的全部要点是以更简单的形式在数学上表示数据。 就好像剑桥分析公司拍摄了一张非常高分辨率的照片,将其尺寸调整得更小,然后删除了原始照片。 照片依然存在 - 只要存在剑桥分析公司的模型,数据也可以有效地实现。

关于作者

媒体和公共事务副教授Matthew Hindman, 乔治华盛顿大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍

at InnerSelf 市场和亚马逊