你的朋友在Twitter上的方式可以让你远离你的匿名

在您浏览互联网时,在线广告商会跟踪 几乎每个你访问的网站积累了一些关于你的习惯和偏好的信息。 当你访问新闻网站时,他们可能会看到你是篮球,歌剧和神秘小说的粉丝,因此选择适合你的口味的广告。

广告商使用这些信息来创造高度个人化的体验,但是他们通常不知道自己是谁。 他们只观察你的数字线索,而不是你自己的身份,所以你可能会觉得你保留了一定程度的匿名性。

但是,在我合着的论文中 与Ansh Shukla,Sharad Goel和Arvind Narayanan,我们表明,这些匿名的网页浏览记录实际上往往可以与现实世界的身份联系起来。

为了测试我们的方法,我们建立了 一个网站 人们可以为了本研究的目的而捐赠他​​们的浏览记录。 然后,我们试图查看是否可以使用公开可用的数据将他们的历史记录链接回他们的Twitter个人资料。 我们试图匿名化的人中,有72%的人被正确识别为搜索结果中的头号候选人,而81的人数也是15的最高候选人。

privacy2 2 8deanonymization网站的截图。

就我们所知,这是迄今为止最大规模的去匿名化的演示,因为它从数以亿计的可能的Twitter用户中挑选出正确的用户。 此外,我们的方法只需要一个人点击他们的社交媒体上的链接,而不是他们发布的任何内容 - 所以即使是在互联网上分享他们的小心,仍然是脆弱的这种攻击。


内在自我订阅图形


产品思路

高层次,我们的方法是基于一个简单的观察。 每个人都有一个非常独特的社交网络,包括来自学校的家人和朋友,工作和生活的各个阶段。 因此,Facebook和Twitter提要中的链接集非常独特。 点击这些链接会在浏览历史记录中留下一个令人印象深刻的标记。

通过查看个人所访问的网页集,我们能够挑选出类似的社交媒体馈送,产生可能生成该网页浏览历史的候选者列表。 通过这种方式,我们可以将一个人的真实世界的身份与他们所访问的几乎完整的链接关联起来,包括从未在任何社交媒体网站上发布的链接。

实施这一战略涉及两个关键挑战。 首先是理论上的:你如何量化一个特定的社交媒体饲料对给定的网页浏览历史有多相似? 一个简单的方法是测量浏览历史记录中链接的一部分,这些链接也出现在Feed中。 这在实践中运行得相当好,但它高估了大型数据源的相似性,因为它们只包含更多的链接。 我们采取另一种方法。 我们提出了一个程式化的,概率的网页浏览行为模型,然后计算用户使用该社交媒体源生成观察到的浏览历史记录的可能性。 然后我们选择最有可能的社交媒体Feed。

第二个挑战是实时识别最相似的饲料。 在这里我们转向Twitter,因为Twitter的饲料(与Facebook形成鲜明对比)在很大程度上是公开的。 不过,即使这些供稿是公开的,我们也不能简单地创建一个本地的Twitter副本,我们可以运行我们的查询。 相反,我们应用一系列技术来显着减少搜索空间。 然后,我们将缓存技术与按需网络抓取相结合,构建最有前途的候选人的馈送。 在这个简化的候选集上,我们应用我们的相似性度量来产生最终的结果。 给定浏览记录,我们通常可以在60秒内完成整个过程。

我们的方法对于更积极地浏览Twitter的人更加准确。 在Twitter上点击100或更多链接的参与者中,有90%可以与他们的身份相匹配。

即使没有参与者的同意,许多公司也有跟踪资源来执行这样的攻击。 我们试图仅使用特定跟踪公司可见的浏览记录部分(因为公司在这些页面上有跟踪器)对每个实验参与者进行反匿名化。 我们发现有几家公司有资源准确地确定参与者。

隐私2 8其他的去匿名研究

其他几项研究已经使用公开可用的脚印来对敏感数据进行匿名化处理。

也许沿着这些路线最着名的研究是由 Latanya Sweeney 在2002哈佛大学。 她发现 87美国人的百分比是唯一可识别的 基于他们的邮政编码,性别和出生日期的组合。 这三个属性在公共选民登记数据(她为20美元购买)和匿名医疗数据(广泛分发,因为人们认为数据是匿名的)中都有。 通过连接这些数据来源,她找到了马萨诸塞州州长的病历。

2006年, Netflix举办了一场比赛 以改善其电影建议的质量。 他们发布了一个人们电影评级的匿名数据集,并向团队提供了$ 1百万美元,可以通过10百分比改进他们的推荐算法。 计算机科学家 Arvind Narayanan维塔利Shmatikov 注意到人们观看的电影非常有特色,数据集中的大多数人是基于他们电影的一小部分而唯一可识别的。 换句话说,根据Netflix电影选择和IMDB评论,研究人员能够确定Netflix用户实际上是谁。

随着社交媒体的兴起,越来越多的人分享似乎无害的信息,但实际上却揭示了大量的个人信息。 由...领导的研究 Michal Kosinski 在剑桥大学使用Facebook喜欢预测人的 性取向,政治观点和人格特征.

另一队由领队 吉尔伯特Wondracek 在维也纳科技大学建立了一个“deanonymization machine”,通过这个“deanonymization machine”来确定哪些人是社交网络中的一部分,并用它来确定他们是谁 - 因为你所属的组往往足以唯一地识别您。

你可以做什么

除非您停止使用互联网或参与公共生活,否则这些攻击大部分都难以抵御。

即使您停止使用互联网,公司仍然可以收集您的数据。 如果您的几位朋友将他们的手机联系人上传到Facebook,并且您的电话号码都在他们的联系人列表中,那么即使您没有使用他们的服务,Facebook也可以对您进行预测。

防止像我们这样的匿名算法的最好方法是限制那些有权访问匿名浏览数据的人。 浏览器扩展如 Ghostery 阻止第三方跟踪器。 这意味着,即使您访问的网站知道您正在访问的网站,在其网页上展示广告的广告公司也无法收集您的浏览数据并将其聚合到多个网站。

如果您是网站管理员,则可以通过让他们浏览您的网站来保护您的用户 HTTPS。 使用HTTP浏览功能,攻击者可以通过嗅探网络流量来获取浏览历史记录,从而实现这种攻击。 许多网站已经切换到HTTPS; 当我们从网络流量嗅探器的角度重复我们的匿名化实验时,只有31的参与者可以被匿名化。

但是,一般来说,保护自己免受匿名攻击的可能性很小,也许最好的方法就是调整自己的期望。 这个数字时代没有什么是私密的。

关于作者

Jessica Su博士 斯坦福大学的学生, 斯坦福大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍

at InnerSelf 市场和亚马逊