Twitter 上的朋友如何泄露你的匿名信息

: By 斯坦福大学的Jessica Su

感谢造访 InnerSelf.com，哪里有 20,000+ 宣传“新态度和新可能性”的改变生活的文章。所有文章均翻译为 30多种语言. 订阅每周出版的《内在自我》杂志和玛丽·T·拉塞尔的《每日灵感》。 InnerSelf杂志 自 1985 年起出版。

你的朋友在Twitter上的方式可以让你远离你的匿名

在您浏览互联网时，在线广告商会跟踪几乎每个你访问的网站积累了一些关于你的习惯和偏好的信息。当你访问新闻网站时，他们可能会看到你是篮球，歌剧和神秘小说的粉丝，因此选择适合你的口味的广告。

广告商使用这些信息来创造高度个人化的体验，但是他们通常不知道自己是谁。他们只观察你的数字线索，而不是你自己的身份，所以你可能会觉得你保留了一定程度的匿名性。

但是，在我合着的论文中与Ansh Shukla，Sharad Goel和Arvind Narayanan，我们表明，这些匿名的网页浏览记录实际上往往可以与现实世界的身份联系起来。

为了测试我们的方法，我们建立了一个网站人们可以为了本研究的目的而捐赠他们的浏览记录。然后，我们试图查看是否可以使用公开可用的数据将他们的历史记录链接回他们的Twitter个人资料。我们试图匿名化的人中，有72％的人被正确识别为搜索结果中的头号候选人，而81的人数也是15的最高候选人。

privacy2 2 8 deanonymization网站的截图。

就我们所知，这是迄今为止最大规模的去匿名化的演示，因为它从数以亿计的可能的Twitter用户中挑选出正确的用户。此外，我们的方法只需要一个人点击他们的社交媒体上的链接，而不是他们发布的任何内容 - 所以即使是在互联网上分享他们的小心，仍然是脆弱的这种攻击。

产品思路

高层次，我们的方法是基于一个简单的观察。每个人都有一个非常独特的社交网络，包括来自学校的家人和朋友，工作和生活的各个阶段。因此，Facebook和Twitter提要中的链接集非常独特。点击这些链接会在浏览历史记录中留下一个令人印象深刻的标记。

通过查看个人所访问的网页集，我们能够挑选出类似的社交媒体馈送，产生可能生成该网页浏览历史的候选者列表。通过这种方式，我们可以将一个人的真实世界的身份与他们所访问的几乎完整的链接关联起来，包括从未在任何社交媒体网站上发布的链接。

实施这一战略涉及两个关键挑战。首先是理论上的：你如何量化一个特定的社交媒体饲料对给定的网页浏览历史有多相似？一个简单的方法是测量浏览历史记录中链接的一部分，这些链接也出现在Feed中。这在实践中运行得相当好，但它高估了大型数据源的相似性，因为它们只包含更多的链接。我们采取另一种方法。我们提出了一个程式化的，概率的网页浏览行为模型，然后计算用户使用该社交媒体源生成观察到的浏览历史记录的可能性。然后我们选择最有可能的社交媒体Feed。

第二个挑战是实时识别最相似的饲料。在这里我们转向Twitter，因为Twitter的饲料（与Facebook形成鲜明对比）在很大程度上是公开的。不过，即使这些供稿是公开的，我们也不能简单地创建一个本地的Twitter副本，我们可以运行我们的查询。相反，我们应用一系列技术来显着减少搜索空间。然后，我们将缓存技术与按需网络抓取相结合，构建最有前途的候选人的馈送。在这个简化的候选集上，我们应用我们的相似性度量来产生最终的结果。给定浏览记录，我们通常可以在60秒内完成整个过程。

我们的方法对于更积极地浏览Twitter的人更加准确。在Twitter上点击100或更多链接的参与者中，有90％可以与他们的身份相匹配。

即使没有参与者的同意，许多公司也有跟踪资源来执行这样的攻击。我们试图仅使用特定跟踪公司可见的浏览记录部分（因为公司在这些页面上有跟踪器）对每个实验参与者进行反匿名化。我们发现有几家公司有资源准确地确定参与者。

其他的去匿名研究

其他几项研究已经使用公开可用的脚印来对敏感数据进行匿名化处理。

也许沿着这些路线最着名的研究是由 Latanya Sweeney 在2002哈佛大学。她发现 87美国人的百分比是唯一可识别的基于他们的邮政编码，性别和出生日期的组合。这三个属性在公共选民登记数据（她为20美元购买）和匿名医疗数据（广泛分发，因为人们认为数据是匿名的）中都有。通过连接这些数据来源，她找到了马萨诸塞州州长的病历。

2006年， Netflix举办了一场比赛以改善其电影建议的质量。他们发布了一个人们电影评级的匿名数据集，并向团队提供了$ 1百万美元，可以通过10百分比改进他们的推荐算法。计算机科学家 Arvind Narayanan 和维塔利Shmatikov 注意到人们观看的电影非常有特色，数据集中的大多数人是基于他们电影的一小部分而唯一可识别的。换句话说，根据Netflix电影选择和IMDB评论，研究人员能够确定Netflix用户实际上是谁。

随着社交媒体的兴起，越来越多的人分享似乎无害的信息，但实际上却揭示了大量的个人信息。由...领导的研究 Michal Kosinski 在剑桥大学使用Facebook喜欢预测人的性取向，政治观点和人格特征.

另一队由领队吉尔伯特Wondracek 在维也纳科技大学建立了一个“deanonymization machine”，通过这个“deanonymization machine”来确定哪些人是社交网络中的一部分，并用它来确定他们是谁 - 因为你所属的组往往足以唯一地识别您。