Twitter如何让科学家成为人类幸福与健康的窗口

自从多年前公开发布10以来,Twitter一直被用作朋友之间的社交网络平台,为智能手机用户提供即时通讯服务,并为企业和政界人士提供促销工具。

但是对于研究人员和科学家来说,这也是一个非常宝贵的数据来源,就像我自己一样,他们想研究人类在复杂的社会系统中的感受和功能。

通过分析微博,我们已经能够观察和收集关于数百万“野外”人们的社交互动的数据。

这使我们能够开发监视工具 大群体的集体情绪,找到 在美国最快乐的地方 以及更多。

那么Twitter究竟是如何成为计算社会科学家的独特资源呢? 它让我们发现了什么?


内在自我订阅图形


Twitter给研究人员最大的礼物

在15,2006,Twittr(正如当时所知) 公然 推出 作为一种“帮助一群朋友用SMS发送随机思考的移动服务”。发送免费的140字符组文本的能力驱使许多早期使用者(包括我自己)使用该平台。

随着时间的推移,用户的数量 爆炸:从20的2009百万到200的2012百万以及今天的310百万。 用户不是直接与朋友交流,而是直接告诉他们的信徒,对消息做出正面或负面的回应,或者开玩笑。

对于研究人员来说,Twitter最大的好处就是提供了大量的开放数据。 Twitter是第一个通过应用编程接口(API)提供数据样本的主要社交网络之一,它使研究人员能够在Twitter上查询特定类型的推文(例如包含特定单词的推文)以及用户信息。

这导致利用这些数据的研究项目激增。 今天,谷歌学术搜索“Twitter”的搜索量达到六百万次,而“Facebook”的搜索量则达到五百万次。这一差异尤其引人注目,因为Facebook大致 是Twitter的五倍 (并且是两岁)。

Twitter的慷慨数据政策无疑为公司带来了一些优秀的免费宣传,有趣的科学研究也被主流媒体所诟病。

学习快乐和健康

由于传统的人口普查数据收集速度慢,收费昂贵,像Twitter这样的开放式数据源有可能提供一个实时窗口来查看大量人口的变化。

佛蒙特大学的 计算故事实验室 成立于2006,研究应​​用数学,社会学和物理学方面的问题。 自从2008以来,故事实验室已经通过Twitter的“Gardenhose”饲料收集了数十亿的推文,API是实时随机抽取所有公共推文的10百分比的API。

我在计算故事实验室工作了三年,很幸运能够成为使用这些数据的许多有趣研究的一部分。 例如,我们开发了一个 hedonometer 即时地衡量Twittersphere的快乐。 通过专注于从智能手机发送的地理位置推文,我们能够 地图 在美国最快乐的地方。 也许不出所料,我们找到了 夏威夷是最快乐的州和葡萄种植纳帕最幸福的城市 为2013。 

一张来自13的2013地理定位美国推特的地图,以幸福着称,红色表示快乐,蓝色表示悲伤。 PLOS ONE,作者提供一张来自13的2013地理定位美国推特的地图,以幸福着称,红色表示快乐,蓝色表示悲伤。 PLoS ONE的,作者提供。这些研究有更深层次的应用:将Twitter的使用与人口统计相关联帮助我们了解城市的基本社会经济模式。 例如,我们可以将词汇使用与肥胖等健康因素联系起来,所以我们建立了一个 lexicocalorimeter 衡量社交媒体帖子的“卡路里含量”。 来自特定地区的提及高热量食物的推文增加了该地区的“卡路里含量”,而提到锻炼活动的推文减少了我们的指标。 我们发现这个简单的措施 与其他健康和幸福指标相关联。 换句话说,推特能够在特定的时间为我们提供一个城市或地区整体健康的快照。

使用Twitter数据的丰富性,我们也能够 以前所未有的细节看到人们的日常运动模式。 了解人类流动模式反过来又有能力转化疾病模型,开辟新的领域 数字流行病学.

对于其他研究,我们研究了旅行者在Twitter上比在家中表现出更大的幸福(回答:他们是否)以及如果 快乐的人往往在社交网络中凝聚在一起 (再次,他们这样做)。 确实, 积极性似乎被烘焙到语言本身在这个意义上说,我们有更多的积极的话,而不是消极的话。 Twitter上并不是这种情况,而是通过各种不同的媒体(如书籍,电影和报纸)和语言。

这些研究以及成千上万的来自世界各地的其他人都可能只能通过Twitter了解。

接下来10年

那么在下一个10年会,我们可以期待从Twitter上学到什么呢?

目前一些最令人兴奋的工作是将社交媒体数据与数学模型连接起来,以预测疾病爆发等人口水平现象。 研究人员已经在用推特数据扩大疾病模型以预测流感方面取得了一些成功,特别是对于流感的预测 FluOutlook 平台由东北大学和科学交流研究所共同开发。

但仍然有许多挑战。 社交媒体数据的“信噪比”非常低。换句话说,与特定研究相关的推文往往被不相关的“噪音”淹没。

因此,我们必须不断地意识到什么被称为“大数据狂傲“开发新方法时不要过分自信。 与此相关联的应该是从这些数据中产生可解释的“玻璃盒”预测的目的(而不是“黑盒子”预测,其中算法是隐藏的或不清楚的)。

社交媒体数据往往(相当)被批评为一个小的, 不具代表性的样本 更广泛的人口。 研究人员面临的主要挑战之一是弄清楚如何在统计模型中解释这些偏差数据。 而 每年有更多的人使用社交媒体我们必须继续努力去理解这些数据中的偏见。 例如,这些数据仍然倾向于以牺牲老年人口为代价来代表年轻人。

只有在开发出更好的偏倚矫正方法之后,研究人员才能够从推文中做出充分自信的预测。

关于作者

Lewis Mitchell,应用数学讲师, 阿德莱德大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍

at InnerSelf 市场和亚马逊