快乐或伤心5 28

想想今天在Facebook上与朋友分享的内容。 是“压力”还是“失败”,或者“快乐”,“爱”还是“兴奋”? 每当我们在社交媒体上发帖,我们都留下了我们心情的痕迹。 谈话

我们的情绪是有价值的商品,许多公司正在开发自动化工具,在一个称为情感分析的过程中识别它们。

最近有泄露的报道 发现 Facebook可以识别年轻人是否感到脆弱,虽然公司已经 坚持不用这个分析 以广告为目标用户。 Facebook的 也道歉 在2014中为 实验 关于“情绪传染”,其中具有“正面”或“负面”情绪的帖子被从用户的信息源中滤除。

显然,从文本中检测情感的能力是社交媒体公司以及广告商非常感兴趣的。 但情感分析是如何工作的,为什么它有用,危害是什么?

情绪分析如何工作?

虽然Facebook自己的算法的细节没有公开,大多数情感分析技术分为两类:监督或无监督。


内在自我订阅图形


监督的方法依靠标记的数据。 换句话说,这些是被手动分类为包含积极或消极情绪的帖子。

然后使用统计方法来训练模型,以基于预先识别的单词或短语(例如“强调”或“放松”)的存在来自动分类新帖子。

另一方面,无监督的方法通常依赖于为不同的单词建立分数字典。 一个这样的字典 由我的合作者开发,要求人们给1 9幸福得分用不同的词,然后平均结果:“彩虹”,例如,得分8.06,而“无用”得到2.52。

 

然后可以通过查看帖子中的所有单词来评估一个短语的总体情绪。 例如,“我的妈妈总是说'生活就像一盒巧克力'”的平均得分是根据这本词典的高于平均水平的6.02,这表明它表达了积极的感觉。

什么是情感分析用于?

情绪分析越来越多地被营销人员使用 研究趋势并提出产品建议.

想象一下新手机的发布; 对社交媒体关于手机的帖子的情绪分析可能使公司对其表现如何有价值的实时洞察。

情绪分析有更广泛的应用。 研究人员最近 跟踪了唐纳德·特朗普在他担任总统以来的第一个100日的推特情绪建立机器人进行市场交易 当他对特定公司发表正面或负面的消息时。

科学家们也可以跟踪其他文章中的情绪趋势。 例如,我们使用情感分析来研究1,000电影的情感弧,通过他们的剧本。 下面显示了2013迪斯尼电影“冰雪奇缘”的弧线。

情感弧为电影“冰雪奇缘”。

许多电影都显示出类似的模式:紧张和放松的规则高峰和低谷,接着是通过电影(所有的希望都失去了!)的一个特别大的低谷80%,在最后的决议和愉快的结局之前。 对小说应用类似的分析,我们表明了这一点 大多数故事都沿着六个基本的故事弧线之一.

我们对情绪分析还不太擅长

鉴于情绪分析往往依赖于挖掘社交媒体的帖子,这引起了重大的伦理关注 这个辩论只是开始。 然而,语言和意义的复杂性使其容易出错。

拿这句话,“愿武力与你同在”,它使用我们的字典分析得分5.35。 对于任何“星球大战”粉丝来说,这当然是一个非常积极的词组,但是在我们的测试中得分并不高,因为“force”这个词的评分低于平均水平。

当单独评价这个词时,这是可以理解的,但是在上下文中,这是没有意义的。

因此,有人怀疑Facebook的情感分析能力的有效性。 完全可以想象的是,在脸书上描述某种“完全恶心”的东西,这种口头上的支持可能会导致个人的情绪状态被误分类。

为了理解情绪分析何时起作用,何时起作用,重要的是要检查推动特定结果的词汇。

要做到这一点,我们使用“字移“图表,就像下面的”冰雪奇缘“一样。 这表明哪个词使得剧本的高潮比悲伤的结局更令人悲伤:更多地提到“悲伤”和“恐惧”,但奇怪的是更“美丽”。

比较“冰雪奇缘”的高潮和快乐的结局。 朝着图表顶部的蓝色条显示了对分数差异的贡献。

承诺和警告

情感分析是一个强大的工具,但它只是一个年轻的科学,必须谨慎使用。

科学家们必须开发一些工具,让我们能够“隐藏起来”,并理解某些算法为什么会产生他们所做的结果。 这是用不同方法诊断问题的唯一方法,更重要的是教育公众关于该领域的可能性和局限性。

情感分析研究主要建立在大型公共数据集上,特别是来自社交媒体。 很重要的是,我们无意中提供的数据知道它可以或不可以使用的数据,以及如何使用数据。

关于作者

阿德莱德大学应用数学讲师刘易斯·米切尔(Lewis Mitchell)。 米歇尔·爱德华兹对这篇文章做出了贡献

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍:

at InnerSelf 市场和亚马逊