在线说谎6 29

在生活中你可以确定三件事:死亡,税收和撒谎。 后者当然似乎已经被英国最近的英国脱欧公投所证实 离开广告系列 承诺 看起来更多 喜欢 猪肉派 比可靠的事实。

但从互联网广告,签证申请和学术文章到政治博客,保险索赔和约会档案,有无数的地方,我们可以告诉数字谎言。 那么如何才能发现这些在线fibs呢? 那么,威斯敏斯特大学的Stephan Ludwig,伦敦城市大学Cass商学院的Ko de Ruyter,Louvain天主教大学的Mike Friedman,以及你们真正开发出了一种数字化的测谎器 - 它可以发现大量的互联网虚假信息。

在我们的新研究,我们使用语言线索将成千上万个预先确定为谎言的电子邮件与那些已知为真实的电子邮件进行比较。 从这个比较中,我们开发了一个可以检测欺骗的文本分析算法。 它在三个层面上工作。

1。 Word使用

在处理大量的数字数据时,关键字搜索可能是一个合理的方法。 所以,我们首先发现了两个文档集之间的词用法差异。 这些差异确定了可能包含谎言的文本。 我们发现一般说谎的人使用较少的人称代词,比如我,你和他/她,以及更多形容词,如辉煌,无所畏惧和崇高。 他们也使用较少的第一人称单数代词,如我,我,我的,与会话词汇(如,可能,应该,会),以及更多的第二人称代词(你,你) ,赢)。

较少的人称代词表明作者试图脱离他们的言辞,而使用更多的形容词则试图通过一系列多余的描述来分散注意力。 较少的第一人称单数代词与差异文字相结合,表明缺乏微妙和积极的自我形象,而更多的第二人称代词与成就词相结合表明企图奉承接受者。 因此,我们在算法中包含了这些搜索项的组合。


内在自我订阅图形


2。 结构审查

解决方案的另一个部分在于分析认知过程词的差异,比如原因,因为知道和应该 - 我们确定了结构词和谎言之间的关系。

骗子不能从实际的记忆中产生欺骗性的电子邮件,所以他们避免自发逃避检测。 这并不意味着说谎者比说真话的人更多地使用更多的认知过程词汇,但是他们确实包含了更一致的词汇。 例如,他们倾向于把每个句子连接到下一个句子 - “我们知道这是因为这个,因为这应该是这样的”。 我们的算法在通信中检测过程字的这种用法。

3。 跨电子邮件的方法

我们还研究了电子邮件发件人在与其他人交换大量电子邮件时改变其语言风格的方式。 这部分研究表明,随着交换的继续,发送者倾向于使用接收者使用的功能词。

功能词是对语法或结构有贡献的词语,而不是句子的含义 - 例如,一个,是。 发件人修改了他们的信息的语言风格,以配合接收者的语言风格。 结果,我们的算法识别和收集这样的匹配。

精彩的应用程序

消费者监督人员可以使用这种技术为可疑的广告分配“可能撒谎”的分数。 安全公司和国家边防部队可以使用该算法对签证申请和登陆卡等文件进行评估,以更好地监测进入和入境规则和条例的遵守情况。 高等院校考试委员会秘书和学术期刊编辑可以通过改进校对工具,自动检查学生论文和学术文章的抄袭情况。

事实上,潜在的应用程序继续下去。 政治博客可以成功地监控他们的社交媒体互动中的文本异常,而约会和评论网站可以根据用户提交的“可能撒谎”的分数来分类消息。 保险公司可以更好地利用可用于索赔审计的时间和资源。 会计师,税务顾问和法医专家可以调查财务报表和税收索赔,并通过我们的算法找到欺骗性的吸烟枪。

人类有意识地发现欺骗手段是非常糟糕的。 确实, 发现谎言的人的准确性只是54%,几乎没有比机会更好。 与此同时,我们的数字化测谎器是70准确的。 它可以用来打击计算机化内容中出现的任何欺诈行为,随着技术的发展,其皮诺乔警告可以完全自动化,其准确性将进一步提高。 就像皮诺乔的鼻子反射性地暗示虚假,我们的数字测谎器也是如此。 纤维要小心。

关于作者

谈话伦敦城市大学市场营销高级讲师Tom van Laer

这篇文章最初发表于 谈话。 阅读 原创文章.

相关书籍

at InnerSelf 市场和亚马逊