和我说话计算机:语音控制正在起飞

如果意想不到的软件包开始出现在您的家门口,您可能希望对您的某个智能设备有所了解。

本月早些时候,达拉斯的一个六岁的孩子问她的家人 亚马逊回声 智能扬声器的玩具屋。 亚马逊的Siri-like人工助理Alexa,及时 命令一个到他们的房子.

圣地亚哥电视台的一个新闻节目把这个故事记录下来,当一个新闻主播评论道:“我喜欢这个小女孩,说'Alexa命令我成为一个玩具屋'。”无意中听到这个消息,圣地亚哥 试图购买更多娃娃屋.

CW6圣地亚哥新闻报道Alexa的意外娃娃屋购买。

{youtube}oI2KLIULjXc{/youtube}

任何试图与苹果的Siri或微软的Cortana进行对话的人都会听到这个故事。 我们的设备已经变得相当擅长倾听我们,但这并不总是意味着他们理解。

最近微软的研究人员指出,这是今天谈话界面的一个潜在问题:他们被当做“智能”助手销售,有着聪明的笑话和世俗的知识,但是他们常常因为缺乏常识而感到挫败。


内在自我订阅图形


在一个 小研究研究人员发现,随着时间的推移,继续与数字助理交谈的人是那些以最低期望开始的人。

什么是语音界面实际上做的?

当你说话的语音界面,它必须:

  • “听”你的声音,并将其与背景噪音区分开来
  • 找出每个单词开始和结束的位置,忽略你的“umms”和“ahhs”
  • 将每个单词的声音与词典中的单词进行匹配,如果存在,则从上下文中选择正确的单词 同音
  • 正确地解释整个句子的意思
  • 生成符合您要求的有意义且有用的回复。

这些都是一个复杂的技术挑战,不同的技术公司在不同的领域取得了进展。

Google Now擅长针对广泛的请求提供相应的回复,因为如果您使用Google服务,Google可以从Google的关于网络的数据以及您的个人活动中受益。

亚马逊Echo特别擅长听到你的要求,从一个嘈杂的房间,由于远场噪声消除麦克风阵列。 当然,它也擅长通过亚马逊进行购买。

在过去的几年中,语音界面在理解日常或“自然”的语言方面已经变得更好,而不仅仅是脚步和措辞谨慎的命令。 他们在处理简单的问题方面(比如“谁在澳大利亚网球公开赛?”)更擅长处理一些简单的问题,并且倾向于更加复杂的请求,比如“谁今年首次参加澳大利亚网球公开赛?”和跟进问题,比如“决赛中会下雨吗?”

对于英语以外的语言,情况更加复杂:虽然Siri支持的不仅仅是40语言和方言,但到目前为止,Alexa仅提供英语和德语版本。 但所有这些功能都在稳步提升。

哪里的语音接口口吃

就像电影里预言的那样,语音界面很快就会接管我们所有的技术 她的? Gartner是一家技术研究公司, 有预测 到明年为止,30与我们技术交互的百分比将是与语音界面的对话。

但语音接口有局限性,并非所有这些都可以通过更好的技术来解决。

在Spike Jonze的电影“Her”中,语音是与技术接口的核心手段。

{youtube}ne6p6MfLBxc{/youtube}

噪音污染是一大障碍。 你的设备可以区分你所说的背景噪音吗? 技术可以帮助,包括降噪,个性化语音识别和唇读。

但是,通过与智能设备交谈,为其他人创建的背景噪音呢? 想象一下,坐在你办公室或者飞机旁边的一个人,在你试图阅读的时候和Siri聊天,你就会明白为什么语音界面可能并不总是被社会接受。

另外一些问题来自语音接口的精神需求。 学习使用基于语音的系统可能会很困难,特别是如果没有屏幕,就像Amazon Echo一样。

如果你曾经打电话给过银行或电话公司,你就会知道,当你等待所需要的一切时,听到一个合成的声音来自集中和无聊的可怕组合,并且尽量不要混合它们向上。 传统的图形界面通过向您显示可用选项并让您快速点击您的选择来避免此问题。

学习语音命令后,使用它们可能会分散注意力。 研究人员已经发现了语音命令 打乱你的思路 不仅仅是鼠标和键盘。

这对于车内语音界面尤其危险:来自犹他州大学的一对研究发现司机是 分心达到27秒 在使用语音命令之后。

犹他州大学/ AAA交通安全基金会关于驾驶员分心的研究。

{vimeo}108281698{/vimeo}

发现它的声音?

所以语音接口不可能完全接管,但是他们会在我们的生活中找到有用的位置。 它们在汽车中已经很常见,随着技术的进步,它们希望变得越来越分散注意力。

在厨房里,你可以要求Alexa在你的手忙着烹饪的时候通过食谱或者更新你的购物清单。 在虚拟和增强现实中,语音界面可以让您在看不到手时控制系统。

在语言学习中,可以用于练习发音。 最重要的是,语音界面可以帮助用户解决运动障碍,RSI或阅读困难等问题。

语音接口是人们期待已久的技术,有充分的理由认为他们的时间终于到来了。 请记住,他们可能还没有听起来那么聪明。 如果孩子们在附近,你可能想要在声音购买上输入PIN码。

谈话

关于作者

Fraser Allison,人机交互博士候选人, 墨尔本大学

这篇文章最初发表于 谈话。 阅读 原创文章.

相关信息

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf 市场和亚马逊