确保您的AI助手可以为您预订约会,但是有意义的对话又如何呢? Shutterstock / Bas Nastassia
谷歌最近 亮相 其最新的语音AI,称为Duplex。 双工听起来像一个真实的人,有停顿,“嗯”和“ ahhs”。
这家科技巨头表示,可以与人们通电话预约和检查营业时间。
在Google揭幕战上录制的对话中,它与接收方的人员进行了无缝对话,他们似乎完全不知道自己没有与其他人交谈。
这些电话离开了 Google展会上以技术为导向的观众大声欢呼。 在一个示例中,AI甚至可以理解与之交谈的人什么时候变得很困惑,并且能够继续跟进对话,并在被告知不需要预订时进行适当的响应。
人工智能助手的兴起
如果您使用了任何当前可用的语音助手,例如 Google Home,Apple的Siri或Amazon Echo,这种灵活性可能会让您感到惊讶。 这些助手是 非常困难 用于标准请求以外的任何其他功能,例如给联系人打电话,播放歌曲,进行简单的网络搜索或设置提醒。
当我们与这些新一代助手交谈时,我们总是意识到我们正在与AI交谈,并且我们经常会相应地调整我们所说的内容,以期希望最大程度地发挥其功能。
但是与Duplex通话的人不知道。 他们犹豫,回溯,跳过单词,甚至在句子中途更改事实。 双层公寓不容错过。 它似乎真的很了解发生了什么。
了解更多: 智能扬声器可能成为家庭自动化的转折点
那么,未来到来的时间比人们预期的要早吗? 世界上充满了在线(和电话)人工智能助手,他们开心地聊天并为我们做一切吗? 或更糟糕的是,我们会突然被聪明的AI包围着,他们的想法和思想可能包括我们人类吗?
答案是肯定的“否”。 要了解原因,可以快速了解如何驱动诸如此类的AI。
双面:如何运作
这是什么 双工AI系统 好像。
系统采用“输入”(如左图所示),这是它正在电话上与之交谈的人的声音。 语音通过自动语音识别(ASR),然后转换为文本(书面文字)。 ASR本身是一种先进的AI系统,但在现有语音助手中已经普遍使用。
然后扫描文本以确定句子的类型(例如问候语,陈述,问题或指示),并提取所有重要信息。 然后,关键信息成为上下文的一部分,这是额外的输入,可以使系统与对话中到目前为止所说的保持最新。
然后,将来自ASR和上下文的文本发送到Duplex的心脏,该心脏称为人工神经网络(ANN)。
在上图中,ANN由圆圈和连接它们的线表示。 人工神经网络粗略地模拟了我们的大脑,其中有数十亿个神经元连接在一起形成巨大的网络。
还不算脑子
但是,人工神经网络比我们的大脑要简单得多。 这个人唯一要做的就是将输入的单词与适当的响应相匹配。 通过向ANN展示预订餐厅的人的数千次对话的笔录来学习。
通过足够的示例,它可以了解正在与之交谈的人期望输入什么样的句子,以及对每个输入者给出什么样的响应。
然后,将ANN生成的文本响应发送到文本语音转换(TTS)合成器,该合成器将其转换为语音,然后在电话上播放给人。
再一次,这款TTS合成器是一种先进的AI –在这种情况下,它比您手机上的AI更先进,因为它的发音几乎与任何普通声音都无法区分。
这里的所有都是它的。 尽管它是最先进的,但系统的核心实际上只是一个文本匹配过程。 但是您可能会问–如果这么简单,为什么我们以前不能这样做呢?
博学的回应
事实是,人类语言以及现实世界中的大多数其他事物太易变且无序,无法由普通计算机很好地处理,但是这种问题对于AI来说是完美的。
请注意,AI产生的输出完全取决于它在学习时所显示的对话。
这意味着需要培训不同的AI来进行不同类型的预订-例如,一个AI可以预订餐厅,而另一个AI可以预订发型。
这是必要的,因为对于不同类型的预订,问题和回答的类型可能相差很大。 这也是Duplex可以比需要处理多种类型请求的常规语音助手更好的方式。
所以现在很明显,我们不会很快与AI助手进行随意的对话。 实际上,我们当前所有的AI都不过是模式匹配器(在这种情况下,就是文本的匹配模式)。 他们不了解所听到的,所看的内容或所说的内容。
模式匹配是我们大脑要做的一件事,但是它们也做得更多。 创建更强大的AI的关键可能是释放更多的大脑秘密。 我们要吗? 好吧,那是 另一个问题.
关于作者
博士后研究员斯特拉顿(Peter Stratton), 昆士兰大学