My Understanding About Voice Interaction

我对真正的技术层面了解的并不多,这是我需要继续学习的地方。经历过智能手表、智能车载的项目,自家的客厅长期有一个智能音箱在使用,我会经常自己使用、观察家人使用语音交互,一直都很想写一些我对语音交互实际体验的感受和思考。

必须唤醒才能使用

到目前为止,所有的语音助手依然是必须先“叫他”才能开启与他的交互。并且这个“叫法”通常都很固定。

“Hey, Siri!”,“OK, Google!”,“你好问问”,“嗨,小问”,“小爱同学”

当我的家人有时候叫我家的音箱“问问”,有时候叫他“小问”,我就意识到,他们会更倾向于把“问问”当一个人,而人与人的交流就不会“每次”都以一个固定的名字“唤醒”。

  • 我们并不会每次、每个场景都要先叫人的名字,我坐下跟朋友们吃饭,可能吃饭全程我都不会叫他们的名字。当你想与语音助手连续交互的时候,每次都说一次唤醒词,这种体验是非常糟糕的。有技术可以做到让语音在一段时间内不用再唤醒,但这段时间的体验还是会给人带来紧张感,因为你不知道究竟要以什么频率进行交互,也不知道是否需要跟他说些什么让他离开这个状态,也不知道下一次需要再唤醒他是什么时候。

  • 我们称呼一个人的方式可能有很多种,有很多时候是一些很即兴的叫法,我就有十几种叫法叫我的儿子。我所了解到的是,尽管有技术实现多热词,但开启这样的热词过多,意味着整个系统会越来越复杂,会带来更多负面效应。

  • 说的远一点:“人”在你没有“叫他”的时候,他是不会“关闭”的。

唤醒词 & 误唤醒

我家里有一台出门问问自研的家庭智能音箱,平时会用他来放歌,“嗨小问,播放我喜欢的歌”。我们在家说话聊天,经常就会误唤醒音箱,一旦误唤醒,我无法容忍马上再次发生同样的事情,我就会去按一下“停止收音”的按键,然后在接下来的时间就无法再用语音唤醒他了。虽然这可能只是这一款产品的技术问题,但这个现象反映了“唤醒词”本身就是一个比较难处理的技术环节,这个唤醒词可能需要是一个日常聊天里出现比较少的音节组合,否则 Apple 的语音助手也不会叫“Siri”这么拗口的名字。

一旦出错,后续的交互就很尴尬

如果机器识别错了,理解错了,结果不理想,这时就需要用户重复一次刚才的话。我们与人交流的时候,如果人没有听懂,我们会换个方式说一次,当然当我们已经生气了,我们会完全重复,并且加强语气。但当我们跟机器交流的时候,可能就会对“换个方式说”这件事有所顾虑,你不知道是因为周围环境嘈杂导致他没听清楚,还是他已经能够识别但不具备理解刚才那句话的能力。

这样的错误会比用其他交互方式时出错,带来的使用信心上的损失要大一些,毕竟谁都不愿再说一次,更何况再说一次也未必能得到理想的结果。而我们在电脑上,就可以不计成本的用鼠标点无数次“刷新”。

反馈的结果,要怎么展示?

这一环节跟使用搜索引擎是几乎一样的,从网络检索结果,返回给在语音助手“面前”的你。

这时候,反馈结果的最终输出的方式有两种,一种,是通过语音把结果朗读给你,另一种,是通过屏幕呈现。这两种方式,都有非常明显的缺点。

用语音朗读的方式,当问题具有唯一答案的时候,是可以接受的。比如类似“周杰伦多大了”,“赤道有多长”,“国庆节是哪天”等等类似的问题。但是,一旦结果存在多个,用语音把每一条都念出来就会显得非常笨拙。通常一条搜索结果包含很多字段,在屏幕上是可以进行一定的界面设计把结果更有效的展示出来,但语音就只能是“串行”输出。

通过屏幕展现语音搜索结果,很多时候会受到环境的限制,比如在车上,专注开车,双手不想离开方向盘,所以才会选择语音交互,但如果反馈结果在屏幕上,就需要司机的视线离开路面;使用手表的时候,如果语音的反馈结果很复杂,在那么小的屏幕上,就很难找到理想的结果,也很难形成后续的完整闭环体验。

有多少人工,就有多少智能

虽然“人工”和“智能”没法量化的比较,但这句扎心的话,真实的反应了当前技术层面的问题。人工没覆盖到的分类,机器就不会理解,就不会有好的反馈结果。而机器没有训练的很好的部分,也会存在体验不好的问题。目前做语音产品的过程,相当于是维护一个庞大的功能列表和每个功能的完成度,这就需要建立一个更科学的协作和同步的机制,无论在哪一个环节,都需要充足的人力。需求决定市场,正是由于人工智能产业的发展,也促使在一些小城市诞生了给人工智能提供数据的产业,很多公司会利用小城市的廉价人力资源优势,为有需求的科技公司收集、标注数据。

隐私

人们是有很多事情不愿意说出来的,哪怕是去搜索一个很简单的问题,直接通过键盘鼠标,别人不会知道“我不知道这件事”“我去网上查了什么”。尽管我可能并不很担心别人了解了我在干什么,但如果把问题说出来,周围的人本不该知道,因为我说出来,就都知道了,心里面也会觉得很奇怪。

究竟什么场景适合语音交互

生产环境通常人多,嘈杂,需要频繁交流沟通,也很注重隐私,这些条件都会制约语音交互。强调在生产环境使用语音交互的,恐怕只有 Smartisan TNT 这一款产品了。单一终端的方向是TNT最值得称赞的,但我相信不会有那么一天,人们都像接线员一样工作在周围所有人一直在对机器说话的环境。对于生产环境来说,一些相对独立,安静,双手很忙无法使用键盘的场景,是比较适合语音交互的,可我脑中直接出现的却是钢铁侠的工作环境。

生活环境,是目前语音技术率先来到的场景。有很多体验是不错的,例如:“导航回家”“播放xxx”。但这类都是单一结果的,几乎不需要做选择的指令。一旦面临更复杂的指令,场景就不那么自然了,比如“导航去国贸”,这时机器的逻辑是会问你去“国贸的哪里”,机器也可能会一条条给你念出来,而如果你没跟上语音播报,就要再回到屏幕上去做选择了。这时你会发现,需要做“多项选择”的时候,声音通常不是一个好的承载信息的媒介,而通常我们的搜索行为最终面临的就是“多选”。

自然交互

尽管设计师们在尽可能的给语音助手“赋予生命”,但语音助手在本质上离具备“意识”还差的很远,跟他交流一段时间,你就知道,他仍然还是一行行的代码。

手机上早就有语音助手了,但我们真的很少见到经常跟手机用语音交互的人。让用户用语音交互,跟让用户用打车软件打车,用外卖软件叫外卖,用微信支付宝支付不一样,语音交互并没有在哪个场景能如此高效、方便的给人带来效率的提升。

基于目前的人工智能语音发展的现状,没有哪个环境哪个场景是完全适合语音交互的。适合语音交互的,都是一些特定的时刻,某些具体任务。只有到真正需要的时候,可以很自然的采用最合适的方式去交互,才是最自然的交互。