My Understanding About Voice Interaction

我对真正的技术层面了解的并不多，这是我需要继续学习的地方。经历过智能手表、智能车载的项目，自家的客厅长期有一个智能音箱在使用，我会经常自己使用、观察家人使用语音交互，一直都很想写一些我对语音交互实际体验的感受和思考。

必须唤醒才能使用

到目前为止，所有的语音助手依然是必须先“叫他”才能开启与他的交互。并且这个“叫法”通常都很固定。

“Hey, Siri!”，“OK, Google!”，“你好问问”，“嗨，小问”，“小爱同学”

当我的家人有时候叫我家的音箱“问问”，有时候叫他“小问”，我就意识到，他们会更倾向于把“问问”当一个人，而人与人的交流就不会“每次”都以一个固定的名字“唤醒”。

我们并不会每次、每个场景都要先叫人的名字，我坐下跟朋友们吃饭，可能吃饭全程我都不会叫他们的名字。当你想与语音助手连续交互的时候，每次都说一次唤醒词，这种体验是非常糟糕的。有技术可以做到让语音在一段时间内不用再唤醒，但这段时间的体验还是会给人带来紧张感，因为你不知道究竟要以什么频率进行交互，也不知道是否需要跟他说些什么让他离开这个状态，也不知道下一次需要再唤醒他是什么时候。
我们称呼一个人的方式可能有很多种，有很多时候是一些很即兴的叫法，我就有十几种叫法叫我的儿子。我所了解到的是，尽管有技术实现多热词，但开启这样的热词过多，意味着整个系统会越来越复杂，会带来更多负面效应。
说的远一点：“人”在你没有“叫他”的时候，他是不会“关闭”的。

唤醒词 & 误唤醒

我家里有一台出门问问自研的家庭智能音箱，平时会用他来放歌，“嗨小问，播放我喜欢的歌”。我们在家说话聊天，经常就会误唤醒音箱，一旦误唤醒，我无法容忍马上再次发生同样的事情，我就会去按一下“停止收音”的按键，然后在接下来的时间就无法再用语音唤醒他了。虽然这可能只是这一款产品的技术问题，但这个现象反映了“唤醒词”本身就是一个比较难处理的技术环节，这个唤醒词可能需要是一个日常聊天里出现比较少的音节组合，否则 Apple 的语音助手也不会叫“Siri”这么拗口的名字。

一旦出错，后续的交互就很尴尬

如果机器识别错了，理解错了，结果不理想，这时就需要用户重复一次刚才的话。我们与人交流的时候，如果人没有听懂，我们会换个方式说一次，当然当我们已经生气了，我们会完全重复，并且加强语气。但当我们跟机器交流的时候，可能就会对“换个方式说”这件事有所顾虑，你不知道是因为周围环境嘈杂导致他没听清楚，还是他已经能够识别但不具备理解刚才那句话的能力。

这样的错误会比用其他交互方式时出错，带来的使用信心上的损失要大一些，毕竟谁都不愿再说一次，更何况再说一次也未必能得到理想的结果。而我们在电脑上，就可以不计成本的用鼠标点无数次“刷新”。

反馈的结果，要怎么展示？

这一环节跟使用搜索引擎是几乎一样的，从网络检索结果，返回给在语音助手“面前”的你。

这时候，反馈结果的最终输出的方式有两种，一种，是通过语音把结果朗读给你，另一种，是通过屏幕呈现。这两种方式，都有非常明显的缺点。

用语音朗读的方式，当问题具有唯一答案的时候，是可以接受的。比如类似“周杰伦多大了”，“赤道有多长”，“国庆节是哪天”等等类似的问题。但是，一旦结果存在多个，用语音把每一条都念出来就会显得非常笨拙。通常一条搜索结果包含很多字段，在屏幕上是可以进行一定的界面设计把结果更有效的展示出来，但语音就只能是“串行”输出。

通过屏幕展现语音搜索结果，很多时候会受到环境的限制，比如在车上，专注开车，双手不想离开方向盘，所以才会选择语音交互，但如果反馈结果在屏幕上，就需要司机的视线离开路面；使用手表的时候，如果语音的反馈结果很复杂，在那么小的屏幕上，就很难找到理想的结果，也很难形成后续的完整闭环体验。

有多少人工，就有多少智能

虽然“人工”和“智能”没法量化的比较，但这句扎心的话，真实的反应了当前技术层面的问题。人工没覆盖到的分类，机器就不会理解，就不会有好的反馈结果。而机器没有训练的很好的部分，也会存在体验不好的问题。目前做语音产品的过程，相当于是维护一个庞大的功能列表和每个功能的完成度，这就需要建立一个更科学的协作和同步的机制，无论在哪一个环节，都需要充足的人力。需求决定市场，正是由于人工智能产业的发展，也促使在一些小城市诞生了给人工智能提供数据的产业，很多公司会利用小城市的廉价人力资源优势，为有需求的科技公司收集、标注数据。

隐私

人们是有很多事情不愿意说出来的，哪怕是去搜索一个很简单的问题，直接通过键盘鼠标，别人不会知道“我不知道这件事”“我去网上查了什么”。尽管我可能并不很担心别人了解了我在干什么，但如果把问题说出来，周围的人本不该知道，因为我说出来，就都知道了，心里面也会觉得很奇怪。

究竟什么场景适合语音交互

生产环境通常人多，嘈杂，需要频繁交流沟通，也很注重隐私，这些条件都会制约语音交互。强调在生产环境使用语音交互的，恐怕只有 Smartisan TNT 这一款产品了。单一终端的方向是TNT最值得称赞的，但我相信不会有那么一天，人们都像接线员一样工作在周围所有人一直在对机器说话的环境。对于生产环境来说，一些相对独立，安静，双手很忙无法使用键盘的场景，是比较适合语音交互的，可我脑中直接出现的却是钢铁侠的工作环境。

生活环境，是目前语音技术率先来到的场景。有很多体验是不错的，例如：“导航回家”“播放xxx”。但这类都是单一结果的，几乎不需要做选择的指令。一旦面临更复杂的指令，场景就不那么自然了，比如“导航去国贸”，这时机器的逻辑是会问你去“国贸的哪里”，机器也可能会一条条给你念出来，而如果你没跟上语音播报，就要再回到屏幕上去做选择了。这时你会发现，需要做“多项选择”的时候，声音通常不是一个好的承载信息的媒介，而通常我们的搜索行为最终面临的就是“多选”。

自然交互

尽管设计师们在尽可能的给语音助手“赋予生命”，但语音助手在本质上离具备“意识”还差的很远，跟他交流一段时间，你就知道，他仍然还是一行行的代码。

手机上早就有语音助手了，但我们真的很少见到经常跟手机用语音交互的人。让用户用语音交互，跟让用户用打车软件打车，用外卖软件叫外卖，用微信支付宝支付不一样，语音交互并没有在哪个场景能如此高效、方便的给人带来效率的提升。

基于目前的人工智能语音发展的现状，没有哪个环境哪个场景是完全适合语音交互的。适合语音交互的，都是一些特定的时刻，某些具体任务。只有到真正需要的时候，可以很自然的采用最合适的方式去交互，才是最自然的交互。