苏雨农:各位嘉宾、各位朋友,大家下午好!我是来自车音网的苏雨农,当提起车音网的名字,大家会想我们是不是一家做汽车音响的公司?还是提供车汽车音乐服务的公司?都不是,我们是做汽车智能技术以及车联网服务的一家公司,所以今天在这里我给大家介绍一下车音网对于车载语音技术的理解和应用。
其实我以前是做媒体的,技术上其实我也是一个外行,所以我今天也不敢谈技术,我从我自己的理解,介绍一下我们的语音。车载的智能语音其实大家应用的可能还不是特别的多,因为这项技术在车上的应用目前相对比较少,也还不够好,但是大家都对车载云计算多少有一些了解,很多人了解是出自今年在春节期间流传在网络上的一段视频,这是一个来自山东大哥想打一个电话,跟车载的语音交互,最后失败的过程,这个过程用我们北京话来说已经到了白热化的程度了。实际上这个事情就反映了现在的用户对车载语音技术的一些认识上的误区。我就不放这段视频,因为这段视频有一些不太文明的用语,相信大家都对此有印象。这些误区体现在什么地方呢?首先这辆车上展示的语音技术实际上是嵌入式的技术,实际上把部分的语音识别的功能写在车机里面,没有借助互联网。今天上午在听专家介绍的时候,大家经常提到一辆车没有连互联网,就跟一个电脑没有连互联网一样,功能相对来说简单的多。第二实际上在山东大哥跟汽车的交互过程当中已经陷入了一个死循环,这也是车载语音技术的一个重要的忌讳,当然这位山东大哥是自己的口音,以自己的语音习惯,自己的思维模式在跟一个机器交流,而且他把机器当成了人。我们应该责怪这个山东大哥吗?当然不应该,也许我们应该责怪的泡制出这段视频的不太友好的友商而已。
所以这个里面我们可以看到车载语音的应用其实有很多的空间,首先我给大家再介绍一下语音技术一些基本的情况。首先是一个交叉学科,从直接的来理解,跟生理学有关,跟语言学、心理学有关,同时涉及到一个声音的传输的问题,所以他通过互联网的信号,通过电话涉及到通信技术的,同时涉及到音频解码的问题,同时还是一个数学的问题,为什么呢?因为我们在讨论语音识别技术的时候,实际上我们是把一句话的词汇,重要的内容用数据的方式来解析。
简单来说举一个例子,当我们提到苹果,我们会联想到一个相近的词那就是香蕉,因为都是水果。对于语音识别来说,我要吃苹果和吃香蕉是很相近的一个方式。如果我们用二维的坐标来表示苹果的意思,那在坐标上是这样的一个点。香蕉是这样一个点,这两条点到原点各有一条线,这条线当中明显的值越小于越趋于无限小越显示接近的程度。
代表了如何理解云识别,当然云识别这个苹果的词是多个维度来说明。我们再看一下语音技术的一个信息的处理过程,为什么我们说我们不能用人的思维来理解这段传输呢?当人跟人说话的时候,一个人说话,另外一个人听到,听到了以后他就进行理解,理解了以后产生对应的反馈和行动,除非你们说的不是同一种语言,机器是怎么理解人的说话呢?首先第一个过程是将人类的声音转换为文字的一个过程,这个过程建成为语音识别,第二个步骤是语音理解的过程,将文字解析成他所需要的命题,比如说在这个里面请导航到青岛海泉湾大酒店,因为导航是最重要的一个词,其次是青岛,因为是相对较大的一个地区,具体的就是海泉湾,实际上中文的语音识别语音理解的技术上跟英文有一个理解,英文的单词是分开的,中文的词是合在一起的。我应该怎么理解呢?这几个词很可能会造成一些歧义。下一个步骤将识别出来的做一个精准的匹配,下发成一个命令,反馈给用户,告诉他一个导航的路线,对于语音技术来说后面涉及到将文字在转换回声音的一个过程,这是一个基本的传播模式。
其实语音识别技术并不是一个很新的技术,在上世纪五六十年代已经出现了,但是近几年当中取得了相当大的一个发展,我们看到前一段上映的电影是模仿游戏,大部分破译密码,搞了一个计算机的雏形,很多齿轮转了一个月才算出一个密码,现在基于快速的网络传输,基于大数据,基于云服务,其实我们可以非常大的数据探求我们需要知道的一些东西。这几年通过技术的发展,DIN为代表的统计方法,坚实的理论基础以及算法。大规模的语音,文本库的建立。我们还需要一个足够深入和认识的过程。
刚才我们讲的是云识别,我们再看一下车辆和云识别之间的关系。对于车来讲,最基础的原则就是安全,你无论执行任何操作都要以车辆的安全作为保障,所以车载环境是云识别应用最好的,你通过语音可以解放双手,在一些最基础的操作上能够获得便捷性,同时又安全保障,这些基础的操作,我相信大家在开会的过程当中都会有深刻的理解,一个是高频的就是打电话,还有高标的就是高标准的导航要准确,还有伴随性的,比如说媒体,比如说听歌、听电台,还有信息类的,比如说听新闻,还有一些命令词,我要把空调调到多少度。如果这个屋子能执行这个语音命令,我需要把温度调到21度左右。还有一些弱的需求,比如说自然的聊天,这些场景我认为在车上所必须的。用户驾驶的过程当中没有云识别,他也经常发生,你在用一个导航的时候,如果你手机的导航当然很方便了,更新也很快,速度也很快,也不用用车载的流量,但是如果你一边开,一边用手机导航,我觉得这是非常危险的。
所以说我们看到车载智能语音服务的三大原则,一个是跟场景有关,第二个是环境,环境实际上我们可以认为噪声是语音识别技术上重要的一个难点,影响他准确的一个因素,包括各种声音,同时也包括空调出风口的声音,当然也不是说没有解决的办法,可以用多个麦克风,或者麦克风的成本,其实这个直接关系到一个成本。还有对话的过程,体现在一个技术客观性。其实语音来讲,他会趋近于人的想法,会努力学习人的想法,但毕竟不是人,跟人还是有差别的,语音的各种方言千差万别的,中国的语言又是这么的丰富,所以永远会有一个技术的局限性,即使有真人为你服务也会出现一些情况。
中国有这么多的方言,我们怎么来理解方言和语音识别的关系呢?比如说我们识别普通话,这没有问题。带有一点山东味的普通话其实也是可以识别的,你学的越多,你见多识广,我从来没有跟一个山东人讲话,他第一次说话我很不习惯,但是跟他说了几次以后,你就会了解他,就通过语音的积累学习的过程。如果闽南化和浙江某一个村子的话,或者南方某一个方言,对于云识别来说完全是一个全新的语言,因为发言是完全不一样的,语义也是不一样的,传统的词汇也是不一样的,所以对于识别来讲完全可以识别出多种语音,但这是一个性价比的问题。如果我只为一个村子服务开发一条技术,成本显然是不合适的。
这个基本上是车载智能语音的服务产品架构,他可以带来一些相应的应用和服务,比如说导航、媒体、信息,他的传输方式,包括互联网的方式以及电话的方式,最底层需要资源的配合。比如说没有地图商,云识别也是无源之水。以及包括作息资源,需要跟呼叫中心做一些配合。当然还有最基本的层面,首先他要适合车联网的一些最基本的一些系统,同时他要识别各个终端,比如说手机,这个车载语音来讲是最基本的需求,这个就不再介绍了。
我今天要讲的主题其实是车载语音机器人,为什么叫做机器人这个事情呢?并不是一个活生生的人,如果说这个机器发出能跟林志玲美妙的声音,很遗憾,没有一个真人服务你。他会有一些人的特性,包括自然对话,我们不像山东大哥一样会说请导航,必须说的一清二楚,而且说的语字清晰,要根据你的特性,你的语言习惯,你的方言,去不断的摸索,能够识别得更好。还有包括知识丰富,他能够解决你很多问题,不止是导航的一个需求。还有成长的历程,可能你刚接触到它,它对你的服务觉得不太满意,但是随着时间的推移,希望你的满意对会逐渐的提高,当然声音要好听。
所以我们按照人的,对人的理解总结出这么几个品质特征,第一个是专业,第二博学,第三聪明,第四是忠诚。首先专业实际上就是要准,刚才我举了一个例子,我说我要去青岛的海泉湾大酒店,我举一个相对再复杂一点的例子,比如说我要去青岛市北区附近的海鲜饭馆,现在我想最理想的回答应该是你要不要去善得城烧烤店去看38块钱的大虾呢?实际上这里面更复杂,我既要找一个某一个地点,青岛,我们不说市北区了,我们说海泉湾,我们再找饭馆就是进一步的需求,这个需求是相对模糊的。同时我说我饿了,意思是找饭馆,我想取钱,就是想找附近的银行。在这个里面,我们能够给你提供一个准确的方案。比如说这附近有什么餐馆?我理解你想吃东西。你想吃什么,我想吃四川菜,你想找评价高的还是价格实惠的还是其他的因素?实际上这个从吃的逻辑上都可以做到的,实际上是连续对话的东西,而不是单次对话的,这需要更多的数据处理的过程以及更多的积累。现在我们的语音技术是完全可以做到这一点的。
当然这里面还会出现识别不准的问题,这个怎么理解?比如说昨天我打车到这里,我说我要去海泉湾酒店,司机人不认识,我说我去维景湾大酒店,司机说不认识,到了这个地方以后,他说你要去港中旅呀。还有信号不好,没有办法连到云端怎么办?我们的解决办法是如果当用户连续两次无法识别的时候,直接切换到呼叫中心,因为我们也有自己的呼叫中心,有坐席为大家服务,通过人工来解决。这里面第一个语音识别不好的,通过人工解决的更准确。第二个通过互联网的数据传输切换到电话的数据传输,这是我们语音识别技术的一个独有的一个特点。所以我们并不是为了单纯的解决一个识别准确率的问题,可以接近百分之百,但是永远不能达到百分之百。因为识别的更准并不一定是最好的,但是是要解决问题的,我们提供解决方案。对于识别来说不是单纯的满足技术而已,我们说请把窗户打开,在驾驶的时候你说这个命令是没有意义的,随便一对手比说的反映的更快的。
第二个特征是博学,我刚刚一直在说导航的功能,实际上现在的云识别可以实现多个功能,我要导航,我要去哪,我要听一首谁的歌,我要看今天的电气,我要给老板打一个电话,我要看一下今天的新闻等等,其实可以实现多种需求,对于语音来讲,越是趋近于一个垂直的细分的需求,准确率相对来说就会越高,因为首先我知道我是往苹果和香蕉的方向上还是苹果和安卓的方向上?其实是需要识别的范围大大的降低,这个往往会牺牲用户的体验,首先我要说请导航,然后我再说去哪,但是现在你可以实现,根据你的自然的语音,我一说我想听谁的歌,我理解为你听的是一个内容。
同时还有随身聊天的模式,我们姑且把我们的产品叫做小音,你可以跟它做一些基本的交流,但是我认为这个技术即便再先进,其实也不能解决实际的问题。我想用户在开车的时候,尽管他心情很烦闷,他也很疲惫,他也不至于用一个语音跟一个人不断的聊天来解决人的疲倦的问题,我们把这个需求当成一个寒喧的过程。比如说碰到一个好朋友,先跟他说天气不错或者你家里人怎么样?然后再切入正题,趋近于跟真人聊天的感觉,先聊两句,然后再提供服务。
第三个特征是聪明,实际上是一个不断的自我学习的一个过程,刚才其实我已经提过了,随着你使用的时间的增加,他们通过大数据、云服务来了解你的驾驶习惯,你一般可能吃饭去粤菜馆或者川菜馆,或者你听的一般都是老歌,包括开发的应用里都有你喜欢的功能。你听了500首歌,大概分析出你喜欢听什么样的歌,给你做一些推荐。你的口音,甚至语调或者一些特殊的表述,如果从更高一点要求来说,反馈一下你的结果,现在帮你导航到青岛海泉湾大酒店,现在带你去海泉湾还是什么,有很多的说法,在自然聊天的时候会发现,系统会反馈给你一句话,从逻辑上可能不是很通顺,但是体现出自我学习的一个能力。我应对你这个导航需要,我一定要反馈给你这句话,而可能是一个新的表达方式,这个就是基于现在的深度学习的技术,他认为怎么样表达是最合理的,但是在这种训练还不够丰富的情况下,他表述的并不是非常的合理,这跟三四岁的小孩在谈话,他自己认为表述的对,但是你表述的不是太明白,但是他心中有一个意思一样,长大了以后这句话他会说的更清楚。
第四个是忠诚,忠诚特指是生文技术,他是通过你说的一句话的内容,对你的身份进行一个准确的识别的过程,他可以说是具有一定的唯一性的。比如说指纹,这个指纹是在公安领域最为丰富的,包括虹膜等等其实都可以识别这个人的准确身份。前不久,刚刚看过的《谍中谍5》的电影的特工,让他打开这个密码,实际上他就经历了这几个过程,因为他说的很长的一句话,密码才能够解开,其实这是一个非常鲜活的一个例子,也可以说话声文的安全性。他其实跟ASI不同的是什么呢?ASI可以识别一个短的词语和句子。而声文就不一样,比如说你的朋友给你打电话,只说一句话你好,你可能还听不出他是谁,但是多说几句话你就知道是谁的声音了,实际上就是这个道理,而声文的特点可以提供远程的服务。
声文的使用场景在什么地方?你可以设想一下,你打开你的车辆坐进去以后,小音你好,他会告诉你主人你好,他会为你的车辆点火启动,把座椅调整成你最适合的位置,打开车联网的系统上做一个登录,打开你的通讯录,开始适用你的语音的方式或者等等软件的应用。这些都是声文的应用,所以说车载智能语音,有了这些特点可以为你提供更便捷、更舒适的一些服务。当然了,这个技术确实处在不断发展、不断完善的过程,技术基础有的情况下,也需要通过不断的学习、训练。在下周上汽通用新的车型可以体验一下我们车音网提供的云技术。
最后对车音网做一个简单的介绍,其实刚才也都说到了,同时基于用户的使用和技术在做汽车后市场的服务,现在我们对一汽奔腾、一汽马自达等多个品牌进行合作,由于今天时间有限,先讲到这里,希望会后跟大家有一些交流的机会,谢谢大家。
版权声明:本文版权为中国汽车工业信息网所有,转载请注明出处。