新葡京国际娱乐 (3)
远场语音交互中的前端信号处理技术
如果说后端的语音交互让机器能够听懂人类、读懂人类,实现真正的无障碍沟通,那么前端的信号处理,则是让机器准确清晰的接收到人类发出的信号。
2011年发生了两件事,一个是微软把DNN,用于ASR;另外一个是苹果把DNN用于Siri。一个是语音识别的突破,另一个是产品的应用,它让广大用户知道语音识别是什么。亚马逊在2014年推出了智能音箱Echo,搭载了7个麦克风,这是从近场切换到远场的分水岭。
此后,国外、国内大公司都在做智能音箱,语音交互成了新的流量入口。云知声从近场识别起步,但在物联网时代,语言识别落地的场景决定了远场的语言识别成了云知声必须突破的技术。
云知声从近场到远场的技术突破都碰到了哪些问题?
近场,是指在0.5米的位置,安静条件下进行录制。云知声刚开始做远场时,云知声在不同的场景之下,不同的干扰之下,录制了对应的近场和远场,但无论是唤醒还是识别,都有非常大的下降,近场到远场,从可用状态下降到不可用状态。
将近场应用变成远场应用,它的关键点就是前端信号处理,把干扰噪音去掉,留下干净的声音,送到机器,保证机器识别。
解决远场语音识别的关键点——前端信号处理,前端信号处理需要解决三个问题,回声、混响、噪声。云知声在面对这三个问题时,利用回声消除技术、混响抑制技术、空域滤波技术,使得远场从不可用变为可用。
谈到前端信号处理的未来,云知声AI labs的专家关海欣认为:第一,DSP技术和DL技术需要融合。第二,从单体麦克风到分布式的前端麦克风。
芯片端:边缘计算
2015年,在做终端批量产品时,云知声发现用通用芯片做AI的规模化的成本非常高,只能用在相对高端的产品上,使用通用芯片去落地低端、大规模的产品是不可能的。
云知声副总裁李霄寒说,“我们之所以需要做AI芯片,是因为我们觉得算力和成本是有矛盾的,在原有的架构下是不可化解的。唯一的解决办法就是AI芯片。”
人工智能的每一阶段都和芯片有着紧密的联系。
1956年的达特茅斯会议是人工智能元年,芯片的计算能力限制了人工智能的发展;20世纪的80年代中期到90年代,CPU的发展推动了对算法实践的产生了巨大影响;2009年前后,GPU被用来做深度学习算法训练;2016年阿尔法狗采用TPU架构用人工智能芯片做数据的训练。
每次芯片计算能力的进步,都推动着人工智能水平的提升。
李霄寒认为“在未来AI芯片可以分成两类,一类是服务端芯片,经过大规模的数据处理做训练,用来形成AI模型的,这部分以寒武纪为代表;另一类是云知声正在做的边缘侧芯片。”
云知声认为边缘侧的AI芯片在物联网人工智能落地具有核心的位置。
物联网时代是建立在云计算上的,云平台相当于人的大脑,在云端集成了人工智能的能力,是物联网的神经中枢。那么终端的设备,该如何去承接云端人工智能的能力?
云端的能力跟终端的用户连接需要一个载体。李霄寒认为这个载体过去是手机,但在未来的物联网时代,这个载体可能是开关、插座或者音箱,所有的设备都有可能,对于这些设备来说,承接云端的能力的方案就是AI芯片。
云知声在2015年我们正式启动研发AI芯片。“我们认为这条路是对的,这是一个趋势的问题,而不是战略的问题。”
那么,AI芯片与传统的CPU和SOC,在设计上有什么不同呢?
云知声在AI芯片的实践中发现,AI芯片和传统芯片的区别和挑战分为四方面。
1、端侧AI芯片更要求基于场景。