新葡京国际娱乐 (2)
全栈意味着技术全,能够形成闭环;硬核技术才是全栈的基础,没有硬核的技术,产业的问题还是不能解决。
截止到目前,云知声的硬核 AI 技术覆盖了语音感知与表达、语言与知识计算、AIoT 芯片落地,以及超算平台与图像、翻译拓展等多个维度。
全栈和硬核是云知声过去七年打造的技术闭环。在过去七年,云知声陆续在教育、医疗、家居等领域落地,这也说明了行业的需求是真实存在的,问题在于AI企业是否能找到自己的核心场景,用技术解决行业问题。
后端:云知声人机对话系统
这套全栈技术闭环的起点是语音识别,是云知声的核心技术。
2012年9月,云知声发布了基于传统统计模型的第一代语音识别引擎,准确率为85%。同年12月,云知声又上线了业内第一家搭载DNN(深度神经网络)的云平台,将准确率提升到91%。
在语音识别技术的基础上,要实现物联网语言交互入口的功能,语言识别技术是不够的,语音交互才是未来,而人机对话的交互系统则是更难的技术进阶。
云知声AI labs资深专家刘升平说,“我们预测在未来,机器的智能水平能够超过人类。但现状是,现在的人工智能,我们会更乐意称呼其为人工智障,云知声不希望做成人工智障的批发制造者”
刘升平认为,目前人机对话系统的问题主要有三个:
1、每次交互都要唤醒:反人类
2、只理解模板化单句:对语境无感
3、只会闲聊,知识贫乏:没文化
云知声从2013年开始做语音交互系统,对于这3个问题,云知声提出了流式对话、语用计算和知性会话的解决方案。
流式对话
“在315晚会上,报道上说有很多机器人打骚扰电话,那么怎么样检测它是不是机器人打电话呢,只要不能打断它的,都是机器人。”刘升平介绍道。
云知声提出流式对话特征是,免唤醒进行多次交互,且用户能够随时打断。
实现流式对话需要机器能够进行智能断句,需要机器能够识别主人的声音,并且需要机器对于语音的定位和理解。
刘升平认为,只有对声音的进行特征选取,利用语言和语义的深度结合,才能实现流式对话。
语用计算
语用计算意味着在理解一句话的含义时,从语用的角度理解,而不是直接从语境的角度理解,要结合更丰富的语义,去真实的理解这句话真正的含义。
举例来说,当人说的话语是“太冷了”,它的语义即字面意思是“温度有点低”,但从语用的角度即在特定语境中所传递的会话意义可以是,“把空调温度调高两度?打开暖气?关闭门窗?来一个温暖的拥抱?”
语用是要将语义和语境结合。语境指人们用语言进行交际时的具体环境,包括语言语境和非语言语境。在人机对话下的语境可分为物理语境、言语语境、知识语境。
“我们说的话是冰山上面的一角,理解一句话的含义,不能只看当前信息的输入,而是要看冰山下面各种各样的语境输入。”刘升平说。
知性会话
知性会话的基本思想就是把知识图谱用到知性对话里面去,通过实体链接技术,融合多源知识,实现跨领域,跨交互形式的多轮对话,让知识图谱全程的参与整个对话过程,包括聊天、问答,都由知识图谱来支撑,让机器表现的像一个专家。
云知声希望把人机对话系统做的越来越聪明,越来越接近人类的水平,云知声下一步的目标是多模态的互动和个性化的体验。
刘升平透露,云知声近期的目标是在垂直领域特定场景下,通过图灵测试。