解密百度智能音箱小度:“听清、听懂、满足”背后的技术和能力

时间:2019-09-06 来源:www.cmlm.net

01: 45: 44雷锋网

当谈到百度智能音箱的小尺寸时,你可能会认为他已经在春晚上演了真人秀节目中的智能和智能外观《向往的生活》。只要我们对他“小,小”大喊,他会立即回复我们并回应我们的任何要求。

根据市场研究公司Strategy Analytics《2019 Q2全球智能音箱的报告》的最新发布,该公司在该国排名第一,出货量为470万单位;而在全球范围内,其出货量仅次于亚马逊和谷歌。

小的背后是什么样的技术?我们评估智能扬声器的质量。它的标准是什么?雷锋网了解到,在正常情况下,我们主要从三个方面评估智能音箱的质量,即听力,理解和满意度。

在收听方面,它指的是将用户的声波转换为正确的单词,通常称为语音识别或唤醒。在内部和外部噪声的干扰下,机器必须能够准确识别用户的指令。通过引入百度语音开创的流媒体多级截断关注模型(SMLTA),该部分可以大大增强ASR效果。

我们熟悉的ASR技术(自动语音识别)将声音转换为可与人耳进行比较的单词。 TTS技术(文本到语音)将单词转换为声音(读出来,它类似于人类口腔。每个人在Siri等各种语音助手中听到的声音都是由TTS生成的。并不是真正的人在说话。

关于SMLTA,根据公共信息,它使用CTC的尖峰信息(语音识别算法)来切断连续语音流,然后在每个截断的语音段上进行当前建模单元的注意建模;原始全局句子注意建模成为本地语音段的注意建模;同时,为了克服CTC模型不可避免的插入和删除错误,该算法引入了一个特殊的多层次。注意机制实现了更精确的特征层渐进特征选择;最后,这种创新建模方法的识别率不仅超越了传统的全局注意建模,而且还保持了计算量和解码速度等在线资源。成本与传统的CTC模型相同。这也是第一个公开报告,本地注意建模,可能超过全球注意建模。

在理解方面,这意味着在获得此字符串后,您是否可以了解用户的需求,可以给出正确的答案或提供指导。例如,当获得少量模糊需求(不清楚的指令)时,它试图分析并纠正其自己的指令以更准确地满足用户的需求。它结合了百度NLP的知识增强语义表示模型ERNIE,并将核心理解算法升级为超大数据预训练深度模型。

7月30日,百度发布了ERNIE的优化版本,即ERNIE 2.0自然语言理解框架。它可以通过连续的多任务学习来学习和构建预训练任务。该框架支持三个级别的自定义预训练任务,如词法,句法和语义,并通过多任务学习训练它们,以完全捕获训练语料库中的词汇语法。语法,语义等潜在信息。无论何时引入新任务,框架还会在逐步训练分布式表示的同时记住上一个任务的信息。

最后,在满意度方面,越多用户想要的越多,我们可以提供更多吗?这是令人满意的部分。在满足用户需求方面,它将百度的全网搜索功能与大规模准确的用户肖像集成,从直接满意到个性化助理。

智能扬声器满足的能力,这里主要看两点,设备知识和技能与服务生态。百度智能生活集团(SLG)首席技术官朱开华说,

“对于小而言,它依赖于百度生态中的知识地图和搜索请求,以及网络内容支持,其知识也很完善。另外,在技能服务生态方面,小助手的开放平台已经有了更多的名字开发人员,已经积累了2400多种在线技能。“

件:

软件和硬件相结合。也就是说,硬件设计用于软件,当硬件构建时,它需要专门为软件的功能而制作;

语音识别和语义理解的结合。指能够进行端到端的识别和理解,连接的整个体验,整个深度的整合和优化;

完整的技术储备和解决方案例如,小,百度的所有技术?在内部,可以深入整合。

朱开华说,在智能音箱行业,设计软件非常重要。构建硬件时,必须为软件制作特殊功能。在设计之初,声学对声学有很高的要求,在高噪声环境中,它们也可以被准确地唤醒。这个前提是硬件的整体声学结构非常苛刻,并且从硬件设计的开始就很小。语音识别需要与语义理解完全集成,以实现端到端的识别和理解。整个体验的串联需要深度整合和优化整个部分,这是百度的独特优势。与其他产品相比,它通常在不同的技术阶段购买。百度的综合技术储备和解决方案为小型整体体验提供强大的后盾支持。雷锋网雷锋网

当谈到百度智能音箱的小尺寸时,你可能会认为他已经在春晚上演了真人秀中的智能和智能外观《向往的生活》。只要我们对他“小,小”大喊,他会立即回复我们并回应我们的任何要求。

根据市场研究公司Strategy Analytics《2019 Q2全球智能音箱的报告》的最新发布,该公司在该国排名第一,出货量为470万单位;而在全球范围内,其出货量仅次于亚马逊和谷歌。

小的背后是什么样的技术?我们评估智能扬声器的质量。它的标准是什么?雷锋网了解到,在正常情况下,我们主要从三个方面评估智能音箱的质量,即听力,理解和满意度。

在收听方面,它指的是将用户的声波转换为正确的单词,通常称为语音识别或唤醒。在内部和外部噪声的干扰下,机器必须能够准确识别用户的指令。通过引入百度语音开创的流媒体多级截断关注模型(SMLTA),该部分可以大大增强ASR效果。

我们熟悉的ASR技术(自动语音识别)将声音转换为可与人耳进行比较的单词。 TTS技术(文本到语音)将单词转换为声音(读出来,它类似于人类口腔。每个人在Siri等各种语音助手中听到的声音都是由TTS生成的。并不是真正的人在说话。

关于SMLTA,根据公共信息,它使用CTC的尖峰信息(语音识别算法)来切断连续语音流,然后在每个截断的语音段上进行当前建模单元的注意建模;原始全局句子注意建模成为本地语音段的注意建模;同时,为了克服CTC模型不可避免的插入和删除错误,该算法引入了一个特殊的多层次。注意机制实现了更精确的特征层渐进特征选择;最后,这种创新建模方法的识别率不仅超越了传统的全局注意建模,而且还保持了计算量和解码速度等在线资源。成本与传统的CTC模型相同。这也是第一个公开报告,本地注意建模,可能超过全球注意建模。

在理解方面,这意味着在获得此字符串后,您是否可以了解用户的需求,可以给出正确的答案或提供指导。例如,当获得少量模糊需求(不清楚的指令)时,它试图分析并纠正其自己的指令以更准确地满足用户的需求。它结合了百度NLP的知识增强语义表示模型ERNIE,并将核心理解算法升级为超大数据预训练深度模型。

7月30日,百度发布了ERNIE的优化版本,即ERNIE 2.0自然语言理解框架。它可以通过连续的多任务学习来学习和构建预训练任务。该框架支持三个级别的自定义预训练任务,如词法,句法和语义,并通过多任务学习训练它们,以完全捕获训练语料库中的词汇语法。语法,语义等潜在信息。无论何时引入新任务,框架还会在逐步训练分布式表示的同时记住上一个任务的信息。

最后,在满意度方面,越多用户想要的越多,我们可以提供更多吗?这是令人满意的部分。在满足用户需求方面,它将百度的全网搜索功能与大规模准确的用户肖像集成,从直接满意到个性化助理。

智能扬声器满足的能力,这里主要看两点,设备知识和技能与服务生态。百度智能生活集团(SLG)首席技术官朱开华说,

“对于小而言,它依赖于百度生态中的知识地图和搜索请求,以及网络内容支持,其知识也很完善。另外,在技能服务生态方面,小助手的开放平台已经有了更多的名字开发人员,已经积累了2400多种在线技能。“

件:

软件和硬件相结合。也就是说,硬件设计用于软件,当硬件构建时,它需要专门为软件的功能而制作;

语音识别和语义理解的结合。指能够进行端到端的识别和理解,连接的整个体验,整个深度的整合和优化;

完整的技术储备和解决方案例如,小,百度的所有技术?在内部,可以深入整合。

朱开华说,在智能音箱行业,设计软件非常重要。构建硬件时,必须为软件制作特殊功能。在设计之初,声学对声学有很高的要求,在高噪声环境中,它们也可以被准确地唤醒。这个前提是硬件的整体声学结构非常苛刻,并且从硬件设计的开始就很小。语音识别需要与语义理解完全集成,以实现端到端的识别和理解。整个体验的串联需要深度整合和优化整个部分,这是百度的独特优势。与其他产品相比,它通常在不同的技术阶段购买。百度的综合技术储备和解决方案为小型整体体验提供强大的后盾支持。雷锋网雷锋网