新浪新闻客户端

亚马逊详解Alexa“耳语模式”技术,AI虽好却一直不赚钱?

亚马逊详解Alexa“耳语模式”技术,AI虽好却一直不赚钱?
2020年01月20日 14:19 新浪网 作者 前瞻经济学人APP

  亚马逊详解Alexa“耳语模式”技术,AI虽好却一直不赚钱?

  亚马逊一直在致力于让其人工智能虚拟语音助手变得更加智能。2018年年底,亚马逊推出了Alexa的“耳语模式”(Whisper Mode)。

  这一新功能是为了服务一个常见的家庭场景:当房间内有人睡着后,你会不自觉地放低声音,而走进来的对话者感受到后也会同样自觉降低音量。

  耳语对话模式在睡前或夜间场景很有用,可以在与Alexa对话的同时,让房间保持安静。它也让Alexa与人的互动变得更加自然。

  亚马逊在2019年11月将该功能扩展到所有地区,所有使用Alexa助手的智能家电现在都可以通过耳语模式回应用户的低声讲话。

  耳语模式的实现难度在于,其与正常说话的发音是不同的,耳语主要是清音,也就是说,它不涉及声带的振动。与普通语音相比,它在低频带中往往具有更少的能量。

  据亚马逊Alexa语音系统专家Zeynab Raeesy发布的一篇博文,他们研究了两种不同神经网络的使用,以区分正常说话和耳语的单词。

  神经网络是一层数学函数,大体上模仿了人类大脑的神经元。

  2020年1月,一篇发表在《IEEE信号处理快报》(IEEE Signal Processing Letters)杂志2020年1月号上的学术论文和一篇附带的博客文章中详细介绍了关于“耳语模式”技术的研究。

  亚马逊文本到语音(text-to-speech)研究小组的应用科学家Marius Cotescu解释说,主要的挑战是如何在保持自然和说话人身份的同时,将正常的语言转换成耳语。

  他和他的同事们研究了几种不同的转换技术,包括基于声音分析的手工优化的数字信号处理(DSP),但他们最终选择了两种机器学习方法,以保证它们的鲁棒性(它们很容易对不熟悉的说话者进行概括)和性能(它们的性能优于手工优化的DSP)。

  数字信号处理器(DSP)是一种专门的微处理器(或SIP块),信号(可能来自音频或视频传感器)不断从模拟转换到数字,经过数字处理,然后转换回模拟形式。手工优化的汇编代码往往比机器的更高效,而且许多与DSP计算相关的常用算法都是手写的,以便充分利用架构优化。

  研究团队选择的两种机器学习方法——利用高斯混合模型(GMMs)和深度神经网络(DNNs)——都涉及到训练算法,将正常语音的声学特征映射到低声语音的声学特征上。

  GMMs尝试为对应于输入值的相关分布的每个输出特性标识值范围,而DNNs(简单处理节点的密集算法)通过网络试图预测与特定输入相关的输出的过程来调整它们的内部设置。

  亚马逊详解Alexa“耳语模式”技术,AI虽好却一直不赚钱?

  图:正常发声语音的声谱图(左),以及将低语-语音转换模型应用于此声谱图的结果。

  (图源:亚马逊)

  研究人员的系统将声音特征表示传递给语音编码器,语音编码器将其转换成连续信号。

  虽然实验版本依赖于一个名为WORLD的开源语音编码器,但部署到客户端的低语模式利用了一个神经语音编码器,进一步提高了耳语语音的质量。

  该团队使用了两套数据来训练他们的语音转换系统:一套是他们自己制作的,使用了来自澳大利亚、加拿大、德国、印度和美国的五名专业配音演员;另一套是该领域的流行基准。

  (两个语料库都包含了许多说话者的话语对——一个是完全音量的,一个是低声的。)

  为了评估他们的系统,他们将输出与自然语音记录和通过语音编码器输出的语音记录进行了比较。

  在第一组实验中,研究小组对语音转换系统进行训练,让它们识别来自不同说话者的数据,并对来自相同说话者的数据进行测试。

  他们发现,虽然原始录音听起来最自然,但由模型合成的低语听起来比“语音编码”的人类语言更自然。

  最先进的文本-语音转换模型已经可以产生听起来像人类的语音片段。这种技术在谷歌助手Google Assistant里也有出现,还有Alexa和亚马逊Polly服务提供的新闻播报员语音,以及Alexa的名人语音功能。

  用户可以添加智能扬声器或显示器的名人语音,入门价格为 0.99 美元,在试用期过后价格将提高至 4.99 美元。

  在智能语音市场,亚马逊已经占据了近七成的市场份额,远超最大的竞争对手谷歌公司。智能语音助手Alexa越来越多地出现在各种智能设备上,在2019年5月亚马逊就宣布Alexa的接入设备量已经超过6万台。

  不过,尽管Alexa的普及度不错,其利润却一直存疑。著名付费科技媒体The Information在去年年底发表文章指出,亚马逊在2019年前10个月共获得了140万美元的Alexa技能收入,远低于其550万美元的目标。

  而Alexa的内购应用也存在较大利润缺口,亚马逊预计Alexa技能内购买在2019年前10个月的总收入将超过1800万美元,但实际收入仅为470万美元左右。不少用户都认为自己已经购买了Alexa设备,不应该再为功能和服务花钱。

  对此,亚马逊倒是很淡定,一位发言人通过电子邮件回应称:“Alexa是亚马逊的长期赌注,我们对它的未来一直持乐观态度。我们才刚刚开始探索Alexa的潜力。”

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有