新浪新闻客户端

论文屡获发表 出门问问持续探索离用户更近的语音技术

论文屡获发表 出门问问持续探索离用户更近的语音技术
2022年08月01日 15:38 新浪网 作者 环球城市周刊

  7月15-17日,2022年第三届自然语言处理与人工智能国际会议(NLPAI 2022)于成都四川大学举办。继出门问问语音情感合成论文入选全球语音领域顶级会议 INTERSPEECH 2022后,出门问问语音团队的3篇论文再次被NLPAI录用发表。

  NLPAI会议旨在为世界各地的研究学者,工程师和科学家提供一个自然语言处理与人工智能等相关领域的技术进步展示和研究成果发布交流的国际会议平台,每年都吸引数千名学者专家进行交流,探讨学术观点,碰撞最新研究成果。会议所有被录用的论文将发表在 Conference Proceedings 上,将被 Ei Compendex、Scopus 检索,并提交 CPCI 检索。

  

  在群星璀璨的技术盛宴里,出门问问语音团队在语音技术领域贡献了哪些精彩亮点?

  1、《Prosody Prediction With Discriminative Representation Method》

  《基于判别表示的韵律预测》

  作者: Jipeng Zhang, Askar Hamdulla, Xiaoqin Feng, Xipeng Yang, Yunlin Chen

  韵律是影响文本到语音(TTS)的自然性和可理解性的关键因素,同时也面临着巨大的挑战,包括:

  1.  统一标注数据集的获取,需要依赖于严格的专家经验。

  2.  基于传统概率统计方法,严重依赖于特征工程等文本处理效果。

  针对上述问题,论文中提出了一种基于独立韵律数据的预测系统。

  

  这个新方法具有以下优点:

  1.  减少了对于联合数据的依赖性,灵活支持不同韵律等级的模型训练。

  2.  提出了一种通用判别表示方法 Layer Look Up Table(LLUT),建模不同的韵律等级,引入多任务训练。

  3.  基于预训练方法对文本语义建模,无需任何特征工程。

  2、《Research of Pitch Controllability Based on LPCNet》

  《基于LPCNet的语调可控性研究》

  作者:Wenyu Gao, Askar Hamdulla, Xipeng Yang, Yunlin Chen

  随着语音合成技术在大部分场景的使用,修改音频的音调有着广泛的用途。目前大部分音调可控是通过使用单独的神经网络生成输入参数实现,但这个方法需要训练多个神经网络,并且在没有说话人自适应的情况下不能显示可控。针对这一问题,提出了一种基于LPCNet声码器进行音调显示控制的方法。首先在训练阶段,通过优化训练特征来优化声码器模型合成效果和对控制音调的鲁棒性;其次在推理阶段输入控制曲线对基频进行调节,然后利用声码器LPCNet将声学特征推理为波形点;最后合成音频。实验结果表明,所提方法能够灵活控制音调,合成的声音音质也有所提升。

  

  训练阶段

  

  测试阶段

  这个新方法具有以下优点:

  1.  能够灵活控制音调,声音音质也有所提升;

  2.  在控制阈值范围内,调节控制参数并没有使得音质有明显下降;

  3.  后续尝试在声学模型生产声学特征过程中引入基频控制,这样结合声学模型的decoder模型,能够生成更加鲁棒的音频。

  3、《End-to-End Multi-Speaker Speech Synthesis with Controllable Stress》

  《基于端到端的跨说话人重音可控语音合成》

  作者:Ting Liang, Askar Hamdulla, Hao Yin, Yunlin Chen

  目前,端到端语音合成在某些领域已经达到了真人水平,如语音助手、新闻播报、智能导航等。然而,人类表达信息通常需要突出重点,在语音中适时添加重音(Stress)可以起到强调作用,更好的表述观点。目前大部分语音合成研究都没有对重音特征进行建模,因此合成的语音无法突出重点,语调单一或者重音的位置不可控。这样的语音缺乏表现力。该文提出了一种基于端到端的跨说话人重音可控语音合成方法,并且无需对目标说话人的重音特征进行标注,即可合成重音可控的目标说话人语音。

  

  这个方法具有以下优点:

  1.  实现对合成语音的重音三级可控(重读/拖音/重读拖音);

  2.  只需少量重音标注数据,即可将重音功能迁移至任意无重音数据的目标发音人;

  3.  合成语音更加自然、表现力更加丰富。

  聆听用户声音  探索更贴近用户的语音技术

  此次3篇论文入选自然语言处理与人工智能国际会议(NLPAI 2022),是出门问问全栈和硬核技术的再次进展,也是公司继获评吴文俊人工智能科技进步奖、国家高新技术企业、北京市专精特新中小企业,论文入选全球语音技术顶会 INTERSPEECH 2022等技术成就之后,在前沿技术上的又一次新突破。

  近年来,出门问问不断将日趋成熟的语音技术,逐步落地在离用户更近的产品和服务上,聆听用户声音,尊重用户情感,深度挖掘用户的潜在需求。目前,出门问问团队已将重读、拖音、韵律及语调可控等功能应用于AI配音神器「魔音工坊」中,从声音转换到重读、拖音,众多首发的AI语音技术实现,让用户体验到更富有情感、媲美真人的AI配音。

  人工智能底层技术的深厚积累,将不断促进出门问问人工智能系统的“智力”提升,使之更好地应用于智慧出行、智慧生活等各行业,为用户缔造出色的智能体验。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有