新浪新闻客户端

声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展

声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展
2018年11月02日 18:20 新浪网 作者 标贝科技

  近日,2018年全国大众创业万众创新活动周开幕,此次双创周上,北京会场遴选出的300余家创新型企业带来的600余项技术成果均为首次展出。

  其中,智能语音新应用的亮相可以说是本次双创周上的一个吸睛点,会场上的两款平易近人的小应用展示了

  的新应用场景,揭秘了语音合成技术这一黑科技。

  “你说我学”和“”两款小应用,祭出语音合成大旗

  语音合成究竟是什么?在一众很“直男”的科技产品中,这次双创周上展出的“你说我学”和“今日快听”两款小应用,显得十分亮眼,各种软萌、奇趣、自然的声音融入对话与播报场景,勾起了人们对语音合成技术的好奇心。

  “您好,我是星仔,小人物也有大梦想!”周星驰熟悉的声音在场馆中响起。不过,这可不是星爷本人来了,这酷似周星驰的声音就来自于“你说我学”。

  声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展

  除了“星仔”,点开应用界面,还能看到孙悟空特色合成声音、台湾女声小美、中文儿童冉冉等6个动漫IP形象,滑动到对应人物形象进行点击,说出你想要的话语,人物就会将话语用个性化声音表达出来。

  现场一位汉子点击台湾女声小美的形象,说出话语后,小美立马“化百炼钢为绕纸柔”,让其声音变得甜美起来。

  不过,“你说我学”还只是开胃菜,意在通过动漫形象学说话,让观众体验到语音合成技术的发展已不再是过去生硬冰冷的机器声音。而“今日快听”则是将这些自然生动的合成声音运用到生活中的重头戏。

  “今日快听”,是一款通过语音合成(TTS)的声音来播报新闻的小程序。记者了解到,为顺应当下快速获取信息的需求,今日快听从网易、亿欧、猎云等众多优质媒体中选取当日热门的新闻资讯,将上千字的长篇新闻转换为一分钟内的短资讯,用合成语音进行播报。

  声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展

  点开小程序,会看到以黑色为主,紫红色渐变做装饰色的主界面,播放新闻时,紫色的唱片图标就会缓缓转动。页面简洁轻盈、充满科技风的同时,又融合了中国美学元素。

  最独特的还是播报新闻的合成声音,作为合成语音播报小程序,“快听”的声音并没有令人窒息的机械感,在断句、重音和声调等方面都更接近人声,声音也更饱满、具有情感,在听感上甚至让人常常忘掉是合成声音在播报。

  除主界面可以进行收听外,页面还可左右滑动,进入新闻列表,浏览新闻标题和进入新闻阅读页面,边听边读。用户也可选择关掉小程序页面后,继续收听新闻,不影响任何其他操作。

  “你说我学”和“今日快听”这两款小应用,都是将语音合成技术普及到大众生活中的典型,而这两个小应用背后,就要正式祭出语音合成这面大旗,看看它到底是如何炼成的。

  语音合成是怎样炼成的?定制化方案+声音超市

  语音识别、语音理解,大家都耳熟能详了,而形成一个语音解决方案,经历了前两步,就到了第三步——语音合成。如果说语音识别相当于“听得清”的耳朵,语义分析相当于“听得懂”的脑袋,那么语音合成就是可以“说得出”的嘴巴。

  作为语音解决方案的发声环节,它能做到让手机应用、智能硬件“活”起来。如百度地图用志玲姐姐的声音为你导航、让教育机器人用童声为你朗诵,B站小视频的电子解说也是由语音合成来完成的。

  那么这项技术,究竟是如何实现的呢?

  亿欧记者近期造访了国内语音合成行业的中坚力量、也是两款小应用的开发商——标贝科技,来揭开语音合成的面纱。

  以标贝科技的语音合成方案为例,一个声音要完成定制,需要经历以下步骤:

  首先,要呈现不同音色、不同发音的声音,需要采用不同领域特定的语料,对语料进行“设计”;之后需要专家指导发音人的说话风格、语调和停顿方式,完成声音的“采集”;之后,再对声音的音字、韵律和音节音素进行“标注”;最后,从文本、韵律层级预测、声学参数和声码器方面进行合成。

  不过,并不是所有解决方案都需要从头定制声音。此前,标贝科技基于此前语音数据提供商的优势,已经积累了许多不同音色、不同发音方式的语音库,这一语音库也被形象的称为“声音超市”。

  客户从“声音超市”中选择声音,无须再经历定制的流程,便可拥有一套专业的TTS解决方案。据亿欧了解,今年与标贝科技合作的网易、360就是直接从“声音超市”中采购声音的。

  目前,TTS处理数据采用深度学习的方式,较为依赖大量的数据做支撑。对此,标贝科技的联合创始人&CTO李秀林博士也表示,在声音采集上,要让发音人长期保持同样的音色是很难的,不可能对同一个人的声音进行无限次的采集。因而,标贝科技正试图减少TTS所依赖的数据量,用更少的数据合成出同样的效果,甚至可以在更少的数据支持下也可以达到更好的体验。

  更接近人声,推出IP语音库

  在语音合成中,还有最明显、也最关键的一个问题,就是声音的自然度。合成音的自然度直接影响人的听觉感受,这也是为何目前大多数人对语音合成的印象,还停留在被公交报站、银行叫号的电子音洗脑的阶段。而让声音更自然、富有情感和表现力,则需要涉及自然语言处理和声学建模技术。

  “机器看到的是一个个字符,它要把这些字符理解成我们所理解的停顿,甚至‘情感’,然后将文本的特征变成一个个声学特征,进一步生成能让人听起来很舒服、自然的声音,这个技术难度是非常大的”,李博士表示。

  声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展

  不过,标贝科技目前在语音合成技术上已经在向更自然、更接近人声的方案靠近。此前作为语音产业链上游的数据提供商,拥有包含丰富语料的“声音超市”,也为声音的情感化表达提供了更好的基础。在深厚的数据库资源基础上,不断改进语音合成的前端模型,通过高精度自动预处理技术对数据进行处理和建模,实现了具有情感表达能力的合成系统,合成效率可提升30%,稳定性也更好。

  基于情感表达上的优势,标贝科技打造了一系列个性化的定制语音库,包括自主研发推出了以明星和声优语音为主的IP语音库。在与明星经纪公司进行合作中,从对明星声音进行录制,到完成声音定制,1-3个月即可完成。

  亿欧了解到,标贝科技每年会产出上百个音库提供给合作方。今年已经为客户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时模仿儿童语音库以及20小时明星语音库等。

  智能硬件、客服、有声阅读,多场景拓展

  “声音超市”中的各种声音及定制化的声音,它们的具体应用场景又在哪里呢?

  目前,语音合成技术已应用在泛娱乐、教育及涉及人机交互业务领域有比较广泛的应用。

  在智能硬件,尤其是如今大热的智能音箱的应用上,作为智能家居中越来越受欢迎的中控设备,用户对于智能音箱的声音已不再满足于亲切、自然的发音,拥有个性化的声音正在成为消费者购买时占比逐渐增加的参考维度。对于厂家来说,个性化的声音也是提高品牌辨识度、快速打造自己的粉丝用户群的一个新思路。

  针对传统人工客服电话效率低、情绪管理难以把控等痛点,智能语音客服的优势也相当明显。在音色方面,客户可针对品牌形象选择发音人,进行音色定制化服务。亲切稳定的情绪,以及专业、标准的话术可以保证用户较高的满意度。同时,每天可拨打电话800通以上,提高沟通效率,满足售后、答疑,主动外呼、营销等场景。

  声音超市做后盾,定制化语音合成(TTS)方案亮相中国双创展

  李博士称,标贝科技的智能客服tts方案可以达到“通完电话,你都不知道对面是机器人”的效果。

  另外,随着知识付费浪潮的兴起,有声读物的快速发展让用户可以通过手机、智能音箱、随身设备等收听知识、娱乐、新闻等有声资讯。相比人工生产有声读物,语音合成技术可提高有声读物的生产效率,对新闻的时效性有更强的适应能力。情感合成技术让声音更自然真实,人耳的接受度更高,可听性更强。

  而本次展示的“你说我学”和“今日快听”两款小应用,则是标贝科技一些最新应用尝试,也表明语音合成技术还能渗透到更多的生活场景中。

  目前,标贝科技已经为喜马拉雅的小雅音箱、芋头科技的若琪音箱等产品制作音库。此外,还与百度、阿里巴巴、腾讯、滴滴、京东、小米、三星、美的、今日头条、暴风集团、出门问问、搜狗、喜马拉雅FM等企业进行了合作。

  品牌属性场景加持,将带来行业爆点

  不过虽然已经在智能硬件、客服、有声阅读等领域有所应用,但目前语音合成行业,整体还未完全成熟。李博士也提到,语音合成目前还比较小众,直到2014年、2015年才逐渐兴起。

  而相对以科大讯飞为代表的在语音全栈解决方案提供商(语音合成作为其中的一个环节)来说,像标贝科技这样专注于语音合成解决方案的公司并不多。

  标贝科技之所以选择专注智能语音这一领域,是相信具有个性的声音会像人的面孔一样,具有较高的辨识度,未来有更广阔的发展和应用前景。特别是对于有声读物、智能硬件、物联网、机器人等领域,语音合成的加成力量不可小觑。标贝科技认为,个性化语音要成为主流的应用方式,需要这些场景更具备私人属性和品牌属性。

  私人属性上,如明星声音等极具个性化特色和辨识度的声音在粉丝市场上有较多施展的可能;品牌属性上,如米老鼠、唐老鸭等具有品牌特色的动画形象,其声音特色更适合进行个性化语音定制。

李博士也认为,私人属性场景的发展,可能会给产业带来温和式的增长;而品牌属性上,对个性化语音的追求,则更可能会带动整个产业形成爆发性的增长。

  在未来,这些个性化语音的市场空间如何,尤其在智能音箱、机器人等逐渐走入人们生活场景的情况下,专属的个性化语音是否能成为智能场景中不可或缺的一环,这些软萌的、搞怪的、甜美的声音是否会成为我们的专属记忆符号,语音合成技术走进智能生活,还需要依靠语音合成技术以及整个语音行业的不断向前发展,帮助更多企业找到落地场景。

  标贝科技|音领智能未来

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有