AI战略再次实力提速,搜狗获得Blizzard Challenge 2018语音合成大赛冠军

近日,在刚刚落幕的“Blizzard Challenge 2018 ”语音合成大赛上,来自中国的新锐队伍搜狗公司首次参赛,就一举战胜诸多国际顶尖科研机构,获得了可懂度和语音停顿两项任务中排名第一的优异成绩。这充分体现了搜狗在语音技术领域的领先地位,彰显了搜狗在人工智能行业的积累成就。

语音合成技术,挑战人工智能的表达能力

Blizzard Challenge (以下简称BC),是语音合成领域最具权威性、广泛性的国际评测比赛。该赛事由美国卡耐基-梅隆大学(Carnegie Mellon University)、日本名古屋工业大学等联合发起的公开的语音合成技术的评测平台,加强世界各地语音合成研究机构之间的交流与沟通,促进语音合成技术的深入发展。

Blizzard Challenge始于2005年,作为国际上规模最大、影响力最大的语音合成大赛(英语为主),每年都吸引众多国际一流的科研单位和一流企业参赛,包括CMU(美国卡耐基-梅隆大学)、Cambridge University(英国剑桥大学)、University of Edinburge(英国爱丁堡大学)、Nitech (日本名古屋工业大学)、科大讯飞、中科院自动化所等国内外语音合成领域的顶尖高手。

语音合成又称文语转换技术(简称TTS),能将任意文字转化为清晰自然、富有表现力的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,受到了国内外各大科技公司的争相研究,被广泛应用在智能客服、新闻播报、语音导航等众多场景之中。

技术为先,搜狗领跑AI前沿赛道

某种意义上来看,谁在语音合成技术上占据优势,谁就很可能抢先完成AI应用的突破。

由于今年BC 2018的数据与2017年完全相同(2016年仅提供了部分),许多企业和研究机构连续多年参赛,有丰富的数据积累和实战经验。而搜狗作为新锐队伍首次参加比赛,在时间紧、对手强的困难条件下,凭借扎实过硬的技术积累,最终在可懂度和语音停顿两项任务中排名第一,而搜狗之所以能取胜,离不开在合成技术的持续投入和积累。

图 1. Sogou speech synthesis system

我们知道,AI离不开数据的训练。搜狗充分利用大数据语音资源进行模型训练,保证输出声学特征的稳定性。由于本次比赛所用的音库规模小、表现力强,搜狗还对合成系统(见图1)的各个模块,包括特征选择、前端文本分析、时长模型及声学模型,都进行了针对性优化,进一步提升合成语音的整体效果。同时,使用先进的WaveNet(见下图)波形建模技术替换传统的声码器,使合成语音音质更加接近原始录音。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。