奇富科技语音论文入选国际顶会 INTERSPEECH 2023

　　INTERSPEECH 是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的语音信号处理领域顶级旗舰国际会议，是全球最大的综合性语音信号处理盛会，在国际上享有盛誉并具有广泛的学术影响力。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。

　　TTS 技术当前主要应用于电销机器人、视频面审机器人、智能客服等人机交互场景和语音合成场景，它能把文本内容快速地转化为高质量、流畅自然的语音，从而实现更加智能、更有人性化的人机交互。文本音素和音频帧之间的对齐（alignment）学习是非自归 TTS 模型的最关键技术之一。现有的非自回归语音合成模型大多数需要引入外部 alignment 信息作为学习目标。在实际应用场景中，文本与语音的 alignment 是很难准确获得的，甚至是不能获得的，这极大地限制了此类方法的应用。另外，也有少数无需外部 alignment 的方法提出，然而这些方法大多不是端到端可微分的神经网络模型，存在构建困难，训练过程复杂，训练效率低等问题。

　　奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案，提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与 alignment 的密切关系，论文提出了一种简单高效的 alignment 学习方式：首先采用一种新的 energy-modulated 注意力机制得到 guided alignment，然后利用 guided alignment 计算音素的时长信息，最后通过音素的时长信息构建 monotonic alignment。本方法无需外部的 alignment 信息，无需引入额外的 alignment 损失函数。

　　对业务提效而言，奇富科技的研究成果具有易训易用、音质高超、合成快速的优势。

　　这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块，从而具有良好的扩展性和稳定性。相比于主流的自回归模型，推理速度提升了 10 倍以上，能够满足实时语音合成的需求。

　　该方法也令合成语音更好听、更生动、更像真人，大大提升了语音交互的听觉感受。根据进行的多人 MOS 评测，该方法的 MOS 分值达到了 4.32 分（满分为 5 分），合成语音的自然流畅程度接近于目前最优的自回归模型，显著优于同类型的非自回归模型。

　　此外，与同类型方法相比，该方法可以节约 50% 以上的训练时间，显著提升模型训练效率。

　　「我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富 GPT 对于公司各业务层的重构，我们已经极大提升了对于用户在文本上的理解能力，从语音到文本，再从文本回到语音，更好的识别是为了更好的表达和输出，我们将持续投入，用前沿技术重塑用户体验。」奇富科技首席算法科学家费浩峻表示。

　　公司地址：北京市朝阳区酒仙桥路4号751 D·Park正东集团院内 C8座105室极客公园