视听语音编解码器。重新思考通过重新合成进行视听语音增强的问题
由于面部动作(如嘴唇的运动)包含有关语音内容的重要信息,因此视听语音增强方法比纯音频的方法更准确也就不足为奇。然而,最先进的方法仍然难以在具有挑战性的声学环境中产生干净、逼真的语音,没有噪音伪影和不自然的失真。在本文中,我们为AR/VR中的高保真电信提出了一个新的视听语音增强框架。我们的方法是利用视听语音线索来生成神经语音编解码器的代码,从而能够从噪声信号中有效地合成干净、真实的语音。我们在一个新的视听语音数据集上证明了我们的方法的有效性,该数据集是在一个不受约束的大词汇量环境中收集的,也是现有的视听数据集,在定量指标和人类评价研究上都优于语音增强基线。请参阅补充视频,了解定量结果:网页链接。
《Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis》
论文地址:网页链接