项目摘要
去噪的一般任务是应用不同的增益集以增强目标语音并降低语音分离后的背景噪声。近年来,受深度学习空前成功的启发,许多基于 RNN 的模型被设计用于此任务,其中一些模型取得了显着的性能。然而,基于 RNN 的模型在极低延迟语音增强方面存在很大困难,这对其消费级应用构成了巨大障碍。 当前的低延迟深度学习模型通过简单的网络设计大大减少了模型处理时间。 然而,由于 RNN 每次处理一帧带噪声的语音,理论上,帧长是造成延迟的必然原因,模型处理时间也是如此。 因此,目前的低延迟模型还不能满足消费级应用的极端要求,尤其是助听器,可感知的延迟会导致长期使用的不适。
在这个项目中,我们首先构建了一个精简的基于 RNN 的语音增强系统,并找到了最佳的超参数来优化它。 后来,我们提出了一种权衡算法来显着减少 RNN 的输入延迟。实现后,我们设计了实验来证明我们提出的算法的有效性。