スピーチエンハンスメントとは、次の画像にあるような、様々な雑音が流れる環境で会話をするときなどに、ノイズを除去し、会話音声を聴きとりやすくする重要な技術です。
ディープニューラルネットワークを用いることで、騒音環境下において、音声信号自体は保持したまま、ノイズのみを減らすことができます。それゆえこの技術は現在盛んに研究されています。
ソニーと密接なコラボレーションをしているINRIAによって開発されたオープンソースの技術であるOpen-Unmixが、スピーチエンハンスメントの機能もサポートするようになりました。もともとは音源分離のために開発された技術でしたが、今ではスピーチエンハンスメントにも利用可能です。
私たちはOpen-UnmixをVoiceBank+DEMANDコーパス(サンプリングレート16kHz/28人の話者によるデータ)で学習を行いました。学習済みモデルはここから入手可能です。
VoiceBank+DEMANDのテストセットにおいて、以下のスコアが報告されています。