Open-Unmix/NNablaを用いたスピーチエンハンスメント

2020年5月12日火曜日

スピーチエンハンスメントとは、次の画像にあるような、様々な雑音が流れる環境で会話をするときなどに、ノイズを除去し、会話音声を聴きとりやすくする重要な技術です。

ディープニューラルネットワークを用いることで、騒音環境下において、音声信号自体は保持したまま、ノイズのみを減らすことができます。それゆえこの技術は現在盛んに研究されています。
ソニーと密接なコラボレーションをしているINRIAによって開発されたオープンソースの技術であるOpen-Unmixが、スピーチエンハンスメントの機能もサポートするようになりました。もともとは音源分離のために開発された技術でしたが、今ではスピーチエンハンスメントにも利用可能です。

私たちはOpen-UnmixをVoiceBank+DEMANDコーパス(サンプリングレート16kHz/28人の話者によるデータ)で学習を行いました。学習済みモデルはここから入手可能です。
VoiceBank+DEMANDのテストセットにおいて、以下のスコアが報告されています。

ブログ - Neural Network Libraries Sites > ニュース > Open-Unmix/NNablaを用いたスピーチエンハンスメント

Open-Unmix/NNablaを用いたスピーチエンハンスメント

最新の投稿

カテゴリー

投稿者リスト