NTTは、大きな雑音の中でも特定の音声を認識し、正確に書き起こす人工知能(AI)技術を開発した。複数の人の会話を話し手ごとに書き分けることも可能で、会議の議事録をほぼリアルタイムで作成することなどが容易になるという。1~2年後の実用化を目指す。
雑音は音声認識の性能を著しく低下させる“大敵”で、除去しようとすると、認識すべき音声の特性も変わってしまう課題があった。
NTTは、音の大きさや方向などにより、認識すべき音と雑音を自動的に推定し、高精度の識別を可能にするアルゴリズム(手順)を開発。必要な音声をひずませることなく、雑音だけを低減させることができるようにして、人の耳で聞き取りにくいほどの雑音があっても、音声を認識できる技術を確立した。
また、多人数の会話では、6人程度の会議でのやり取りを聞き取ることができる。これも音の方向などの空間的情報から、話し手のいる位置を特定。数人が同時に話しても問題なく認識できるという。