雑音・会話、AI聞き分け即座に議事録 NTT、2年後実用化

 

 NTTは、大きな雑音の中でも特定の音声を認識し、正確に書き起こす人工知能(AI)技術を開発した。複数の人の会話を話し手ごとに書き分けることも可能で、会議の議事録をほぼリアルタイムで作成することなどが容易になるという。1~2年後の実用化を目指す。

 雑音は音声認識の性能を著しく低下させる“大敵”で、除去しようとすると、認識すべき音声の特性も変わってしまう課題があった。

 NTTは、音の大きさや方向などにより、認識すべき音と雑音を自動的に推定し、高精度の識別を可能にするアルゴリズム(手順)を開発。必要な音声をひずませることなく、雑音だけを低減させることができるようにして、人の耳で聞き取りにくいほどの雑音があっても、音声を認識できる技術を確立した。

 また、多人数の会話では、6人程度の会議でのやり取りを聞き取ることができる。これも音の方向などの空間的情報から、話し手のいる位置を特定。数人が同時に話しても問題なく認識できるという。

 NTTグループは、自社のAI技術を「corevo(コレボ)」と総称し、技術開発に力を入れている。

 今回の音声認識技術では、100時間分という大量の音声データを使ったAIによる深層学習(ディープラーニング)で認識精度を向上。国際的な技術評価も高いという。

 同社では「世界一の音声認識技術」と自負しており、雑踏の中でも対応できる通訳システムや、音声での操作が可能な家電のほか、会議の議事録や店舗窓口で顧客とのやり取りの記録を残すなど、さまざまな応用が考えられる。

 担当者は、すでに「実用化に近いレベルまできている。いろんな環境で使えるようにして1、2年後には世に出したい」と話している。