
101の言語の音声を直ちに音声に正確に翻訳する人工知能(AI)モデルが開発された。
米企業メタのシームレス(SEAMLESS)コミュニケーションチームは、新しい高性能AI翻訳モデル「シームレスM4T」を開発し、研究結果を15日(現地時間)、国際学術誌「ネイチャー」に公開した。
現在、ほとんどのAI翻訳システムはテキスト中心だ。音声を音声に翻訳する時も、普通音声-テキスト変換、テキスト翻訳、テキスト-音声変換の段階を経るように設計されている。中間段階が多い既存の翻訳モデルは、存在しない内容を作り出したり、事実を歪曲したりする「AI幻覚」を引き起こす可能性がある。医療分野など正確なコミュニケーションが求められる分野では、誤訳が大きな被害をもたらす。
テキストを介さずに音声をすぐに音声に翻訳する従来の翻訳モデルは、テキストベースのモデルより変換できる言語の範囲がはるかに狭かった。性能の大半は他の言語を英語に翻訳することに集中していた。
研究チームは、47万時間以上の音声データを学習させたAI翻訳モデル「シームレスM4T」を開発した。音声-音声翻訳は101の言語を認識して36の言語に、音声-テキスト翻訳は101の言語を認識して96の言語に変換できる。テキスト-音声翻訳とテキスト-テキスト翻訳も96の言語を認識してサポートする。
翻訳性能評価基準であるBLEUテストの結果、シームレスM4Tは既存の多段階翻訳システムより音声-テキスト翻訳では8%、音声-音声翻訳では23%高い精度で言語を翻訳した。
今回の研究結果は、誰でも非商業的用途に活用できるように公開されている。研究チームは「シームレスM4Tはまださらなる最適化が必要だが、言語の壁を越えたコミュニケーションにもう一歩近づく方法を提示した」と述べた。
イ・ビョング東亜サイエンス記者 2bottle9@donga.com