
LG AI研究院は9日、テキストと画像を同時に理解し推論できるマルチモーダル人工知能(AI)モデル「EXAON4.5」を発表した。マルチモーダルとは、テキストや画像、音声、映像など多様な形式のデータを同時に理解し処理するAIのこと。
EXAON4.5は、独自開発のビジョンエンコーダーと大規模言語モデル(LLM)を組み合わせ、文章と画像を同時に理解できる。契約書や技術図面、財務諸表など実際の産業現場で用いられる複雑な資料の読み取り・分析する能力に優れる。LG AI研究院は、今回のモデルが独自の基盤モデル「K-EXAON」を、より多様なデータ処理へと拡張する発展段階に当たると説明した。
性能面でも競争力を示した。科学・技術・工学・数学(STEM)分野の5指標の平均スコアは77.3点で、GPT-5 mini(73.5点)、クロード・ソネット4.5(74.6点)、Qwen3(77.0点)を上回った。13の視覚能力評価指標の平均スコアでもGPT5ミニやクロード・ソネット4.5などを上回った。LG AI研究院は「AIが画像とテキストの文脈を統合的に理解し、質問に答えられる水準に到達した」と説明した。
イ・ミンア記者 omg@donga.com






