Go to contents

AIの生産性を評価、三星が「トゥルーベンチ」開発

AIの生産性を評価、三星が「トゥルーベンチ」開発

Posted September. 26, 2025 09:29,   

Updated September. 26, 2025 09:29


三星(サムスン)電子は25日、人工知能(AI)モデルの性能を数値化して測定する「トゥルーベンチ」指標を開発したと発表した。

トゥルーベンチは、チャットGPTなど多様なAIモデルの業務生産性を評価する指標で、三星電子のデバイス・エクスペリエンス(DX)部門に属する先行研究開発組織「三星リサーチ」が開発した。評価は計10のカテゴリー、46業務、2485の評価基準に細分化され、AIの業務生産性評価に特化している。特に、企業で頻繁に用いられるコンテンツ生成やデータ分析、文書要約・翻訳、連続対話など、実際の事務業務で活用されるチェックリストを基に作成された。

ユーザーは一度に最大5つのモデルを選択して比較できる。既存の英語中心の指標とは異なり、韓国語や英語、日本語、スペイン語など計12言語での利用結果を評価できるのが特徴だ。つまり、同じAIサービスであっても、韓国語を用いる場合と英語を用いる場合では評価結果が異なる可能性があることを意味している。

三星電子の関係者は「トゥルーベンチは、AIモデルが提供する回答の正確性だけでなく、質問の意図や文脈を理解しているかも評価できるよう設計した」と説明。DX部門最高技術責任者(CTO)兼三星リサーチ長の田敬薰(チョン・ギョンフン)社長は「トゥルーベンチを通じて、AIモデルの生産性評価基準を確立していく」と語った。


イ・ドンフン記者 dhlee@donga.com