ＡＩの生産性を評価、三星が「トゥルーベンチ」開発

Posted September. 26, 2025 09:29,

Updated September. 26, 2025 09:29

三星（サムスン）電子は２５日、人工知能（ＡＩ）モデルの性能を数値化して測定する「トゥルーベンチ」指標を開発したと発表した。

トゥルーベンチは、チャットＧＰＴなど多様なＡＩモデルの業務生産性を評価する指標で、三星電子のデバイス・エクスペリエンス（ＤＸ）部門に属する先行研究開発組織「三星リサーチ」が開発した。評価は計１０のカテゴリー、４６業務、２４８５の評価基準に細分化され、ＡＩの業務生産性評価に特化している。特に、企業で頻繁に用いられるコンテンツ生成やデータ分析、文書要約・翻訳、連続対話など、実際の事務業務で活用されるチェックリストを基に作成された。

ユーザーは一度に最大５つのモデルを選択して比較できる。既存の英語中心の指標とは異なり、韓国語や英語、日本語、スペイン語など計１２言語での利用結果を評価できるのが特徴だ。つまり、同じＡＩサービスであっても、韓国語を用いる場合と英語を用いる場合では評価結果が異なる可能性があることを意味している。

三星電子の関係者は「トゥルーベンチは、ＡＩモデルが提供する回答の正確性だけでなく、質問の意図や文脈を理解しているかも評価できるよう設計した」と説明。ＤＸ部門最高技術責任者（ＣＴＯ）兼三星リサーチ長の田敬薰（チョン・ギョンフン）社長は「トゥルーベンチを通じて、ＡＩモデルの生産性評価基準を確立していく」と語った。

イ・ドンフン記者 dhlee@donga.com

Editions

ＡＩの生産性を評価、三星が「トゥルーベンチ」開発

ＡＩの生産性を評価、三星が「トゥルーベンチ」開発

アクセスランキング

トップニュース

オピニオン