Anthropic社のClaude 3 Opusが米国のAIチャットボットランキングで首位に

こんにちは！半田貞治郎です。

Anthropic社が提供する大規模言語モデル「Claude 3 Opus」が、米国時間3月26日に発表されたAIチャットボットの能力比較サイト「Chatbot Arena」のランキングで、OpenAIの「GPT-4」を抜いて首位に立った。

Chatbot Arenaは、カリフォルニア大学バークレー校の学生と教授らによる研究組織「LMSYS Org」が2023年5月に立ち上げたサイトで、さまざまなAIモデルの有効性をテストし、比較できるようになっている。ユーザーはプロンプトを入力すると、2つのAIモデルの回答が「モデルA」と「モデルB」として表示され、どのモデルによる回答かは明かされない。ユーザーはそれぞれの回答を評価し、AとBのどちらを好むかを選択する。

LMSYS Orgは、ユーザーの投票に基づいて相対評価のEloレーティングを用いてLLMランキングを決定している。最新のリーダーボードでは、Claude 3 Opusが1253のスコアを獲得して首位に立ち、「GPT-4-1106-preview」がスコア1251で2位となった。その他のトップ10にランクインしたLLMには、「GPT-4-0125-preview」、Googleの「Gemini Pro」、「Claude 3 Sonnet」「GPT-4-0314」「Claude 3 Haiku」などがある。

Anthropicのクラウド上で利用可能なClaude 3モデルが、このランキングの上位を独占していることは注目に値する。同社によると、Claude 3は従来の「Claude 2」「Claude 2.1」と同程度のスピードだが、その知識ははるかに高度だという。

「Claude 3 Opus」が「GPT-4」を抜き1位に--Chatbot Arenaランキングで（ZDNET Japan） - Yahoo!ニュース https://news.yahoo.co.jp/articles/28b09a8693ab92a768cfae5bb79216633f139570