こんにちは!半田貞治郎です。
サイバーエージェントは7月26日、Metaが開発したオープンソースの大規模言語モデル(LLM)「Llama 3.1 70B」をベースに、日本語データで追加学習を行った「Llama-3.1-70B-Japanese-Instruct-2407」を公開しました。このモデルは「Hugging Face」で公開されており、Metaの「Llama 3.1 Community License」のもとで商用利用が可能ですが、利用規約への同意や追加ライセンスが必要な場合もあります[2][4]。
「Llama 3.1」シリーズは、8B、70B、405Bのモデルから構成され、7月23日に発表されたばかりの最新LLMです。150を超えるベンチマークで、OpenAIの「GPT-4o」やAnthropicの「Claude 3.5 Sonnet」などのクローズドモデルよりも優れたパフォーマンスを示しています[3]。しかし、公式には日本語を含む8言語に対応しているものの、日本語はサポートされていませんでした[2]。
今回公開された「Llama-3.1-70B-Japanese-Instruct-2407」は、サイバーエージェントが「Llama 3.1 70B」をベースに日本語データで追加学習を行ったモデルです。ベースモデルの発表からわずか2日以内での対応は驚異的であり、日本語サポート体制を補完するものとして期待されています[2][5]。
サイバーエージェントは、「今後もモデル公開や産学連携を通じて国内の自然言語処理技術の発展に貢献してまいります」とコメントしています[2]。今回のモデル公開は、日本語の自然言語処理技術の向上に大きく寄与するものであり、国内外の研究者や開発者にとっても大きな意義を持つと考えられます。
Metaの「Llama 3.1」シリーズは、15兆トークンを超えるデータでトレーニングされており、特に多言語サポートが強化されています。405Bモデルは128,000トークンのコンテキストウィンドウを持ち、商用モデルに匹敵する性能を持つオープンモデルとして注目されています[3]。一方で、日本語対応が不十分であったため、サイバーエージェントの迅速な対応が評価されています[2]。
「Llama-3.1-70B-Japanese-Instruct-2407」の公開により、日本語での自然言語処理タスクに対する性能向上が期待され、今後の展開に注目が集まります。
Citations:
[1] https://note.com/elyza/n/n360b6084fdbd
[2] https://www.itmedia.co.jp/aiplus/articles/2407/26/news150.html
[3] https://notai.jp/llama-3-1-405b-70b-8b/
[4] https://rinna.co.jp/news/2024/07/20240725.html
[5] https://twitter.com/CyberAgent_PR/status/1816668618811445422
[6] https://www.youtube.com/watch?v=HlKKEemsmjA