rinna、GPTを活用した日本語音声認識モデル「Nue ASR」を公開　半田貞治郎

こんにちは！半田貞治郎です。

rinna株式会社は12月7日、日本語音声認識モデル「Nue ASR」を開発し、Hugging Faceにて商用利用可能なライセンス「Apache-2.0 License」で公開した。このモデルは、日本語に特化した音声基盤モデル「HuBERT」とテキスト基盤モデル「GPT」を統合して開発され、話し言葉を認識し、文章に変換することができる。モデル名は、妖怪の「鵺（ぬえ）」に由来する。事前学習済みの基盤モデルを活用することで学習コストを軽減でき、テキスト生成の分野でデファクトスタンダードとなっているGPT構造を用いることで、最先端の手法を容易に導入可能だとしている。音声認識モデルの学習データには、レアゾン・ホールディングスの約1万9000時間からなる日本語音声コーパス「ReazonSpeech」が用いられており、GPTの高速推論手法である「DeepSpeed」を導入することで、音声認識におけるリアルファイムファクタ（RTF：認識時間÷音声の長さで算出）を0.22から0.15に短縮した。また、国立国語研究所言語資源開発センターのCSJ（Corpus of Spontaneous Japanese：日本語話し言葉コーパス）を用いたファインチューニングにより、CSJ Eval1テストセットの文字誤り率は、30.93％から5.43％に改善したという。rinnaでは、Nue ASRの公開が、今後より活発になると考えられる基盤モデルを活用したAI開発の参考になれば、としている。

Citations:
[1] https://rinna.co.jp/news/2023/12/20231207.html
[2] https://internet.watch.impress.co.jp/docs/news/1553281.html
[3] https://ai-market.jp/news/rinna-llm-nueasr/
[4] https://rinna.co.jp/news/2023/04/20230428.html
[5] https://japan.zdnet.com/release/30923675/