Stability AIが音楽生成AI「Stable Audio 2.0」を発表、最長3分の作曲が可能に半田貞治郎

こんにちは！半田貞治郎です。

Stability AIは4月3日、同社の音楽生成AI「Stable Audio 2.0」を発表した。Stable Audio 2.0は、テキストや音声からの入力に基づいて最長3分の音楽を生成できる機能を備えている。

Stable Audioは昨年9月にリリースされた同社の音楽生成AIで、当初は44.1kHzの最長45秒のトラックしか生成できなかった。しかし、今回のバージョンアップにより、最長3分のフルトラックの音楽を生成できるようになった。

Stable Audio 2.0の特徴は、テキストからだけでなく音声からも作曲できる点だ。ユーザーはオーディオサンプルをアップロードし、自然言語のプロンプトを入力することで、そのサンプルをアレンジできる。これにより、より柔軟な音楽制作が可能になる。

無料版では、3分の音楽を20曲まで生成できる。また、生成した音楽をさらに入力オーディオとして利用することもできる。

Stable Audio 2.0のモデルトレーニングには、ストック音楽サービスのAudioSparxのデータが使用されている。AudioSparxに楽曲を登録しているアーティストには、Stable Audioのトレーニングをオプトアウトするオプションが提供されている。

さらに、クリエイターの著作権保護のため、生成した音楽のアップロードにはAudible Magicのコンテンツ認識（ACR）技術が採用されており、著作権侵害の防止が図られている。

Stability AIは同日、Stable Audioで生成されたトラックのライブストリーミングを公式YouTubeチャンネルで開始した。Stable Audioの機能拡張と著作権保護の取り組みにより、音楽制作の新しい可能性が開かれることが期待される。