こんにちは!半田貞治郎です。
Stability AIは4月3日、同社の音楽生成AI「Stable Audio 2.0」を発表した。Stable Audio 2.0は、テキストや音声からの入力に基づいて最長3分の音楽を生成できる機能を備えている。
Stable Audioは昨年9月にリリースされた同社の音楽生成AIで、当初は44.1kHzの最長45秒のトラックしか生成できなかった。しかし、今回のバージョンアップにより、最長3分のフルトラックの音楽を生成できるようになった。
Stable Audio 2.0の特徴は、テキストからだけでなく音声からも作曲できる点だ。ユーザーはオーディオサンプルをアップロードし、自然言語のプロンプトを入力することで、そのサンプルをアレンジできる。これにより、より柔軟な音楽制作が可能になる。
無料版では、3分の音楽を20曲まで生成できる。また、生成した音楽をさらに入力オーディオとして利用することもできる。
Stable Audio 2.0のモデルトレーニングには、ストック音楽サービスのAudioSparxのデータが使用されている。AudioSparxに楽曲を登録しているアーティストには、Stable Audioのトレーニングをオプトアウトするオプションが提供されている。
さらに、クリエイターの著作権保護のため、生成した音楽のアップロードにはAudible Magicのコンテンツ認識(ACR)技術が採用されており、著作権侵害の防止が図られている。
Stability AIは同日、Stable Audioで生成されたトラックのライブストリーミングを公式YouTubeチャンネルで開始した。Stable Audioの機能拡張と著作権保護の取り組みにより、音楽制作の新しい可能性が開かれることが期待される。
Citations:
[1] https://stability.ai/stable-audio
[2] https://venturebeat.com/ai/stability-ai-brings-new-clarity-and-power-to-gen-ai-audio-with-stable-audio-2-0/
[3] https://www.billboard.com/business/tech/stability-ai-text-to-music-generator-stable-audio-update-1235647936/
[4] https://github.com/Stability-AI/stable-audio-tools
[5] https://www.maginative.com/article/stability-ai-unveils-stable-audio-2-0/