Stability AI представила нову ШІ-модель для композиторів – ForkLog UA
Компанія Stability AI представила нову ітерацію Stable Audio з розширеним набором функцій для створення звукових кліпів.
Our new model takes AI music generation to the next level by letting you generate high-quality audio up to 3 minutes. Everyone can generate audio up to 3 minutes in length, including our free plan users! https://t.co/0xqQcrHLbwhttps://t.co/MlV0jiULEF
— Stable Audio (@stableaudio) April 3, 2024
Модель першого покоління може генерувати аудіофайли довжиною до 90 секунд. Stable Audio 2.0 створює треки вдвічі довші і з великою кількістю користувацьких налаштувань.
Попередня версія як промпти використовувала тільки текст, а нова здатна сприймати як референс звукові кліпи. ШІ може підбирати стиль аудіо, яке він генерує, що дає точніші результати.
Представники Stability AI стверджують, що модель може створювати «структуровані композиції, що включають вступ, розвиток і кінцівку». Ще одним поліпшенням порівняно з попереднім поколінням стала можливість створення звукових ефектів.
Stable Audio заснована на дифузійній моделі. Від інших ШІ-алгоритмів її відрізняє спосіб навчання: у процесі тестування модель отримує колекцію звукових кліпів із помилками і завдання відновити оригінальний звук.
У новій версії використовується спеціалізована реалізація технології, відома як латентна дифузійна модель. Як і інші нейронні мережі, такі моделі навчаються на наборі даних, схожому на файли, які вони будуть обробляти в процесі генерації. Але перед початком навчання датасет перетворюється на математичну структуру, що робить процес розробки ШІ більш ефективним.
Змінений у такий спосіб набір даних називається латентним простором і він містить тільки найважливіші деталі. Менш значущі видаляються, що зменшує загальний обсяг інформації, яку моделі ШІ доводиться обробляти в процесі навчання. Це дає змогу скоротити кількість обладнання і знизити витрати.
Інженери Stability AI також додали нову нейронну мережу, засновану на архітектурі Transformer, яку Google розробив у 2017 році. Здебільшого вона використовується для побудови мовних моделей. Transformer враховує велику кількість контекстної інформації під час інтерпретації даних, що дає змогу йому отримувати максимально точні результати.
«Поєднання цих двох елементів призводить до створення моделі, здатної розпізнавати і відтворювати великомасштабні структури, які необхідні для створення високоякісних музичних композицій», — ідеться в пресрелізі Stability AI.
Stable Audio 2.0 доступний для користувачів безоплатно, а API дасть змогу іншим компаніям інтегрувати ШІ-модель у свої додатки.
Раніше компанія Adobe представила Project Music GenAI Control, що допомагає людям створювати і редагувати музику без професійного досвіду.
Нагадаємо, у лютому Stability AI анонсувала Stable Diffusion третього покоління.