Использование нейросетей в музыкальной индустрии: от генерации музыки до улучшения качества звука

Искусственный интеллект проникает во все сферы жизни, и музыка — не исключение. Первые треки, написанные с помощью ИИ, появились еще в середине XX века. Сегодня нейросети умеют практически все: от обработки звука до генерации композиций. Как машинное обучение пришло в музыкальную индустрию, какие задачи решают нейросети и кому принадлежат права на ИИ-музыку — в нашей статье.

Как все начиналось?

Впервые о «машинной» музыке заговорили в середине XIX века. Изобретательница двоичного кода Ада Лавлейс предположила, что аналитическая машина Чарльза Бэббиджа (аппарат для решения математических задач) может сочинять композиции любой длины и сложности.

В 1957 году, спустя почти сто лет появилась первая музыка, созданная с помощью компьютера — программист Ньюман Гутман создал трек под названием The Silver Scale. В том же 1957 вышла The Illiac Suite — первая партитура, сгенерированная компьютером. Ее назвали в честь ILLIAC I — компьютера Иллинойского университета США. С тех пор компьютерные алгоритмы стали еще сложнее, а нейросети научились создавать полноценные композиции, улучшать качество звука и еще много чего. Ниже подробнее рассказали о том, как искусственный интеллект используют в музыкальной индустрии.

Генерация музыки

ИИ может создавать музыкальные элементы (звуки, ритмы, аккорды, мелодии) и полноценных композиции. Чтобы научить нейросеть писать музыку, ей показывают примеры звуков, инструментальных партий и мелодий. Готовая программа генерирует аудио по запросу пользователя. Так работает нейросеть Stable Audio, созданная Stability AI. Программу обучили более чем на 800 000 музыкальных композиций, инструментальных партий и звуковых эффектах. Пользоваться сервисом можно бесплатно. Правда, есть ограничения — можно сделать до 20 файлов длиной в 45 секунд в месяц. Хотите больше — оформляете платную подписку.

Автоматическая транскрипция и аранжировка

Нейросети могут преобразовывать аудиофайлы в ноты. Сначала ИИ обучают на наборе данных, который состоит из музыкальных произведений и соответствующих им нот. Чем больше информации обработает программа, тем точнее будет отвечать нейросеть. После обучения нейросеть может анализировать аудиофайлы и предсказывать соответствующие им ноты. Правда, пока точность преобразования не очень высокая, особенно если ИИ обрабатывает сложные музыкальные композиции. Поэтому иногда получившиеся ноты нужно корректировать.

Искусственный интеллект умеет генерировать не только ноты, но и аранжировки — модификации нотного текста для другого состава инструментов. Нейросети дают датасет из пар «‎аудиофайл — аранжировка»‎. Программа анализирует информацию и учится предсказывать, какие элементы соответствуют определенной композиции — инструменты, ритм, мелодии и т.д. Обученная нейросеть может генерировать как отдельные инструментальные партии, так и аранжировки для нескольких инструментов сразу.

AnthemScore — одна из популярных программ, которые применяют для автоматической транскрипции. Она преобразует аудиофайлы форматов WAV, MP3, MP2, AMR в ноты. Готовые партии можно редактировать — удалять и добавлять фрагменты, менять темп, скорость и громкость.

Улучшение качества звука — сервис Enhance Speech от Adobe

Нейросети умеют распознавать шум и удаляют его из аудиофайлов. Для этого ИИ обучают на парах «‎шумное — чистое аудио»‎. Еще программы используют для реставрации старых аудиозаписей. Нейросети восстанавливают недостающие фрагменты, улучшают качество и четкость звука.

Среди программ, которые используют для обработки аудио и видео — Enhance Speech от Adobe. Сервис улучшает качество звука, приближая его к «студийному». Enhance Speech обрабатывает файлы размером до 1 Гб. Процесс занимает несколько минут. Сервис бесплатный и доступен в России. Кстати, его активно используют московские кино- и звукорежиссеры.

Кому принадлежат авторские права на ИИ-музыку?

На это вопрос не могут ответить даже опытные юристы — законодательство в области ИИ еще не сформировалось ни в России, ни в мире. Подробнее о юридических аспектах использования нейросетей — в нашей статье.

Согласно российскому законодательству, нейросети относятся к программам для ЭВМ. В ст. 1259 Гражданского кодекса РФ написано, что авторское право на программу возникает автоматически, с момента ее создания. Автором ПО является лицо или организация, которая его сделала. Нейросетевой контент (тексты, изображения, музыка) — это результат деятельности программы для ЭВМ. Поэтому многие юристы считают, что сгенерированные композиции принадлежат разработчикам ИИ-сервисов. А распространять сгенерированную музыку можно только в соответствии с условиями пользовательского соглашения. Например, платформа для создания музыки AIVA разрешает использовать треки в коммерческих целях, но только подписчикам премиум тарифа.

Итак, искусственный интеллект выводит музыкальную индустрию на новый уровень — значительно облегчает и упрощает рутинные задачи, улучшает качество композиций. Еще — помогает создавать хорошую музыку даже начинающим артистам, у которых нет нужного оборудования и ресурсов.