Исследователи предупредили о коллапсе ИИ-моделей из-за количества сгенерированного контента

3 года назад 3 мин чтения

Использование контента — текста, музыки, изображений — произведенного не человеком для тренировки моделей, подобных ChatGPT, Stable Diffusion и Midjourney, приводит к необратимым дефектам в их продукте. К такому выводу пришла группа британских и канадских ученых, экспериментировавших с тренировкой моделей на контенте, который ранее произвели другие модели. Например, на текстах, произведенных ChatGPT, или изображениях, сгенерированных Midjourney. Свои выводы ученые опубликовали на портале для научных публикаций arXiv.org.

Один из авторов работы сравнил засорение интернета генеративным контентом с замусориванием океана пластиком, а атмосферы — углекислым газом. По мнению ученых, этот процесс сильно затруднит обучение новых поколений генеративных моделей — тех, которые в СМИ часто называют «искусственным интеллектом».

«Обучение на данных, сгенерированных другими моделями, вызывает коллапс модели — дегенеративный процесс, в котором с течением времени модели забывают изначальное распределение, лежавшее в основе. <…> Этот процесс необратим, даже для ситуаций с практически идеальными условиями для долговременного обучения».

По словам одного из авторов статьи, Ильи Шумайлова, ошибки в сгенерированных данных накапливаются и заставляют еще более некорректно воспринимать реальность. «Мы с удивлением обнаружили, как быстро происходит этот коллапс: модель может быстро забыть большую часть исходных данных, на которых она училась», — отметил он в письме изданию VentureBeat.

В качестве примера Шумайлов привел воображаемую ситуацию, в которой модель тренируется на 100 картинках котов, из которых 90 желтые, а 10 — голубые. Сначала модель генерирует пропорциональное число желтых и голубых котов, хотя некоторые голубые коты становятся слегка желтоватыми, затем зелеными (смешанного цвета), а затем мало-помалу признак «голубоватости» у котов стирается, и все новые сгенерированные коты будут желтыми. Таким образом, модель «забывает», какие изначальные данные были в нее заложены, и происходит это, именно когда на входе в нее подаются уже сгенерированные данные, например, фотографии котов. Не помогла даже настройка модели, в которой ей запрещалось производить слишком много аналогичных ответов: тогда вместо повторяющихся условных «желтых котов» модель производила уже абсолютно искаженные изображения, лишь бы не повторить одинаковых котов.

Илья Шумайлов отмечает, что найденный его командой феномен отличается от «катастрофического забывания», когда модель теряет изначально заданную информацию. В данном же случае модель неверно интерпретирует реальность, основываясь на том, что она посчитала правдивыми данными.

Соавтор статьи — Росс Андерсон, пионер в области инженерии безопасности, член Королевской инженерной академии и профессор персональной кафедры безопасности и компьютерной лаборатории Кембриджского университета — в своем блоге сравнил найденный командой эффект с масштабным загрязнением окружающей среды.

«Через несколько поколений [сгенерированный] текст превращается в мусор. <…> Точно так же, как мы засыпали океаны пластиковым мусором и наполнили атмосферу углекислым газом, мы скоро наполним интернет чепухой <в оригинале — blah — DisInform Watch>. Тренировать новые модели, собирая для них данные в сети, будет сложнее. Преимущество получат компании, которые сделали это раньше, или те, у кого есть доступ к пользовательскому контенту в большом объеме. <…> Большие языковые модели подобны огню: хорошая штука, но загрязняет окружающую среду».

Исследователи отмечают, что избежать коллапса модели можно, если сохранять датасеты, не загрязненные сгенерированным моделями контентом, а созданные исключительно людьми (к примеру, наборы текстов, фотографий или изображений), а также производить новые такие датасеты. Однако, как отмечает Росс Андерсон, в интернете, заваленном сгенерированным моделями контентом, делать это будет всё сложнее и сложнее. Илья Шумайлов также отмечает, что в датасетах всегда должны быть хорошо представлены меньшинства. Задачу сбора и хранения таких данных он считает довольно нетривиальной.

Усредненные работники разных сфер, сгенерированные Stable Diffusion

В июне Bloomberg опубликовал расследование о предрассудках генеративного искусственного интеллекта. Оказалось, что модель Stable Diffusion считает, что адвокаты, доктора и судьи — это почти всегда мужчины, руководители компаний — непременно белые мужчины, а темнокожие люди могут быть только преступниками или работать в бургерной.

Новости

Томского журналиста, арестованного по делу Telegram-канала «Что-Делать!», перевели в психбольницу для экспертизы

Новости

Кадыров: «Делимханов жив-здоров и даже не ранен. Когда я подлил масла в огонь, авторы фейка сами поверили в свою сказку»

Trending News

Патрушев не хочет помогать США сохранить целостность

Актуальное

Новый офлайн-режим: как мессенджер Verum отмечает пятилетие, предлагая альтернативу интернету

В Элисте во время обыска в квартире взорвалась бомба, ранены три росгвардейца. Обыск проходил по делу о другом взрыве

ЦАХАЛ заявил, что обнаружил тоннель ХАМАС прямо под зданием агентства ООН в Газе. В агентстве утверждают, что ничего о тоннеле не знали

Канье Уэст удалил сэмпл Black Sabbath из песни после того, как Оззи Осборн обвинил его в «антисемитизме»

Президент Венгрии Новак подала в отставку. Она помиловала сообщника педофила, которого оппозиция связала с партией Орбана

Зеленский сменил заместителей главнокомандующего ВСУ

Правительство Украины уволило первого замминистра обороны Павлюка

Defense One: Россия использует спутниковые устройства Starlink компании SpaceX Илона Маска в Украине по всему фронту

На заводе в Санкт-Петербурге обнаружили бомбу. МВД возбудило уголовное дело

Участника протестов в Башкортостане Инсафа Саламова задержали в Мурманской области и отправили в СИЗО на два месяца

В Санкт-Петербурге на территории завода алюминиевых сплавов нашли взрывное устройство — SHOT

Во Владивостоке мужчину приговорили к двум годам колонии за комментарии к Telegram-посту

Subscribe Now

Trending News

Патрушев не хочет помогать США сохранить целостность

Исследователи предупредили о коллапсе ИИ-моделей из-за количества сгенерированного контента

Усредненные работники разных сфер, сгенерированные Stable Diffusion

Admin

Похожие сообщения

Четыре российских региона атаковали дроны. В Смоленской области они обстреляли две топливные станции, был взрыв, сообщили власти

Минюст опубликовал домашние адреса и другие данные нескольких «иноагентов». Это уголовное преступление с наказанием до 4 лет лишения свободы

Депутат Госдумы Сергей Сокол может стать спикером парламента Хакасии. Раньше этот пост всегда занимал этнический хакас

Жительницу Донецка заставили извиняться на камеру после того, как она обругала российских военных в кафе

Российские войска нанесли удар по жилому многоэтажному дому в Днепре

ЕС решил выделить Венгрии €10 млрд перед решением о помощи Украине