Автор   Контакти
Новини для Українців » Новини ІТ » ШІ навчений на штучному інтелекті, штампує сміття

ШІ навчений на штучному інтелекті, штампує сміття

28
0

Великі мовні моделі, такі як ті, що пропонують OpenAI та Google, як відомо, вимагають величезних запасів навчальних даних для роботи. Останні версії цих моделей вже прочісували більшу частину існуючого Інтернету, що змусило деяких побоюватися, що може не залишитися достатньо нових даних для навчання майбутніх ітерацій.

 

Деякі відомі голоси в галузі, як-от генеральний директор Meta Марк Цукерберг, запропонували рішення цієї дилеми даних: просто навчайте нові системи штучного інтелекту на старих виходах штучного інтелекту.

Але нове дослідження показує, що канібалізація минулих виходів моделі швидко призведе до ланцюжків белькотіння штучного інтелекту і в кінцевому підсумку може призвести до того, що називають «крахом моделі». В одному з прикладів дослідники годували штучний інтелект доброякісним абзацом про церковну архітектуру, але він швидко деградував протягом поколінь. Остаточна, найбільш «просунута» модель просто безперервно повторювала фразу «black@tailed jackrabbits».

Дослідження, опубліковане в Nature цього тижня, перевірило цей сценарій, навчений штучному інтелекту. Дослідники створили власну мовну модель, якою спочатку годували оригінальний текст, створений людиною. Потім вони створили ще дев'ять поколінь моделей, кожне з яких тренувалося на текстовому виводі, згенерованому моделлю до неї. Кінцевим результатом останнього покоління стала несуттєва сюрреалістична тарабарщина, яка по суті не мала нічого спільного з оригінальним текстом. Дослідники кажуть, що з плином часу і наступних поколінь їхня модель «отруюється власною проекцією реальності».

Моделі штучного інтелекту забувають про сенс, чим більше вони тренуються на собі
Дослідники називають цей дивний випадок, коли штучний інтелект, здавалося б, вибухає сам на себе, «колапсом моделі», дегенеративним процесом, який може проявлятися у формах на ранніх і пізніх стадіях. На ранніх етапах колапс починає відбуватися, коли моделі штучного інтелекту на кілька поколінь, віддалені від оригінальних тренувальних даних, начебто забувають про викиди або раритети в оригінальному тексті. Це призводить до того, що найбільш ймовірні виходи стають все більш і більш поширеними. Це було б проблемою в реальному світі, тому що це може призвести до зниження поглядів меншин або вираження поглядів. LLM, що демонструє ознаки раннього колапсу, може представити версію реальності, якій не вистачає різноманітності і яка страждає від переважної однаковості.

На пізніх стадіях краху ситуація стає ще дивнішою. У цих останніх поколіннях моделі, навчені на моделях, настільки далекі від вихідних тренувальних даних, що починають забувати ключові аспекти початкового навчання і повністю втрачають сюжет. Саме на цьому етапі моделі починають генерувати повну безглузду тарабарщину. Коли це відбувається, дослідники кажуть, що «нерозбірливе» самоканібалізація моделі її власних попередніх результатів «спричиняє незворотні дефекти в отриманій моделі».

Дослідники стверджують, що цей каскадний ефект і можливий крах моделі неминучі для великих моделей, навчених на власних даних. Важливо відзначити, що це дослідження зосереджене саме на мовних моделях і не враховує, що могло б статися, якби мультимодальні моделі, такі як генератори зображень і відео, були навчені на собі. Це дослідження також зосереджується на тому, що має відбуватися під час навчання моделі на власних даних. Незрозуміло, що саме станеться, якщо одна модель, скажімо, від Meta, тренуватиметься на виході, згенерованому з OpenAI.

Збереження оригінального людського тексту може запобігти колапсу


Перспектива краху реальної моделі не є немислимою гіпотетикою. Зараз запущено та працює незліченна кількість веб-сайтів, які містять статті та публікації в блогах, повністю створені LLM. У гонитві за якнайшвидшим створенням нових моделей не виключено, що більша частина цієї недбалості, створеної штучним інтелектом, може в кінцевому підсумку просочитися в тренувальні набори.

Одним із можливих рішень цього ненавмисного включення контенту, згенерованого штучним інтелектом, у навчальні набори було б заохочення стандарту нанесення водяних знаків на різних платформах, який чітко позначає автентичність контенту та те, чи був він створений машиною. Google, Adobe і великі технологічні гравці намагаються зробити саме це за допомогою спеціального значка «облікові дані вмісту», який вони намагаються стандартизувати в рамках Коаліції за походження та автентичність контенту (C2PA).

Але це стосується лише зображень. Текст, згенерований штучним інтелектом, також набагато складніше позначити водяним знаком або навіть точно ідентифікувати за допомогою доступного програмного забезпечення для виявлення. Більш реалістичний підхід може вимагати від розробників штучного інтелекту скрупульозної перевірки матеріалів на наявність ознак маніпулювання штучним інтелектом і потенційної оплати надійним людським джерелам за доступ до навчання на їхніх високоякісних даних. Без цих гарантій даних про тренування людини Інтернет ризикує бути згорнутим хвилею блювоти штучного інтелекту.

27 лип 2024, 11:40
Новини ІТ
Коментарі
Мінімальна довжина коментаря 50 знаків.
Натисніть на зображення, щоб оновити код, якщо він нерозбірливий

Схожі новини: