ИИ обучает ИИ. Или нет.
Для обучения больших языковых моделей, вроде хорошо всем известного чата GPT, нужно очень, очень много текста. Больше, чем написано человеком. И это – большая проблема!
Давайте я для начала напомню, что такое языковая модель (мы сейчас говорим о нейронных сетях, уточню). ИТАК: Языковая модель — это алгоритм, который анализирует текст, "понимает" (в кавычках, конечно) его контекст, обрабатывает и генерирует новые тексты. В его основе лежат нелинейные и вероятностные функции, с помощью которых модель предсказывает (с той или иной степенью успеха), какое слово в тексте может быть следующим. Ну то есть как предсказывает - это, наверное, не совсем правильное слово. Скорее — РАССЧИТЫВАЕТ вероятность для каждого из возможных слов. То есть ЭЛЕМЕНТАРНАЯ задача языковой модели довольно понятная — вычислить для данной последовательности слов вероятность следующей за ней последовательности. Например, если на вход дано предложение «сегодня прекрасная погода», от хорошо обученной модели мы будем ожидать продолжение вида «на улице тепло и солнечно». И вот тут - СТОП, друзья. Это для нас с вами такое продолжение естественно и логично. А если обучать модель на литературе об Африке, вполне вероятно, ожидаемым ответом на запрос «сегодня прекрасная погода» станут слова «сегодня не жарко и наконец пошел дождь». Ну и так далее, понимаете? Что там у нас за хорошая погода в Антарктиде, на Эвересте, в пустыне Атакама, на Луне?
ПОЭТОМУ для обучения по-настоящему успешных универсальных больших языковых моделей нужно много, очень, очень много текста. Десятки, сотни миллиардов страниц. Для сравнения напомню, что в знаменитой Войне и Мире Льва Толстого их всего чуть больше двух тысяч. Сейчас этот текст берут откуда? Да из интернета, конечно! но количество текстов, которые генерятся белковыми людьми, конечно. И растет не так быстро, как нужно молодому и растущему искусственному интеллекту.
Эту проблему хотят попробовать решать с помощью текстов, написанных другими нейросетями. Будет ли это работать? Некая научная группа (см.сылку ниже) провела эксперимент (еще года полтора назад, а нынешним летом добрались до Nature) , который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью и так далее, повторить несколько раз, на выходе получится ну полная ерунда. Причина этого в искажениях статистических свойств данных, а именно потеря так называемых «хвостов» — краёв распределений с редкими примерами. Вот, например, в человеческой популяции, условно говоря, 5 процентов гениев и пять процентов полных дураков, но если избавиться от них, то совсем не обязательно популяции в целом станет лучше. Ок, не самая удачная аналогия, согласен.
Статья наделала много шума в медиасфере. Выходит, что развитие больших языковых семимильными шагами несётся в никуда! Ведь количество текстов в интернете, написанных машинами, уже довольнос скоро превысит человеческие. Эксперты и журналисты часто использовали сравнение деградации моделей с близкородственным скрещиванием у животных или инбридингом. Как и в ситуации с коллапсом ИИ-моделей, в таком потомстве резко уменьшается генетическое разнообразие, из-за чего накапливаются опасные мутации и снижается жизнеспособность.
Короче. Нам надо научиться детектировать машинно-сгенерированный текст — и просто не давать его новым LLM для обучени, делов-то. Ну или оставлять его только капельку, в том количестве, которое не портит потом выдачу модели.
Все это похоже, друзья, на старую шутку про брак: Брак – союз двух людей для совместного преодоления проблем, которых бы у них не было, не будь этого союза. Чем больше и лучше мы обучаем модели, тем больше они выдают текста, на котором сами и обучаются, и их результаты делаются хуже.
Однако я уверен в ученых и специалистах по ИИ - если проблема детектирована, то она рано или поздно будет решена. Или нет))
🔬 https://www.nature.com/articles/s41586-024-07566-y