Несмотря на впечатляющие результаты, генеративный ИИ не обладает целостным пониманием мира

Большие языковые модели способны делать впечатляющие вещи, например, писать стихи или генерировать жизнеспособные компьютерные программы, даже несмотря на то, что эти модели обучены предсказывать слова, которые идут следующими в тексте.

Такие удивительные возможности могут создать впечатление, что модели неявно изучают некие общие истины о мире.

Но это не обязательно так, согласно новому исследованию. Исследователи обнаружили, что популярный тип генеративной модели ИИ может предоставлять пошаговые инструкции по вождению в Нью-Йорке с почти идеальной точностью — без формирования точной внутренней карты города.

Несмотря на сверхъестественную способность модели эффективно ориентироваться, когда исследователи закрыли некоторые улицы и добавили объезды, её эффективность резко упала.

Копнув глубже, исследователи обнаружили, что карты Нью-Йорка, неявно сгенерированные моделью, содержали множество несуществующих улиц, изгибающихся между сеткой и соединяющих далёкие перекрестки.

Это может иметь серьёзные последствия для моделей генеративного ИИ, используемых в реальном мире, поскольку модель, которая, как кажется, хорошо работает в одном контексте, может выйти из строя, если задача или среда немного изменятся.

«Одна надежда заключается в том, что, поскольку LLM могут делать все эти удивительные вещи с помощью языка, возможно, мы могли бы использовать эти же инструменты и в других областях науки. Но вопрос о том, изучают ли LLM согласованные модели мира, очень важен, если мы хотим использовать эти методы для совершения новых открытий», — говорит старший автор Ашеш Рамбачан, доцент кафедры экономики и главный исследователь в Лаборатории информационных и систем принятия решений Массачусетского технологического института (LIDS).

К Рамбачану в работе над статьей о работе присоединились ведущий автор Кейон Вафа, постдок Гарвардского университета; Джастин Й. Чен, аспирант электротехники и компьютерных наук (EECS) Массачусетского технологического института; Джон Кляйнберг, профессор компьютерных наук и информационных наук Университета Тиша в Корнеллском университете; и Сендхил Муллайнатан, профессор Массачусетского технологического института на кафедрах EECS и экономики, а также член LIDS. Исследование будет представлено на конференции по нейронным системам обработки информации.

Работа опубликована на сервере препринтов arXiv.

Новые метрики

Исследователи сосредоточились на типе генеративной модели ИИ, известной как трансформатор, которая формирует основу LLM, таких как GPT-4. Трансформеры обучаются на огромном количестве языковых данных, чтобы предсказывать следующий токен в последовательности, например, следующее слово в предложении.

Однако, по словам исследователей, если учёные хотят определить, создал ли магистр права точную модель мира, то простого измерения точности его предсказаний будет недостаточно.

Например, они обнаружили, что трансформер может почти всегда предсказывать правильные ходы в игре «Четыре в ряд», не понимая при этом никаких правил.

Итак, команда разработала две новые метрики, которые могут проверить модель мира трансформатора. Исследователи сосредоточили свои оценки на классе проблем, называемых детерминированными конечными автоматами, или DFA.

DFA — это задача с последовательностью состояний, например, перекрестков, которые необходимо пересечь, чтобы достичь пункта назначения, и конкретным способом описания правил, которым необходимо следовать на этом пути.

Они выбрали две задачи для формулировки в виде DFA: навигация по улицам Нью-Йорка и настольная игра «Отелло».

«Нам нужны были испытательные стенды, на которых мы знаем, что такое модель мира. Теперь мы можем серьёзно подумать о том, что значит восстановить эту модель мира», — объясняет Вафа.

Первая разработанная ими метрика, называемая различием последовательностей, говорит, что модель сформировала связную модель мира, если она видит два разных состояния, например, две разные доски Отелло, и распознает, чем они отличаются. Последовательности, то есть упорядоченные списки точек данных, — это то, что преобразователи используют для генерации выходов.

Вторая метрика, называемая сжатием последовательности, говорит, что преобразователь с согласованной моделью мира должен знать, что два идентичных состояния, как две идентичные доски «Отелло», имеют одинаковую последовательность возможных следующих шагов.

Они использовали эти метрики для тестирования двух распространенных классов трансформаторов, один из которых обучается на данных, полученных из случайно созданных последовательностей, а другой — на данных, полученных с помощью следующих стратегий.

Несвязные модели мира

Удивительно, но исследователи обнаружили, что трансформеры, которые делали выбор случайным образом, формировали более точные модели мира, возможно, потому, что они видели более широкий спектр потенциальных следующих шагов во время обучения.

«В «Отелло», если вы видите двух случайных компьютеров, а не игроков-чемпионов, теоретически вы увидите полный набор возможных ходов, даже те плохие ходы, которые игроки-чемпионы не стали бы делать», — объясняет Вафа.

Несмотря на то, что трансформаторы генерировали точные направления и правильные ходы Отелло почти в каждом случае, две метрики показали, что только один из них генерировал согласованную модель мира для ходов Отелло, и ни один из них не показал хороших результатов при формировании согласованных моделей мира в примере поиска пути.

Исследователи продемонстрировали последствия этого, добавив объездные пути на карту Нью-Йорка, что привело к сбою всех навигационных моделей.

«Я был удивлен тем, как быстро ухудшилась производительность, как только мы добавили объезд. Если мы закроем всего 1 процент возможных улиц, точность немедленно упадет с почти 100% до всего лишь 67%», — говорит Вафа.

Когда они восстановили карты города, сгенерированные моделями, они выглядели как воображаемый Нью-Йорк с сотнями улиц, пересекающихся поверх сетки. Карты часто содержали случайные пролеты над другими улицами или несколько улиц с невозможной ориентацией.

Эти результаты показывают, что трансформаторы могут удивительно хорошо справляться с определенными задачами, не понимая правил. Если учёные хотят создать LLM, которые могут захватывать точные модели мира, им нужно использовать другой подход, говорят исследователи.

«Часто мы видим, как эти модели делают впечатляющие вещи, и думаем, что они, должно быть, что-то поняли о мире. Я надеюсь, что мы сможем убедить людей, что это вопрос, над которым нужно очень тщательно подумать, и нам не нужно полагаться на собственную интуицию, чтобы ответить на него», — говорит Рамбачан.

В будущем исследователи хотят заняться более разнообразным набором проблем, например, такими, где некоторые правила известны лишь частично. Они также хотят применить свои оценочные метрики к реальным научным проблемам.


Автор Мария Захарова

Контакты, администрация и авторы