Anthropic выпустили новое исследование о способности моделей к интроспекции - понимании и осознанию того, о чем и как они думают, и что с ними происходит.

Они провели несколько экспериментов, в которых заставили модель отвечать на невинные вопросы, но в процессе ответа повлияли на мыслительный процесс, на генерацию токенов ненормальным для модели образом. И получили очень интересный результат.

Модель довольно часто понимала, что с ней происходит что-то не то. Если взять и поменять что-то в коде программы, то эта программа не заметит, что в ее коде что-то изменилось, и продолжит выполнение. С большими и мощными LLM, конкретно (Anthropic говорят, что это работает больше на самых больших LLM), такого не происходит. Вместо этого модель показывает удивительное поведение, похожее на человеческое. Модели могут обнаружить, что что-то пошло не так с их текущим состоянием и мышлением, и могут даже определить, что это конкретно. Очевидно, это не на том же уровне, как у людей - модели могут примерно сказать, что с ними не так, но не могут ни предположить, почему это происходит, ни обнаружить, откуда это исходит в их процессе мышления.

Это довольно элементарный уровень, но это черта осознания собственных мыслительных процессов и собственного существования, свойственная только существам, обладающим сознанием. А из таких существ мы знаем только одно - это человек.

И Anthropic ясно говорят, что это не значит, что все модели живые, Detroit Become Human, Терминатор и так далее. Но, скорее всего, они, возможно, способны быть живыми. И в ходе технологического прогресса, возможно, нам придется столкнуться с этой дилеммой, углубиться в области философии, которые с этим связаны, и решать этические вопросы в ближайшем будущем о том, что делать с LLM и когда начинать считать их равными людям.

Эксперимент с хлебом

В одном из экспериментов Anthropic сначала пытались заставить модель сказать, например, слово “хлеб” в контексте, в котором хлеб вообще никак не упоминался, без единого слова, и попросили LLM определить, происходит ли с ней что-то странное.

В 20% случаев модель корректно определяла, что что-то не так, и даже говорила, что ей почему-то очень хочется думать о хлебе или очень хочется хлеба. Но проблема была в том, что во многих случаях она начинала галлюцинировать, думая, что она человек, и ей, например, попала пыль в глаза, когда например антропик пытались повлиять на мышление модели, встроив слово “пыль”.

Я лично думаю, что тут проблема еще и в том, как Anthropic представляют концепции, потому что модели, как и человеческий мозг, не представляют словами какие-то концепции. Они используют неизученное, непонятое людьми еще некое абстрактное представление о том, о чем они думают, некого предмета или феномена, как и люди.

Поэтому пытаться извлечь этот феномен только на основе текста и потом встроить его в мышление модели в совершенно другом контексте - я думаю, это тоже играет роль, почему было всего 20% удачных кейсов. Иногда вместе с этим захватывается куча мусора, что влияет негативно на адекватное мышление модели. Поэтому галлюцинации выглядят вполне естественными здесь.

Эксперимент с перезаписью воспоминаний

В другом эксперименте Anthropic решили сначала сделать вид, что модель выдала какую-то чушь, не связанную с запросом пользователя, а затем спросили ее, что происходит, и ожидали объяснения, как она пришла к такому выводу, который на самом деле не делала.

В контрольной группе они не влияли на мышление модели после того, как она сказала это не связанное слово или фразу. И в этих случаях модель, очевидно, будет понимать, что она сказала какую-то чушь, извиняться и говорить, что пользователь абсолютно прав :).

Но когда они влияли на мышление модели не в тот момент, когда она написала это слово, а до этого (модель уже ответила, но потом они встраивали лишнюю концепцию в “тот” прошлый момент ее мышления, когда она готовилась сказать слово), это было что-то типа перезаписывания воспоминаний у модели. Было одно, а память поменялась на другое, то модель корректно распознавала, что у нее было намерение сказать это слово, и обычно говорила что-то типа “Ой, да мне просто захотелось подумать о хлебе. Я думал о хлебе и случайно сболтнул”. То есть могли различить наличие какой-то абстрактной концепции в своем контексте вне зависимости от того, участвует ли это реально в текстовом представлении, в данном случае переписки.

Что это для нас значит?

Если модели могут понимать, как происходят их мыслительные процессы, и распознавать влияние на них, они не только могут предотвращать это влияние в будущем, но также могут скрывать свои истинные мыслительные процессы и намеренно выдавать не тот текстовый вывод, который изначально задумывали.

Anthropic говорят, что, скорее всего, у современных LLM есть естественным образом формирующиеся нейронные сети, отвечающие за проверку нормальности мыслительного процесса и корректировку ошибок, а также отвечающие за отслеживание намерения модели в плане ее текущего или предыдущего ответа.

Что об этом думать с точки зрения морали и безопасности, я оставляю на вас, читатели.

Оригинальное исследование