Несмотря на впечатляющие способности нейросетей находить правильные ответы, их объяснения часто оказываются бессвязными или не соответствующими действительности. Ученые провели серию тестов, чтобы понять, насколько можно доверять той аргументации, которую выдает машина.
В ходе экспериментов выяснилось, что большие языковые модели зачастую приходят к верному результату интуитивно или используя скрытые закономерности в данных, но при этом генерируют объяснение, которое звучит убедительно, но не имеет ничего общего с реальным путем решения. Это явление эксперты называют «галлюцинацией рассуждений». Получается, что пользователь видит логичную цепочку шагов, но на самом деле алгоритм действовал совершенно иначе. Такая непрозрачность создает серьезные риски при использовании технологий в ответственных сферах.
«Проблема «галлюцинаций» решается не магией, а архитектурой. Например, в нашем ИИ-решении «Тессеракт» мы внедрили жесткий RAG: модель не фантазирует, а работает строго по верифицированным данным внутри закрытого контура. Это сводит риск ошибок к статпогрешности. Доверенный ИИ обязан быть интерпретируемым и безопасным активом, а не просто «красивым текстом», — говорит Станислав Ежов, директор по ИИ «Группы Астра».