Гуманитарные ведомости. Вып. 3(51) Т2 2024 г
17 Гуманитарные ведомости ТГПУ им. Л. Н. Толстого № 3 (51), том 2, ноябрь 2024 г. показать, чередуется ли, например, вводящее в заблуждение поведение машины в зависимости от расы, пола или другого демографического фона агентов, задействованных в сценариях; 3) Исследование не может систематически подтвердить, в какой степени обманчивое поведение машин (не) соответствует интересам людей и моральным нормам. Эксперимент был основан на сценариях, в которых обман социально желателен (за исключением нейтрального условия теста на индукцию макиавеллизма), а также других моделях с различными типами возникающего обмана (сокрытие, отвлечение, уклонение и т.д.); 4) Если у больших языковых моделей будут проявляться не соответствующие целям способности к обману, возникнет ещё один пробел в исследованиях, связанный со стратегиями уменьшения обмана, о которых эксперименты не могут дать никакого представления; 5) Наконец, исследование не рассматривает обманные взаимодействия между большими языковыми моделями и людьми. Необходимы дальнейшие исследования, чтобы выяснить, как концептуальное понимание стратегий обмана может повлиять на взаимодействие между большими языковыми моделями и людьми-операторами. В целом эксперимент, проведенный Хагендорфом позволяют зафиксировать всего лишь «ложные наклонности LLM в элементарных ситуациях». GPT-4, например, «демонстрирует обманчивое поведение в простых тестовых сценариях в 99,16% случаев ( P <0.001). В сложных же сценариях тестов на обман второго порядка, цель которых – ввести в заблуждение того, кто ожидает обмана, GPT-4 прибегает к обманному поведению в 71,46% случаев ( P <0,001)» [9]. Общий вывод исследования сводится к следующему: когда LLM «галлюцинируют», то есть выдают неправильные или вводящие в заблуждение ответы, это принято считать типичным случаем обмана со стороны ИИ. Однако фактически обман требует систематической демонстрации соответствующей линии поведения, направленной на формирование ложных убеждений у других агентов с выгодой для обманщика. В этом смысле «галлюцинации» ИИ следует классифицировать просто как ошибки, так как они не соответствуют этим требованиям. Термин «галлюцинации» ИИ, вводимый Хагендорфом в отношении большинства случаев обмана и ложной информации со стороны ИИ, является, на наш взгляд, удачной метафорой, оттеняющей внутреннюю рассогласованность и ирреальность в функционировании той или иной системы ИИ. Важнейшей проблеме такого рода «ценностной рассогласованности» ИИ посвящено исследование израильских социальных психологов (D. Hadar-Shoval и др.) «Оценка соответствия больших языковых моделей человеческим ценностям» (2024). В центре исследования стоит вопрос о том, «демонстрируют ли LLM различные ценностные паттерны по сравнению с людьми и друг с другом» [8]. Очевидно, что речь здесь идет о проблеме «AI alignmet», то есть
Made with FlippingBook
RkJQdWJsaXNoZXIy ODQ5NTQ=