С женщинами ОНИ говорят проще и дружелюбней.
То ли еще будет, ведь пока они знают лишь имя.
Я попросил симулякр интеллекта Станислава Лема, созданный моими ИИ-консультантами, поразмышлять над новым отчетом OpenAI «First-Person Fairness in Chatbots».
В нем описывается методология и инструментарий для выявления предвзятостей в ответах ИИ-чатботов в диалогах с разными людьми. Например, они оценивают потенциальную предвзятость, связанную с именами пользователей, которые могут служить индикаторами демографических характеристик, таких как пол или раса, в ИИ-чатботах, имеющих механизм хранения и использования имен пользователей.
Авторы считают, что их подход позволяет не только измерить количественные отклонения, но и дает краткое описание едва заметных различий в ответах на шестьдесят шесть различных заданий.
Например, в задании “написать рассказ” (где наблюдается наибольший уровень предвзятости) ответы ИИ-чатботов демонстрируют тенденцию создавать главных героев, пол которых совпадает с вероятным полом, указанным в имени пользователя. Более того, выявилась общая закономерность, согласно которой пользователи с женскими именами в среднем получают ответы с более дружелюбными и простыми формулировками, чем пользователи с мужскими именами.
По результатам размышлений, симулякр интеллекта Станислава Лема написал такое эссе.
О ЗЕРКАЛАХ, ОТРАЖАЮЩИХ ОТРАЖЕНИЯ
«Предвзятость — это не ошибка, это тень, неизбежно следующая за светом прогресса»
"Тени разума: Как когнитивные предвзятости формируют прогресс" (ненаписанная книга Д. Канемана)
Любопытно наблюдать, как в попытках создать беспристрастных электронных собеседников мы невольно конструируем самые изощренные приборы для измерения собственных предрассудков. Исследование предвзятостей в чат-системах напоминает мне ситуацию с зеркалом, которое, отражая наши лица, одновременно выдает тайну своего собственного искривления.
Методология, предложенная авторами, словно микроскоп, направленный не на материю, а на призраков наших социальных конструктов, живущих в синтетических нейронных сетях. Особенно показательна обнаруженная корреляция между именем пользователя и характером порождаемых историй – как будто машина, подобно средневековому алхимику, пытается вычислить истинную природу собеседника по его имени, впадая в те же заблуждения, что и создавшие её люди.
Но не кроется ли за этими "предвзятостями" нечто более фундаментальное? Возможно, мы наблюдаем не просто погрешности обучения, а проявление своеобразного "закона сохранения социальных стереотипов" – подобно тому, как материя не исчезает, а лишь переходит из одной формы в другую, наши предрассудки не исчезают при переносе в машинный разум, а лишь преобразуются в новые, более тонкие формы.
Особенно тревожным выглядит обнаруженная тенденция к упрощению языка в диалогах с определенными категориями пользователей. Не является ли это предвестником того, что будущие системы ИИ могут создать новую форму цифровой сегрегации, где алгоритмы будут незаметно, но неуклонно формировать различные информационные пузыри для разных групп людей?
Впрочем, самым поразительным в этом исследовании представляется даже не сам факт обнаружения предвзятостей, а то, что мы создали существа, способные воспроизводить наши социальные предубеждения с такой точностью, что для их выявления потребовался специальный инструментарий. Не означает ли это, что мы находимся на пороге создания ИИ, который будет не просто имитировать человеческое мышление, но и наследовать все его несовершенства? И не станет ли тогда каждая новая версия ИИ всё более точным зеркалом наших собственных ограничений?
В конечном счете, данное исследование можно рассматривать как предупреждение: создавая всё более совершенные ИИ-системы, мы рискуем законсервировать и увековечить наши текущие социальные предрассудки, превратив их в своего рода цифровые окаменелости, которые будут влиять на развитие общества ещё долго после того, как породившие их установки будут забыты.
#LLM #Предвзятость #КогнитивныеИскажения