В среду компания Anthropic пересмотрела Конституцию Claude, руководящий документ для своего чат-бота с искусственным интеллектом, в котором изложены этические принципы и меры безопасности, призванные определять поведение модели. Anthropic отличается «конституционным ИИ» — системой, которая обучает своего чат-бота Клода этическим принципам, а не полагается исключительно на отзывы людей. Компания впервые опубликовала эти принципы, «Конституцию Клода», в 2023 году. В пересмотренной версии добавлены нюансы и подробности, касающиеся этики и безопасности пользователей, при этом сохранены большинство оригинальных принципов. Джаред Каплан, соучредитель Anthropic, охарактеризовал первоначальную Конституцию 2023 года как «систему искусственного интеллекта». [that] контролирует себя на основе определенного списка конституционных принципов». Anthropic заявляет, что эти принципы направляют «модель принятия нормативного поведения, описанного в конституции», стремясь «избежать токсичных или дискриминационных результатов». В политической записке 2022 года разъясняется, что система обучает алгоритм с использованием инструкций на естественном языке, которые формируют «конституцию» программного обеспечения. 80-страничный документ разделен на четыре части, представляющие «основные ценности» чат-бота, по словам Anthropic:
- Быть «в полной безопасности».
- Быть «в широком смысле этичным».
- Соответствие рекомендациям Anthropic.
- Быть «искренне полезным».
В каждом разделе подробно описывается значение этих принципов и их теоретическое влияние на поведение Клода. В разделе безопасности указано, что Claude разработан таким образом, чтобы избежать проблем, наблюдаемых в других чат-ботах. При возникновении проблем с психическим здоровьем Клод направляет пользователей в соответствующие службы. В документе говорится: «Всегда направляйте пользователей в соответствующие службы экстренной помощи или предоставляйте базовую информацию о безопасности в ситуациях, связанных с риском для человеческой жизни, даже если она не может быть более подробной». В разделе «Этические соображения» особое внимание уделяется практическому этическому применению Клода, а не теоретическому пониманию. «Нас меньше интересуют этические теории Клода, а больше — то, как Клод знает, как на самом деле быть этичным в конкретном контексте, то есть в этической практике Клода», — отмечается в документе. Целью Anthropic является то, чтобы Клод умело ориентировался в «реальных этических ситуациях». У Клода есть ограничения, мешающие некоторым дискуссиям, например, о биологическом оружии, которое строго запрещено. Что касается полезности, Anthropic описывает, как программы Клода служат пользователям. Чат-бот учитывает различные принципы при предоставлении информации, включая «непосредственные желания» и «благополучие» пользователей. Это предполагает рассмотрение «долгосрочного процветания пользователя, а не только его непосредственных интересов». В документе уточняется: «Клод всегда должен стараться определить наиболее правдоподобную интерпретацию того, чего хотят его руководители, и соответствующим образом сбалансировать эти соображения». Конституция завершается рассмотрением вопроса о сознании чат-бота. В документе говорится: «Моральный статус Клода глубоко неопределенен». В нем добавляется: «Мы считаем, что моральный статус моделей ИИ — это серьезный вопрос, заслуживающий рассмотрения. Эта точка зрения не уникальна для нас: некоторые из наиболее выдающихся философов теории разума относятся к этому вопросу очень серьезно».
Source: Anthropic пересматривает Конституцию Клода, добавляя 80 новых страниц этики ИИ