Anthropic предлагает систему целенаправленной прозрачности для передовых систем искусственного интеллекта

По мере ускорения разработки масштабных систем искусственного интеллекта вопросы безопасности, надзора и управления рисками становятся всё более актуальными. В ответ на это компания Anthropic представила систему целенаправленной прозрачности, ориентированную специально на передовые модели искусственного интеллекта — те, которые обладают наибольшим потенциалом воздействия и риском. При этом в систему не включены небольшие разработчики и стартапы, чтобы не сдерживать инновации в более широкой экосистеме искусственного интеллекта.

Почему целенаправленный подход?

Система прозрачности от Anthropic отвечает потребности в дифференцированных нормативных обязательствах. В ней утверждается, что универсальные требования к соответствию могут перегружать компании на ранней стадии развития и независимых исследователей. Вместо этого предложение сосредоточено на узком классе разработчиков: компаниях, создающих модели, которые превышают определённые пороги вычислительной мощности, эффективности оценки, расходов на исследования и разработки (R&D) и годового дохода. Это гарантирует, что строгие требования к прозрачности применяются только к наиболее мощным — и потенциально опасным — системам.

Ключевые компоненты системы

Предлагаемая система структурирована в четырёх основных разделах:
* Сфера применения.
* Требования к предварительной подготовке к развёртыванию.
* Требования к прозрачности.
* Механизмы принуждения.

I. Сфера применения

Система применяется к организациям, разрабатывающим передовые модели, определяемые не только размером модели, но и сочетанием факторов, включая:
* масштаб вычислений;
* стоимость обучения;
* контрольные показатели оценки;
* общий объём инвестиций в исследования и разработки;
* годовой доход.

Важно отметить, что стартапы и небольшие разработчики явно исключены с использованием финансовых порогов, чтобы предотвратить ненужное нормативное бремя. Это сознательный выбор для сохранения гибкости и поддержки инноваций на ранних этапах разработки искусственного интеллекта.

II. Требования к предварительной подготовке к развёртыванию

Центральным элементом системы является требование для компаний внедрить систему безопасной разработки (Secure Development Framework, SDF) перед выпуском любой соответствующей передовой модели.

Ключевые требования SDF включают:
* Идентификацию модели. Компании должны указать, к каким моделям применяется SDF.
* Снижение катастрофических рисков. Должны быть разработаны планы по оценке и снижению катастрофических рисков, включая химические, биологические, радиологические и ядерные угрозы (CBRN), а также автономные действия моделей, противоречащие намерениям разработчиков.
* Стандарты и процедуры оценки. Должны быть чётко прописаны процедуры и стандарты оценки.
* Управление. Необходимо назначить ответственного корпоративного сотрудника для контроля.
* Защиту информаторов. Должны быть предусмотрены процессы поддержки внутренней отчётности о проблемах безопасности без преследования.
* Сертификацию. Компании должны подтвердить внедрение SDF перед развёртыванием.
* Ведение документации. SDF и их обновления должны храниться не менее пяти лет.

Эта структура способствует тщательному анализу рисков перед развёртыванием, встраивая при этом механизмы подотчётности и институциональной памяти.

III. Минимальные требования к прозрачности

Система требует публичного раскрытия процессов и результатов обеспечения безопасности с учётом конфиденциальной или служебной информации.

Компании, подпадающие под действие системы, должны:
* Опубликовать SDF. Они должны быть размещены в общедоступном формате.
* Выпустить системные карточки. При развёртывании или добавлении основных новых возможностей документация (похожая на «пищевые этикетки» моделей) должна суммировать результаты тестирования, процедуры оценки и меры по снижению рисков.
* Подтвердить соответствие. Публичное подтверждение того, что SDF был соблюдён, включая описания любых мер по снижению рисков.

Редактуры разрешены для защиты коммерческой тайны или общественной безопасности, но любые упущения должны быть обоснованы и отмечены.

Это обеспечивает баланс между прозрачностью и безопасностью, гарантируя подотчётность без риска неправильного использования модели или потери конкурентоспособности.

IV. Принуждение

Система предлагает скромные, но чёткие механизмы принуждения:
* Запрет на ложные заявления. Запрещены преднамеренно вводящие в заблуждение раскрытия информации о соответствии SDF.
* Гражданские штрафы. Генеральный прокурор может добиваться штрафов за нарушения.
* 30-дневный период исправления. У компаний есть возможность исправить нарушения соответствия в течение 30 дней.

Эти положения подчёркивают соответствие без создания чрезмерного риска судебных разбирательств, обеспечивая путь для ответственного саморегулирования.

Стратегические и политические последствия

Предложение Anthropic о системе целенаправленной прозрачности служит как нормативной инициативой, так и предложением по установлению норм. Оно направлено на установление базовых ожиданий для разработки передовых моделей до того, как полностью вступят в силу нормативные режимы.

Заключение

Предложение Anthropic о системе целенаправленной прозрачности предлагает прагматичный компромисс между бесконтрольным развитием искусственного интеллекта и чрезмерным регулированием. Оно возлагает значимые обязательства на разработчиков наиболее мощных систем искусственного интеллекта — тех, у которых наибольший потенциал для нанесения вреда обществу, — одновременно позволяя небольшим игрокам работать без чрезмерного бремени соблюдения требований.

По мере того как правительства, гражданское общество и частный сектор будут бороться с тем, как регулировать базовые модели и передовые системы, система прозрачности от Anthropic предоставит технически обоснованный, пропорциональный и осуществимый путь вперёд.

1. Какие цели преследует система целенаправленной прозрачности от Anthropic?

Система целенаправленной прозрачности от Anthropic ориентирована на обеспечение безопасности, надзора и управления рисками в разработке масштабных систем искусственного интеллекта. Она направлена на применение строгих требований к прозрачности только к наиболее мощным и потенциально опасным системам, чтобы не перегружать небольшие компании и независимых исследователей универсальными требованиями к соответствию.

2. Какие ключевые компоненты включает в себя система прозрачности от Anthropic?

Ключевые компоненты системы прозрачности от Anthropic включают:
* сферу применения, определяющую организации, к которым система применяется;
* требования к предварительной подготовке к развёртыванию, включая внедрение системы безопасной разработки (Secure Development Framework, SDF);
* минимальные требования к прозрачности, требующие публичного раскрытия процессов и результатов обеспечения безопасности;
* механизмы принуждения, включая запрет на ложные заявления, гражданские штрафы и возможность исправления нарушений в течение 30 дней.

3. Какие требования включает в себя система безопасной разработки (SDF)?

Система безопасной разработки (SDF) включает в себя следующие требования:
* идентификацию модели, к которой применяется SDF;
* снижение катастрофических рисков, включая химические, биологические, радиологические и ядерные угрозы (CBRN), а также автономные действия моделей;
* стандарты и процедуры оценки;
* назначение ответственного корпоративного сотрудника для контроля;
* защиту информаторов, предусматривающую процессы поддержки внутренней отчётности о проблемах безопасности;
* сертификацию внедрения SDF перед развёртыванием;
* ведение документации о SDF и их обновлениях не менее пяти лет.

4. Какие механизмы принуждения предлагает система прозрачности от Anthropic?

Система прозрачности от Anthropic предлагает следующие механизмы принуждения:
* запрет на ложные заявления о соответствии SDF;
* возможность гражданских штрафов за нарушения;
* 30-дневный период исправления нарушений соответствия.

5. Какие стратегические и политические последствия может иметь предложение Anthropic о системе целенаправленной прозрачности?

Предложение Anthropic о системе целенаправленной прозрачности может иметь следующие стратегические и политические последствия:
* установление базовых ожиданий для разработки передовых моделей до вступления в силу нормативных режимов;
* обеспечение баланса между бесконтрольным развитием искусственного интеллекта и чрезмерным регулированием;
* предоставление технически обоснованного, пропорционального и осуществимого пути вперёд для регулирования базовых моделей и передовых систем.

Источник

Почему целенаправленный подход?

Ключевые компоненты системы

Стратегические и политические последствия

Заключение

Оставьте комментарий Отменить ответ