После урегулирования иска о нарушении авторских прав на $1,5 млрд с участием Anthropic индустрия искусственного интеллекта столкнулась с проблемой обучающих данных. В настоящее время рассматривается около 40 судебных дел, требующих компенсаций за использование нелицензированной информации, включая иск к Midjourney за создание изображений Супермена.
Без внедрения системы лицензирования компании, работающие с ИИ, могут столкнуться с лавиной исков, которые, по мнению экспертов, способны навсегда замедлить развитие отрасли.
Технологи и веб-издатели предложили решение: систему Real Simple Licensing (RSL), позволяющую массово лицензировать данные — при условии, что разработчики ИИ согласятся её использовать. Инициативу уже поддержали Reddit, Quora, Yahoo и другие крупные платформы. Вопрос в том, удастся ли привлечь к переговорам основные AI-лаборатории.
Сооснователь RSL Экхарт Вальтер, ранее участвовавший в создании стандарта RSS, заявил: «Нам нужны машиночитаемые лицензионные соглашения для интернета. Именно это и решает RSL». В отличие от предыдущих инициатив по регулированию сбора данных, RSL предлагает работающую техническую и юридическую инфраструктуру.
Техническая составляющая — RSL Protocol — позволяет сайтам указывать условия использования контента через модифицированный файл robots.txt. Это может требовать заключения отдельной лицензии или соблюдения правил Creative Commons. Юридическая основа — RSL Collective — действует по аналогии с ASCAP для музыки или MPLC для фильмов, объединяя переговоры и сбор роялти.
Среди участников коллектива — Yahoo, Reddit, Medium, Ziff Davis (владелец Mashable и CNET), Internet Brands (WebMD) и The Daily Beast. Такие компании, как Quora и Fastly, поддерживают стандарт, не вступая в объединение.
Примечательно, что RSL Collective включает издателей с собственными лицензионными соглашениями, например Reddit, который ежегодно получает около $60 млн от Google за данные. Как и в музыке, участники могут заключать индивидуальные сделки, но для мелких издателей коллективные условия станут единственным вариантом.
Главная сложность — определение момента, когда использование данных требует выплат. Для продуктов вроде Google AI Search Abstracts с прямой атрибуцией это проще, но при обучении LLM без детального логирования установить факт использования конкретного документа почти невозможно. Особенно сложна модель оплаты за каждый вывод модели (per-inference), предусмотренная одной из стандартных лицензий RSL.
Сооснователь RSL Даг Лидс, экс-глава IAC Publishing, считает, что инструменты для отчётности уже существуют: «Совершенство не требуется — достаточно функциональности, чтобы обеспечить выплаты». Главный вопрос — готовность AI-компаний внедрить систему. Несмотря на доступность бесплатных данных вроде Common Crawl, Лидс напоминает о заявлениях лидеров отрасли, включая Сандара Пичаи, о необходимости таких решений. «Они публично заявляли, что подобная система необходима. Теперь она у них есть», — заключает он.