Нашествие ИИ: краулеры обрушили трафик на Wikimedia Commons на 50%

Краулеры ИИ вызвали 50% скачок нагрузки на серверы Wikimedia Commons

Фонд Wikimedia, некоммерческая организация, управляющая Википедией и другими краудсорсинговыми проектами знаний, сообщил о резком росте потребления трафика. С января 2024 года нагрузка, связанная со скачиванием медиафайлов с Wikimedia Commons, увеличилась на 50%**. Как пояснили представители фонда, причиной стал не возросший интерес людей к знаниям, а активность **краулеров ИИ**. Эти автоматизированные системы активно сканируют и загружают контент для обучения моделей искусственного интеллекта.

Кто стоит за ростом трафика?

Wikimedia Commons — это огромное хранилище изображений, аудио- и видеофайлов, доступных по свободным лицензиям. Этот контент стал ценным ресурсом для компаний, разрабатывающих генеративные модели ИИ. Хотя фонд не называет все компании напрямую, предполагается, что **основными потребителями трафика** являются крупные технологические игроки. Среди них могут быть Google, Amazon, Microsoft, OpenAI, Midjourney и другие разработчики ИИ.

Фонд идентифицирует ботов по их строкам `user-agent` — специальным идентификаторам, которые программы используют при запросах к веб-серверам. Однако не все компании честно указывают свои намерения или даже маскируют своих ботов под обычные браузеры. Это усложняет точное определение источника нагрузки.

Меры противодействия и предложения

Wikimedia уже заблокировала некоторые известные **краулеры ИИ**, нарушающие правила использования ресурсов. Например, доступ был ограничен для бота `DataForAI GptBot`. Интересно, что **бот OpenAI (ChatGPT) пока не заблокирован**, хотя фонд ведет диалог с компанией.

Организация подчеркивает, что не против использования своих данных для обучения ИИ в принципе. Однако она настаивает на **прозрачности и соблюдении правил**. Фонд призывает AI-компании:

1. Четко идентифицировать своих ботов (через `user-agent`).
2. Уважать файл `robots.txt`, где указаны правила сканирования сайта.
3. Соблюдать условия лицензий Creative Commons, под которыми распространяется контент (часто требуется указание авторства).

Для компаний, нуждающихся в больших объемах данных и стабильном доступе, фонд предлагает **платный сервис Wikimedia Enterprise**. Он предоставляет структурированные данные через API на коммерческой основе, что помогает покрывать расходы на инфраструктуру.

Финансовые и этические аспекты

Резкий рост трафика создает **серьезную финансовую нагрузку** на Wikimedia Foundation, которая существует в основном за счет пожертвований. Неконтролируемое скачивание данных истощает ресурсы, предназначенные для обслуживания миллионов пользователей по всему миру.

Фонд выражает обеспокоенность тем, что некоторые компании используют общедоступные знания без должного уважения к создателям контента и правилам сообщества. Ситуация с **краулерами ИИ** поднимает важные вопросы об этике использования открытых данных и ответственности технологических гигантов перед некоммерческими проектами, которые эти данные предоставляют.

Wikimedia надеется на **сотрудничество с AI-компаниями**, но не исключает и более строгих мер в будущем, если ситуация не изменится. Организация стремится найти баланс между открытостью знаний и устойчивостью своей инфраструктуры.

Источник

Оставьте комментарий