Интернет-архив зафиксировал свой триллионный сайт

Интернет-архив зафиксировал свой триллионный сайт.

Интернет-архив — один из наиболее важных библиотечных проектов в киберпространстве — достиг результата, который трудно даже представить. После почти 30 лет кропотливой работы некоммерческая организация сохранила свой триллионный веб-сайт. Этот момент знаменует собой важный этап в истории усилий по сохранению цифрового контента, особенно в то время, когда интернет стал неотъемлемой частью повседневной жизни, но при этом всё более ненадёжным и сложным для навигации.

У интернета есть много преимуществ, но постоянство никогда не было одним из них. Цифровой контент по своей природе эфемерен и обычно существует до тех пор, пока кто-то готов поддерживать его существование. Пример: в 2019 году MySpace (когда-то один из самых популярных ранних сайтов социальных сетей в интернете) объявил, что непредвиденная ошибка при миграции серверов случайно стёрла все загруженные пользователями материалы на сайт социальных и музыкальных медиа с 2003 по 2015 год. За одну ночь примерно 50 миллионов песен 14 миллионов исполнителей исчезли в киберпространстве.

Именно таких моментов Интернет-архив пытается избежать. Организация стремится создать «постоянную запись эволюции интернета» с 1996 года, главным образом с помощью веб-краулеров, которые сохраняют как можно больше общедоступных веб-сайтов. Волонтёры также вносят свои собственные загрузки, включая печатные издания, труднодоступную музыку и аудио и другие форматы медиа. Спустя почти три десятилетия Интернет-архив сохранил более 866 миллиардов веб-страниц, 41 миллион текстов и миллионы других форм цифрового контента. Всего было добавлено около 500 миллионов новых сайтов в день, что составляет примерно 100 000 терабайт информации. Это эквивалентно заполнению 50 000 iPhone высшего уровня, доступных на рынке.

Хотя Интернет-архив остаётся незаменимым для архивариусов, журналистов, учёных-исследователей, а также просто любознательных посетителей, он сталкивается с растущим давлением со стороны быстро меняющегося всемирной паутины. Технологические компании, стремящиеся обучить свои системы искусственного интеллекта на основе больших языковых моделей, собирают данные из онлайн-пространства, часто в крайне туманных правовых обстоятельствах. В результате многие крупные медиакомпании, включая The New York Times, The Guardian и USA Today/Gannett, удерживают свой новый контент подальше от Архива, чтобы сохранить его от генеративного искусственного интеллекта.

Понятно, что пока нет конкретной системы, которая бы должным образом компенсировала эти компании и их авторов за их работу, но это также значительно усложняет сохранение того, что, возможно, является самой хрупкой информационной экосистемой в истории человечества. Будем надеяться, что все стороны придут к пониманию, и Архив просуществует достаточно долго, чтобы преодолеть отметку в два триллиона сохранённых сайтов.

Источник