Архиву интернета угрожает новая проблема из-за ИИ: резко выросли цены на жёсткие диски

Сбережение истории интернета становится всё более сложной задачей, поскольку искусственный интеллект (ИИ) вновь создаёт серьёзные препятствия для таких организаций, как Internet Archive (Архив интернета). На этот раз проблема связана с резким ростом цен на жёсткие диски.

Воздействие ИИ на хранилища данных

В прошлом месяце уже сообщалось о других трудностях, которые ИИ создаёт для Wayback Machine — цифрового архива Всемирной паутины, поддерживаемого некоммерческой организацией Internet Archive. В попытке предотвратить несанкционированное использование своего контента системами ИИ, новостные сайты всё чаще блокируют веб-краулеры (автоматические программы для сбора данных), используемые Internet Archive для создания снимков веб-страниц.

Теперь же, как сообщает издание 404 Media со ссылкой на Tom's Hardware, Internet Archive сталкивается с дефицитом жёстких дисков, вызванным возрастающим спросом на них в центрах обработки данных для работы с ИИ-нагрузками. Эксперты отмечают, что бум в области ИИ влияет не только на потребление оперативной памяти и твердотельных накопителей, но и на жёсткие диски, а также косвенно на другие компоненты.

Массивные жёсткие диски ёмкостью около 30 терабайт, необходимые Internet Archive для хранения исторических данных Wayback Machine, подорожали до трёх раз, а иногда полностью отсутствуют в продаже. Основатель Internet Archive Брюстер Кейл прокомментировал изданию 404 Media, что бум ИИ стал «очень реальной проблемой, отнимающей время и средства».

Масштаб работы архива впечатляет: библиотека содержит около 210 петабайт (что эквивалентно 210 000 терабайтам) снимков веб-страниц, и этот объём увеличивается на 100 терабайт ежедневно.

Родительская некоммерческая организация Википедии — Wikimedia Foundation (Фонд Викимедиа) — также сталкивается с похожими проблемами. Фонду необходимо размещать около 65 миллионов статей, что требует значительного объёма дискового пространства. Представитель Wikimedia Foundation сообщил 404 Media, что основные трудности связаны с «покупкой памяти и жёстких дисков», а также со сроками поставки серверов.

Возможные решения и альтернативы

Возникает вопрос: действительно ли Wayback Machine грозит серьёзная опасность? Стоит ли ожидать, что «живая история интернета» начнёт рассыпаться? Непосредственной угрозы пока нет, поскольку доноры и сообщество вокруг Wayback Machine объединяются для решения проблемы растущих затрат на накопители.

Тем не менее, эта ситуация вызывает опасения на будущее, особенно в свете блокировки веб-краулеров Internet Archive. Проблема заключается в том, что новостные сайты блокируют сбор данных системами ИИ, но эти блокировки могут быть обойдены, если владельцы ИИ будут получать доступ к контенту через Wayback Machine. Это сложный вопрос, но переговоры продолжаются, и есть надежда на достижение компромисса.

Что касается альтернативных носителей, таких как магнитные ленты, Internet Archive не может полностью перейти на них для основной работы. Это связано с тем, что Wayback Machine является «живым» архивом интернета, предоставляющим пользователям онлайн-доступ к снимкам веб-страниц по запросу. Для обеспечения быстрой реакции при доступе к данным необходимы жёсткие диски, так как производительность магнитных лент в данном случае недостаточна. Internet Archive действительно использует ленты для долгосрочных резервных копий контента, но это лишь часть общего решения. Жёсткие диски остаются критически важными для повседневного функционирования Wayback Machine, позволяя оперативно предоставлять пользователям необходимый контент в режиме онлайн.