Web Archive: что это и как найти старую версию сайта в архиве интернета

Рассказываем, как устроен Web Archive, как найти в нем старую версию сайта или удалить архивную страницу.
Что такое Web Archive
Практическое применение
Как посмотреть
Как сохранить сайт
Как удалить сайт
Вопросы и ответы
Что такое Web Archive
Практическое применение
Как посмотреть
Как сохранить сайт
Как удалить сайт
Вопросы и ответы
Еще
Человек с помощью ноутбука проверяет Web Archive
В интернете ничто не исчезает бесследно — во многом благодаря Web ArchiveИсточник: Freepik

Интернет меняется каждый день: сайты закрываются, страницы удаляются, контент редактируется. Но почти все, что когда-либо было опубликовано в открытом доступе, остается в Web Archive — огромном архиве, который с 1996 года сохраняет копии веб-страниц. С помощью Wayback Machine можно заглянуть в прошлое любого сайта и найти давно утерянные материалы. Рассказываем, как устроен этот архив, как им пользоваться и что можно сделать с его помощью.

  • Web Archive (Wayback Machine) — некоммерческий проект, созданный Брюстером Кейлом в 1996 году для сохранения цифрового наследия. В нем хранятся копии веб-страниц, книг, видео, аудио и программ.

  • Роботы архива регулярно сканируют сайты и сохраняют все найденные элементы: HTML, CSS, скрипты, изображения, документы. Каждое сохранение фиксируется с датой, старые версии не перезаписываются.

  • В архиве собрано более триллиона веб-страниц, 56 миллионов оцифрованных книг, 15 миллионов видео и аудиозаписей. Объем данных превышает 200 петабайт.

  • Чтобы посмотреть сохраненную копию, достаточно ввести URL на web.archive.org и выбрать дату в календаре. Синим отмечены успешные сохранения, зеленым — перенаправления, красным — ошибки.

Что такое Web Archive и кто его создал

Web Archive (он же Wayback Machine, «Машина времени») — это крупнейший архив копий веб-страниц, созданный некоммерческой организацией Internet Archive. Проект запустили в 2001 году, хотя первые сохранения датируются 1996 годом. Основатель — американский предприниматель и активист Брюстер Кейл, который поставил перед собой амбициозную цель: сохранить цифровое культурное наследие человечества.

Специальные программы-роботы (их еще называют краулерами или пауками) регулярно обходят сайты и копируют все, что находят: HTML-код, стили, скрипты, изображения, видео, документы. Каждый такой «снимок» сохраняется отдельно с указанием даты и времени. Старые версии не заменяются новыми — они остаются в архиве навсегда. Благодаря этому можно проследить, как менялся сайт год, пять или пятнадцать лет назад.

Партнерами Internet Archive выступают библиотеки и университеты по всему миру. Кроме того, любой пользователь может самостоятельно загружать контент на серверы организации через официальный сайт.

В коллекциях веб-архива насчитывается:

  • более триллиона веб-страниц;

  • 56 миллиона оцифрованных книг и текстов;

  • 15 миллионов аудиозаписей;

  • 15 миллионов видео;

  • более 5 миллионов изображений;

  • более миллиона программ.

Общий объем одной копии архива превысил 200 петабайт. Один петабайт равен 1024 терабайтам. 

В каких целях можно пользоваться веб-архивом

У Wayback Machine множество практических применений, выходящих далеко за рамки простого любопытства.

  • Доступ к удаленным сайтам. Если сайт закрылся или страница больше не открывается, почти наверняка ее копию можно найти в архиве. Это касается как целых ресурсов, так и отдельных материалов.

  • Восстановление утерянного контента. Комментарии, фотографии, документы, которые удалили с сайта, часто остаются в сохраненных версиях. Особенно это полезно, если известен прямой URL на файл — например, site.com/report.pdf.

  • Проверка изменений. Журналисты, юристы и маркетологи используют архив, чтобы отследить, как менялся контент на сайтах компаний или госорганов. Можно узнать, удаляли ли неудобную информацию или правили задним числом.

  • Подтверждение авторства. Если вы публиковали материал, а кто-то присвоил его себе, архивная копия с датой может стать доказательством в споре.

  • Исследования и аналитика. Маркетологи изучают, как развивались сайты конкурентов. Историки анализируют цифровые следы прошлого. Дизайнеры ищут вдохновение в старых версиях известных ресурсов.

  • Судебные разбирательства. Сохраненные копии страниц не раз использовались как доказательства в судах. 

Как посмотреть сайты в веб-архиве

Зайдите на сайт веб-архива. В поисковую строку введите адрес интересующей страницы и нажмите Enter. Система покажет, какие копии сайта или страницы есть в наличии.

Страницы сайта Hi-Tech Mail в Web Archive
В веб-архиве сохранилось больше 600 тысяч страниц Hi-Tech MailИсточник: Hi-Tech Mail

Если вам нужно увидеть публикации за конкретную дату, выбирайте ее в календаре. Он расположен в верхней части страницы.

Архив заходной страницы Hi-Tech Mail в Wayback Machine
Так выглядела главная страница Hi-Tech Mail в марте 2024 годаИсточник: Hi-Tech Mail

Чтобы посмотреть на список всех страниц, нажмите на кнопку captures. Обычно перед ней указано количество копий. Откроется календарь. 

Он устроен так: годы отображаются вверху, месяцы — под ними, а дни, когда делались снимки, отмечены кружками. Цвет кружка имеет значение:

  • синий — сохранение прошло успешно, копию можно открыть;

  • зеленый — сайт перенаправил архивного робота на другой адрес;

  • красный — при попытке сохранить страницу произошла ошибка.

Если за один день было несколько сохранений, все они отображаются с указанием точного времени.

Чтобы посмотреть страницу, просто нажмите на синий кружок с нужной датой. Откроется версия сайта в том виде, в каком ее застал робот.

Календарь архива сайта Hi-Tech Mail с диаграммой по количеству материалов
Календарь архивных копий Hi-Tech MailИсточник: Hi-Tech Mail

Важный нюанс: снимок — это не точная копия, а скорее «фотография» с элементами кода. Сложный интерактив (формы, поиск, корзина, личный кабинет) работать не будет — серверная часть не сохраняется. Внешние файлы, которые подгружались с других доменов, могут отсутствовать, если те серверы закрыли доступ. Контент, требующий авторизации, тоже не попадает в архив.

На странице с календарем есть вкладка Changes. Откройте ее, выберите две любые даты и нажмите Compare. Система покажет обе версии рядом и выделит различия. Удобно, когда нужно быстро понять, что именно поменялось на сайте за период.

Вкладка Summary показывает собранную информацию в виде графиков и таблиц. Здесь можно увидеть, какие типы файлов (изображения, HTML-страницы, скрипты) и в каком количестве сохранял архив за выбранный период. Например, узнать, что за год робот скопировал 19 тысяч JPEG-картинок и 14 тысяч HTML-страниц.

Во вкладке Site Map отображается круговая диаграмма вложенности страниц. В центре — главный URL, дальше круги первого, второго и следующих уровней. Так видно, как глубоко робот проник в структуру сайта.

На вкладке URLs доступна подробная таблица. В ней по каждой странице указано:

  • адрес;

  • тип сохраненных данных;

  • даты первого и последнего сохранения;

  • общее количество копий;

  • сколько раз страница менялась, а сколько оставалась без изменений.

Если известен точный адрес файла (например, site.com/images/photo.jpg), вставьте его в поиск — и архив покажет все сохраненные копии этого файла. Можно искать и по маске: site.com/*.pdf выдаст список всех PDF-документов с этого домена.

Как сохранить сайт в веб-архиве

Необязательно ждать, пока робот сам доберется до нужной страницы. Любой пользователь может добавить ее вручную.

Самый простой способ — через специальный раздел web.archive.org/save. Вставьте ссылку на страницу и нажмите Save Page. Если хотите сохранять даже те страницы, которые открываются с ошибками, отметьте пункт Save error pages.

Раздел веб-архива с возможностью сохранить веб-страницу
Чтобы сохранить веб-страницу, вставьте ссылку на нее в специальном разделе веб-архива и нажмите EnterИсточник: Hi-Tech Mail

То же самое можно сделать через официальное мобильное приложение Wayback Machine. В нем нужно вставить ссылку и нажать Archive Page Now.

Для быстрого добавления удобно использовать браузерные расширения. Устанавливаете плагин, открываете нужную страницу, кликаете на кнопку расширения и выбираете Save Page Now.

Существует и программный способ — через API Wayback Machine. Разработчики могут автоматизировать сохранение страниц или поиск по архиву с помощью Availability API, CDX Server API и Save Page Now API. Документация доступна на соответствующей странице портала.

Как удалить сайт из веб-архива

Убрать копии из архива может только владелец сайта. Процедура бесплатная, но потребуется подтвердить права на ресурс.

Нужно отправить письмо по адресу info@archive.org. В сообщении указать адрес сайта, объяснить причину удаления и приложить доказательства владения (например, доступ к домену или размещение специального кода на страницах). Пишите на английском. 

Сотрудники Internet Archive рассмотрят запрос и, если все в порядке, удалят копии или заблокируют добавление новых. 

Вопросы и ответы

В разделе ответили на вопросы о веб-архиве.

Как часто обновляются данные в веб-архиве?

Четкого графика нет. Роботы приходят на сайты с разной периодичностью. Популярные ресурсы сохраняются чаще, малоизвестные — реже. Добавить страницу вручную можно в любой момент через специальный раздел.

Могут ли поисковики удалить ссылки на страницы из веб-архива из выдачи?

Нет, поисковые системы не удаляют ссылки на archive.org по умолчанию. Если владелец сайта удалил страницу, ее копия в веб-архиве может все еще индексироваться и появляться в результатах поиска. Чтобы убрать такие ссылки, нужно обращаться напрямую в поддержку поисковика.

Почему некоторые сайты нельзя найти в веб-архиве, даже если они существовали годами?

Владелец мог запретить индексацию в файле robots.txt, и роботы архива уважают эти правила. Либо сайт требовал авторизации, был закрыт настройками приватности или содержал динамический контент, который не сохраняется корректно.