
Интернет меняется каждый день: сайты закрываются, страницы удаляются, контент редактируется. Но почти все, что когда-либо было опубликовано в открытом доступе, остается в Web Archive — огромном архиве, который с 1996 года сохраняет копии веб-страниц. С помощью Wayback Machine можно заглянуть в прошлое любого сайта и найти давно утерянные материалы. Рассказываем, как устроен этот архив, как им пользоваться и что можно сделать с его помощью.
Web Archive (Wayback Machine) — некоммерческий проект, созданный Брюстером Кейлом в 1996 году для сохранения цифрового наследия. В нем хранятся копии веб-страниц, книг, видео, аудио и программ.
Роботы архива регулярно сканируют сайты и сохраняют все найденные элементы: HTML, CSS, скрипты, изображения, документы. Каждое сохранение фиксируется с датой, старые версии не перезаписываются.
В архиве собрано более триллиона веб-страниц, 56 миллионов оцифрованных книг, 15 миллионов видео и аудиозаписей. Объем данных превышает 200 петабайт.
Чтобы посмотреть сохраненную копию, достаточно ввести URL на web.archive.org и выбрать дату в календаре. Синим отмечены успешные сохранения, зеленым — перенаправления, красным — ошибки.
Что такое Web Archive и кто его создал
Web Archive (он же Wayback Machine, «Машина времени») — это крупнейший архив копий веб-страниц, созданный некоммерческой организацией Internet Archive. Проект запустили в 2001 году, хотя первые сохранения датируются 1996 годом. Основатель — американский предприниматель и активист Брюстер Кейл, который поставил перед собой амбициозную цель: сохранить цифровое культурное наследие человечества.
Специальные программы-роботы (их еще называют краулерами или пауками) регулярно обходят сайты и копируют все, что находят: HTML-код, стили, скрипты, изображения, видео, документы. Каждый такой «снимок» сохраняется отдельно с указанием даты и времени. Старые версии не заменяются новыми — они остаются в архиве навсегда. Благодаря этому можно проследить, как менялся сайт год, пять или пятнадцать лет назад.
Партнерами Internet Archive выступают библиотеки и университеты по всему миру. Кроме того, любой пользователь может самостоятельно загружать контент на серверы организации через официальный сайт.
В коллекциях веб-архива насчитывается:
более триллиона веб-страниц;
56 миллиона оцифрованных книг и текстов;
15 миллионов аудиозаписей;
15 миллионов видео;
более 5 миллионов изображений;
более миллиона программ.
Общий объем одной копии архива превысил 200 петабайт. Один петабайт равен 1024 терабайтам.
В каких целях можно пользоваться веб-архивом
У Wayback Machine множество практических применений, выходящих далеко за рамки простого любопытства.
Доступ к удаленным сайтам. Если сайт закрылся или страница больше не открывается, почти наверняка ее копию можно найти в архиве. Это касается как целых ресурсов, так и отдельных материалов.
Восстановление утерянного контента. Комментарии, фотографии, документы, которые удалили с сайта, часто остаются в сохраненных версиях. Особенно это полезно, если известен прямой URL на файл — например, site.com/report.pdf.
Проверка изменений. Журналисты, юристы и маркетологи используют архив, чтобы отследить, как менялся контент на сайтах компаний или госорганов. Можно узнать, удаляли ли неудобную информацию или правили задним числом.
Подтверждение авторства. Если вы публиковали материал, а кто-то присвоил его себе, архивная копия с датой может стать доказательством в споре.
Исследования и аналитика. Маркетологи изучают, как развивались сайты конкурентов. Историки анализируют цифровые следы прошлого. Дизайнеры ищут вдохновение в старых версиях известных ресурсов.
Судебные разбирательства. Сохраненные копии страниц не раз использовались как доказательства в судах.
Как посмотреть сайты в веб-архиве
Зайдите на сайт веб-архива. В поисковую строку введите адрес интересующей страницы и нажмите Enter. Система покажет, какие копии сайта или страницы есть в наличии.

Если вам нужно увидеть публикации за конкретную дату, выбирайте ее в календаре. Он расположен в верхней части страницы.

Чтобы посмотреть на список всех страниц, нажмите на кнопку captures. Обычно перед ней указано количество копий. Откроется календарь.
Он устроен так: годы отображаются вверху, месяцы — под ними, а дни, когда делались снимки, отмечены кружками. Цвет кружка имеет значение:
синий — сохранение прошло успешно, копию можно открыть;
зеленый — сайт перенаправил архивного робота на другой адрес;
красный — при попытке сохранить страницу произошла ошибка.
Если за один день было несколько сохранений, все они отображаются с указанием точного времени.
Чтобы посмотреть страницу, просто нажмите на синий кружок с нужной датой. Откроется версия сайта в том виде, в каком ее застал робот.

Важный нюанс: снимок — это не точная копия, а скорее «фотография» с элементами кода. Сложный интерактив (формы, поиск, корзина, личный кабинет) работать не будет — серверная часть не сохраняется. Внешние файлы, которые подгружались с других доменов, могут отсутствовать, если те серверы закрыли доступ. Контент, требующий авторизации, тоже не попадает в архив.
На странице с календарем есть вкладка Changes. Откройте ее, выберите две любые даты и нажмите Compare. Система покажет обе версии рядом и выделит различия. Удобно, когда нужно быстро понять, что именно поменялось на сайте за период.
Вкладка Summary показывает собранную информацию в виде графиков и таблиц. Здесь можно увидеть, какие типы файлов (изображения, HTML-страницы, скрипты) и в каком количестве сохранял архив за выбранный период. Например, узнать, что за год робот скопировал 19 тысяч JPEG-картинок и 14 тысяч HTML-страниц.
Во вкладке Site Map отображается круговая диаграмма вложенности страниц. В центре — главный URL, дальше круги первого, второго и следующих уровней. Так видно, как глубоко робот проник в структуру сайта.
На вкладке URLs доступна подробная таблица. В ней по каждой странице указано:
адрес;
тип сохраненных данных;
даты первого и последнего сохранения;
общее количество копий;
сколько раз страница менялась, а сколько оставалась без изменений.
Если известен точный адрес файла (например, site.com/images/photo.jpg), вставьте его в поиск — и архив покажет все сохраненные копии этого файла. Можно искать и по маске: site.com/*.pdf выдаст список всех PDF-документов с этого домена.
Как сохранить сайт в веб-архиве
Необязательно ждать, пока робот сам доберется до нужной страницы. Любой пользователь может добавить ее вручную.
Самый простой способ — через специальный раздел web.archive.org/save. Вставьте ссылку на страницу и нажмите Save Page. Если хотите сохранять даже те страницы, которые открываются с ошибками, отметьте пункт Save error pages.

То же самое можно сделать через официальное мобильное приложение Wayback Machine. В нем нужно вставить ссылку и нажать Archive Page Now.
Для быстрого добавления удобно использовать браузерные расширения. Устанавливаете плагин, открываете нужную страницу, кликаете на кнопку расширения и выбираете Save Page Now.
Существует и программный способ — через API Wayback Machine. Разработчики могут автоматизировать сохранение страниц или поиск по архиву с помощью Availability API, CDX Server API и Save Page Now API. Документация доступна на соответствующей странице портала.
Как удалить сайт из веб-архива
Убрать копии из архива может только владелец сайта. Процедура бесплатная, но потребуется подтвердить права на ресурс.
Нужно отправить письмо по адресу info@archive.org. В сообщении указать адрес сайта, объяснить причину удаления и приложить доказательства владения (например, доступ к домену или размещение специального кода на страницах). Пишите на английском.
Сотрудники Internet Archive рассмотрят запрос и, если все в порядке, удалят копии или заблокируют добавление новых.
Вопросы и ответы
В разделе ответили на вопросы о веб-архиве.
Как часто обновляются данные в веб-архиве?
Четкого графика нет. Роботы приходят на сайты с разной периодичностью. Популярные ресурсы сохраняются чаще, малоизвестные — реже. Добавить страницу вручную можно в любой момент через специальный раздел.
Могут ли поисковики удалить ссылки на страницы из веб-архива из выдачи?
Нет, поисковые системы не удаляют ссылки на archive.org по умолчанию. Если владелец сайта удалил страницу, ее копия в веб-архиве может все еще индексироваться и появляться в результатах поиска. Чтобы убрать такие ссылки, нужно обращаться напрямую в поддержку поисковика.
Почему некоторые сайты нельзя найти в веб-архиве, даже если они существовали годами?
Владелец мог запретить индексацию в файле robots.txt, и роботы архива уважают эти правила. Либо сайт требовал авторизации, был закрыт настройками приватности или содержал динамический контент, который не сохраняется корректно.



