Представьте: вы вводите в поиск «фильм про робота, который полюбил девушку». Поисковая система понимает запрос, хотя в описании фильма может не быть ни одного из этих слов. Или ищете видео с рецептом борща и получаете ролик, где слово «борщ» не произносится, но на экране видны свёкла, капуста и кастрюля. Это не магия, а современный поиск, который научился думать почти как человек.
Еще 10−15 лет назад поисковые системы работали просто: искали совпадения слов в запросе и на странице. Сегодня это сложная система, которая анализирует смысл, контекст, поведение пользователей и даже содержимое видео, и может делать это одновременно.
От слов к смыслам: что изменилось
Классический поиск работал по принципу обратного индекса. Представьте библиотечную картотеку: на карточке «кот» список всех книг, где встречается это слово. Работа поиска строится аналогичным образом: есть огромная таблица, где для каждого слова записаны все страницы, где оно встречается. Вы вводите запрос «рецепт пасты», алгоритм ищет страницы, где есть слова «рецепт» и «паста», ранжирует их и выдаёт результат. Это быстро, но примитивно.
Проблема в том, что такой поиск не понимает синонимы, не улавливает смысл и бессилен, если вы формулируете запрос нестандартно. Например, «как приготовить итальянскую лапшу с соусом». Здесь нет слова «паста», хотя речь об одном и том же.
Переломным моментом стало появление векторных моделей и семантического поиска. Вместо того чтобы сравнивать слова, поисковые системы начали сравнивать смыслы. Каждый запрос и каждый документ превращаются в набор чисел (эмбеддинг), описывающий смысл текста. Чем ближе эти наборы друг к другу, тем релевантнее результат запросу.

Для этого используются специальные нейросети: BERT, RoBERTa, российский аналог RuModernBERT. Эти модели обучены на миллиардах текстов и научились «чувствовать» смысл. Благодаря им поиск понимает, что «врач» и «доктор» — это одно и то же, а «яблоко» может означать как фрукт, так и бренд техники, в зависимости от контекста.
Как система решает, что показать
Современный поиск работает в несколько этапов. Сначала включается «грубый фильтр» (его называют retriever, или ретривер). Он за доли секунды отсеивает тысячи потенциально подходящих результатов. Фильтр действует быстро, но неточно: смотрит на ключевые слова, популярность и свежесть контента.
Затем в дело вступает «тонкий настройщик» (reranker, или ререйнкер) — это нейросеть, которая выбирает из сотен вариантов самые подходящие именно для вас и выстраивает результаты по степени релевантности. Она учитывает историю взаимодействий, контекст, ваши намерения, даже время суток. Например, утром в рабочий день вы скорее ищете новости, а вечером — развлекательный контент.
Когда поиск работает не только с текстом
Самая интересная эволюция происходит в мультимодальном поиске, когда сервис обрабатывает сразу несколько типов контента: текст, видео, картинки, аудио.
Например, чтобы найти нужный ролик, платформа должна понять, о чём в нём говорится. Для этого используется ASR — технология, которая превращает звук в текст. Алгоритм также анализирует изображения с превью, описание, комментарии под видео и даже то, как зрители на него реагируют: досматривают до конца или выходят через 10 секунд.
Мультимодальные модели (VLM, Vision-Language Models) учатся одновременно понимать и текст, и изображения. Например, если на картинке изображена кошка на диване, модель не просто распознает объекты («кошка», «диван»), но и понимает связь между ними. Это позволяет искать по смыслу, а не по тегам.

Применение таких технологий особенно актуально для видеоконтента. Сегодня пользователи ежедневно загружают миллионы роликов, и платформы должны понимать, о чём каждый из них, чтобы показывать релевантные результаты.
Зачем нужны большие языковые модели
Большие языковые модели (LLM, Large Language Models) в последние годы вышли на первый план в технологическом мире. Но в поиске их роль не так однозначна.
Запустить LLM в реальном времени для каждого запроса слишком дорого и медленно. Представьте: миллионы пользователей одновременно что-то ищут, а платформа на каждый запрос должна запускать огромную нейросеть. Это потребует колоссальных вычислительных мощностей.
Поэтому большие языковые модели применяют на этапе подготовки данных. Они заранее размечают контент, создают описания для видео или изображений, генерируют обучающие примеры. Например, если нужно обучить модель понимать, релевантен ли результат запросу, LLM может автоматически создать тысячи примеров с оценками.
Есть и другой сценарий — RAG (Retrieval-Augmented Generation, генерация с дополненным поиском). Сначала поисковая система ищет релевантные документы в своей базе, а затем LLM на их основе генерирует ответ. Это гибрид классического поиска и чат-бота. Например, вы спрашиваете: «Как ухаживать за фикусом?», а сервис не просто выдает ссылки, но и составляет краткую инструкцию на основе найденных статей.
Почему поиск — это живой организм
Даже идеально настроенная система со временем начинает работать хуже. Причина в изменении поведения пользователей и контента. Поэтому поиск требует постоянного обновления. Модели нужно регулярно переобучать на свежих данных, добавлять новые признаки, тестировать гипотезы — это непрерывный процесс.
Как ускорить разработку: единая платформа Discovery
Раньше поиск в новом сервисе или продукте разрабатывался отдельно. Это занимало месяцы и требовало дублирования инфраструктуры. Сегодня в VK есть единая платформа Discovery, которая позволяет запускать поисковые технологии за пару недель.
Такая платформа работает в облаке, что позволяет быстро масштабировать ресурсы. Если нагрузка растёт, сервис автоматически добавляет мощности. Если падает — отключает лишние серверы. Это экономит деньги и ускоряет разработку.
Что ждет поиск в будущем
Технологии поиска развиваются стремительно. Вот несколько трендов, которые уже сейчас меняют индустрию:
Полная мультимодальность
Текст, видео, картинки, аудио будут восприниматься как единое целое. Вы сможете искать видео по описанию сцены, даже если эта сцена не была проговорена вслух.
Поиск как диалог
Вместо того чтобы вводить ключевые слова, вы будете общаться с сервисом на естественном языке.
Персонализация на новом уровне
Поисковые системы будут не просто лучше понимать, что вы имели в виду, а учитывать весь контекст: ваши предыдущие запросы, погоду, время суток и даже предугадывать настроение, чтобы подобрать наиболее подходящие результаты.
Универсальные модели
Появятся модели, которые можно быстро адаптировать под любую задачу: поиск товаров, видео, текстов, изображений. Не нужно будет обучать отдельную нейросеть для каждого случая.
ИИ-браузеры: от поиска к действию
Все эти технологии (векторный поиск, мультимодальность, LLM) не существуют в вакууме. В 2025 году они стали основой для нового поколения браузеров, которые не просто ищут информацию, а действуют от имени пользователя.
Например, в октябре 2025 года компания Perplexity сделала свой браузер Comet общедоступным. Встроенный ИИ-ассистент умеет анализировать страницы, переходить между сайтами автоматически, даже бронировать билеты или собирать корзину в интернет-магазине по голосовой команде.
Подобные браузеры превращают поиск из пассивного инструмента в проактивного помощника. Вместо «найди мне информацию» — «сделай это за меня». Это означает, что поисковые технологии будут всё сильнее интегрированы в сам интерфейс продуктов, помогая не просто находить контент, но и взаимодействовать с ним.

Современный поиск — это сложная система, где встречаются инженерия, машинное обучение, аналитика и пользовательский опыт. Главная задача — уловить, что именно нужно пользователю в конкретный момент. И технологии, которые ещё недавно казались фантастикой, уже работают, обслуживая миллионы запросов каждый день.

