ИИ в науке: почему будущее российских открытий — за нейросетями

В 2024 году Нобелевскую премию по физике вручили за основополагающие открытия в области машинного обучения и нейросетей. Событие подтвердило важность внедрения нейросетей в науку. Сегодня ИИ используется и в российской науке, но его потенциал еще не раскрыт в полной мере.
Денис Деркач
НИУ ВШЭ
Об эксперте: Денис Деркач — директор по прикладным исследованиям и разработкам Института ИИ и цифровых наук ФКН НИУ ВШЭ и заведующий лабораторией методов анализа больших данных LAMBDA

Применение ИИ в науке сегодня

Сейчас искусственный интеллект активно используется для решения задач, которые ранее требовали колоссальных временных и вычислительных ресурсов: анализа данных высокоэнергетической физики, моделирования поведения материалов и обработки астрономических наблюдений. Например, алгоритмы машинного обучения помогают исследователям идентифицировать редкие события в данных с Большого адронного коллайдера — они способны быстро анализировать огромные массивы данных, выделяя аномалии и закономерности, которые было сложно обнаружить традиционными методами. В астрономии нейросети обрабатывают изображения с телескопов, автоматизируя поиск экзопланет, галактик и редких космических явлений. 

Рука робота
Источник: Freepik

Также искусственный интеллект помогает ученым в обработке больших данных и ускорении экспериментов в различных сферах — медицине, фармакологии, истории и др. Например, в лабораториях с помощью нейросетей начали облегчать работу над созданием препаратов и вакцин. Они просчитывают разные комбинации активных веществ и прогнозируют процент эффективности — в результате исследователям не нужно тратить годы на тестирование заранее провальных вариантов.

Благодаря способности анализировать огромные объемы данных и выявлять скрытые закономерности, нейросети способны ускорить открытия, которые раньше занимали десятилетия. Например, уже сейчас ИИ помогает отличить темную материю от космического шума, а в будущем нейросети могут сыграть ключевую роль в ее изучении. 

От первых экспериментов к виртуальным ученым

Первые попытки применения ИИ в науке относятся к началу 90-х годов, когда американские исследователи использовали нейросети для анализа астрофизических данных и выделения сигнала в ускорителе Тэватроне.

С тех пор методы и подходы, позволяющие ускорить внедрение ИИ в различные отрасли науки активно совершенствуются.  К середине 2000-х в наиболее продвинутых областях — таких как физика частиц — появились программные решения на базе машинного обучения. Это стало точкой отсчета для нового класса исследователей, чья основная задача — поиск и разработка алгоритмов, позволяющих быстро и точно подбирать и анализировать научные данные. 

Нейросетевая наука
Источник: Freepik

Так как изначально разработкой нейросетевых моделей занимались физики и математики, сегодня среднестатистические ответы нейросетей по этим дисциплинам могут соответствовать уровню кандидатов, а в некоторых случаях — докторов наук. Например, виртуальный научный сотрудник AI co-scientist способен не только ускорить процесс обработки данных, но и повысить точность научных гипотез. Такие системы постепенно становятся стандартом для лабораторий, и те, кто внедряет их первыми, получат технологическое преимущество. Раньше для крупных научных прорывов требовалась смена целых поколений исследователей. С развитием ИИ этот  цикл сократился — значимые открытия могут происходить в течение жизни одного ученого. 

Россия также продолжает работать над внедрением нейросетевых методов в к науку. Участие в реализации мегасайенс-проектов — масштабных международных исследованиях в сверхмощных научных комплексах, а также большое количество высококвалифицированных инженеров ИИ создают условия для дальнейшего прорыва. На данный момент, трудно представить, что российская наука сможет обойтись ИИ. В чем-то это можно сравнить с эффектом, который произвело на мир появление книгопечатного станка. Иными словами, игнорирование потенциала нейросетей в науке как минимум недальновидно, а как максимум может привести к наращиванию отставания от западных стран.

Условия для развития научного применения ИИ в России 

Одно из ключевых условий для усиления применения нейросетей в российской науке — развитие кадрового потенциала. По данным организации экономического сотрудничества и развития, больше всего ИИ повлияет на профессии, которые связаны с нестандартными когнитивными задачами и требуют высокой квалификации – в первую очередь, это исследователи и инженеры. Поэтому в будущем потребуются инвестиции в формирование высококвалифицированных специалистов, например, за счет внедрения курсов обработки данных во все научные образовательные программы. Обучение должно будет охватывать как базовые курсы для студентов, так и программы переподготовки для действующих специалистов. Только так отрасль получит ценных сотрудников, которые смогут качественно обучать, внедрять и применять нейросети в научной среде. 

Не менее важны данные для обучения ИИ. Качество и эффективность моделей напрямую зависит от количества данных, на которых ее обучали — чем их больше, тем лучше работает ИИ.

Вопрос обучения нейросетей также тесно связан с конкуренцией отечественного и зарубежного ИИ. Большая часть данных в интернете, в том числе научных,  представлена на английском языке. А поскольку качество моделей напрямую зависит от количества и разнообразия обучающих данных, англоязычные нейросети имеют преимущество. В открытом доступе уже существует обширная масса дата-сетов на нём.

Нейросеть в лаборатории
Источник: Freepik

Если российские генеративные модели не будут получать столько же данных, сколько получают и обрабатывают зарубежные решения, есть риск, что они не будут поспевать за скоростью развития технологии в мире. В эпоху ИИ это означает, что в положении догоняющих может оказаться и российская наука. Чтобы этого не произошло, важно сохранить свободный доступ отечественных разработчиков к русскоязычным и зарубежным научным материалам для обучения нейросетей. Часть из них нужно будет оцифровать и адаптировать на русский язык. Такой подход простимулирует создание специализированных русскоязычных дата-сетов для различных научных областей — химии, физики и медицины.