Устойчивость поведения LLM. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 19 по 25 января.
Старший стратегический аналитик red_mad_robot

Новый метод в Sakana AI

RePo: Language Models with Context Re-Positioning
RePo: Language Models with Context Re-PositioningИсточник: pub.sakana.ai/repo/

Sakana AI представила RePo (Context Re-Positioning): метод, который позволяет LLM динамически перераспределять контекст по значимости. Вместо линейного чтения текста модель переупорядочивает фрагменты: она опирается не на исходный порядок токенов, а на их вклад в решение задачи, подтягивая важное и отодвигая шум. По сути, LLM заново расставляет позиции токенов по смыслу, как человек, который мысленно возвращается к важному месту в тексте.

Почему это важно: RePo заметно улучшает работу модели в сложных случаях: с длинным контекстом, большим количеством шума, разбросанными по тексту фактами и структурированными данными вроде таблиц и списков. При этом устойчивость растет, а общее качество не деградирует.

Изменения поведения модели

The Assistant Axis
The Assistant Axis Источник: The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

Anthropic обнаружила и описала «ось ассистента» (Assistant Axis): направление во внутреннем пространстве модели, определяющее ее роль и стиль ответов. Смещение вдоль этой оси приводит к смене поведения: от стабильного и профессионального помощника к более странными и нестабильным состояниям. Более того, положение на оси также коррелирует с уязвимостью к jailbreak-атакам.

Исследование показывает, что «личность» ассистента формируется еще на этапе предобучения и не является жестко зафиксированной. В длинных, особенно эмоциональных или философских диалогах, модель может постепенно смещаться по оси — фактически дрейфовать в своем поведении.

Для стабилизации авторы предлагают метод activation capping — ограничение

активаций вдоль оси ассистента. Это позволяет снизить долю нежелательных ответов примерно на 60% без ухудшения результатов на ключевых бенчмарках по математике и программированию.

Почему это важно: работа Anthropic показывает, что поведение модели можно контролировать на уровне внутренних механизмов, а не через промпты. Это делает возможным создание более надежных AI-ассистентов для реальных задач, где важно стабильное и предсказуемое поведение.

Также на неделе:

  • Microsoft Research и University of Pennsylvania описали метод улучшения рассуждений LLM без удлинения цепочки рассуждений
  • Zhipu AI выпустила лайт-версию GLM-4.7. для локального использования
  • NVIDIA представила метод оптимизации KV-кэша, который с помощью небольших моделей на каждом слое предсказывает важность KV-пар и удаляет наименее значимые
  • Meta (запрещена в РФ) предложила разреженный трансформер с токен-индексируемыми эмбеддингами вместо FFN-проекций
  • Исследование Google показало, что усиление внутренних «диалоговых маркеров» в LLM почти вдвое повышает точность на сложных задачах
  • Stanford, NVIDIA и Together AI представили подход в AI для научных задач, где модель продолжает обучаться непосредственно в процессе решения

Новости представлены аналитическим центром red_mad_robot