Gemini превратили в тренера по баскетболу

Система на базе ИИ оценивает броски, считает попадания и подсказывает, что улучшить. Технология основана на анализе картинки и звука и для нее не нужно допоборудование. Автор проекта считает, что пора создавать приложение для футболистов и других любителей спорта и при грамотной кампании такой сервис выстрелит.
Автор Hi-Tech Mail

Разработчик и блогер Фарза Маджид превратил нейросеть в персонального баскетбольного тренера. Он взял модель Gemini 2.5 Pro от Google, загрузил в нее видеозаписи тренировок и на выходе получил систему, которая отслеживает каждое движение и дает рекомендации, как совершать броски точнее. В основе проекта — OpenCV и Python, а также среда Cursor, которая позволяет быстро запускать визуальные эксперименты и обрабатывать изображение кадр за кадром. Модель определяет количество промахов, различает попадания, считывает динамику и выдает обратную связь в визуальной и текстовой форме.

Система работает с видеофайлом покадрово. Сначала выделяются ключевые точки тела с помощью моделей позы вроде BlazePose или Mediapipe Holistic. Далее определяются траектории мяча и момент контакта с кольцом. OpenCV применяет цветовые маски и фильтры Гаусса для отслеживания мяча в кадре. При фиксации характерного звука — например, удара о щит — временные метки синхронизируются с визуальным рядом. Это позволяет системе точно понимать, какой из бросков оказался в яблочко.

Технически проект основан на Python и OpenCV
Технически проект основан на Python и OpenCVИсточник: X/Twitter

Gemini в этом случае помимо анализа статистики оценивает амплитуду, углы сгиба рук, скорость движения, качество остановки перед броском. Подсказки строятся на сравнении движений с профессиональными шаблонами, которые заранее загружены в модель. Она дает советы, например, уменьшить силу, изменить угол запуска, подкорректировать стойку. Все рекомендации встраиваются прямо в видео в виде графических наложений и подписей.

Работа проходит в автономном режиме. Вместо датчиков и меток упор делается на изображение и звук. Для этого задействуются мощные модели компьютерного зрения и мультимодального анализа. Gemini 2.5 Pro поддерживает несколько типов ввода — текст, аудио, изображение, видео — и может делать выводы на основе разных источников. То есть ИИ не просто видит, но и слышит, а затем интерпретирует действия как настоящий тренер.

Систему можно закодить в приложение для тех, кто любит спорт и хочет развиваться в нем, но не имеет больших сумм
Систему можно закодить в приложение для тех, кто любит спорт и хочет развиваться в нем, но не имеет больших суммИсточник: Recraft

Маджид считает, что идея масштабируема. Подобный подход можно применить к любому спорту, где важно качество исполнения. Удары по мячу, движения ракеткой, баланс тела при приседе — подобные варианты легко разбирать и улучшать, совершенствуя спортивные результаты с помощью одной камеры. Если такую систему еще и упаковать в мобильное приложение, добавить голосовые подсказки в наушниках и придать интерфейсу удобный дизайн, она завирусится. В особенности если грамотно продвигать ее через соцсети, где спорт и технологии всегда вызывают интерес, считает блогер. Вот так обычный смартфон справляется с задачей, из-за которой раньше созывались команды тренеров и аналитиков.

Ранее мы писали о том, как новая нейросеть подбирает рацион из 1000 ингредиентов.

*Соцсеть признана экстремистской и запрещена на территории РФ.