Анализ видео с помощью нейросетей: какая модель справляется лучше всех

Современные языковые модели отлично работают с текстовыми данными и документами, а также демонстрируют успехи в распознавании изображений. Однако возможности искусственного интеллекта в анализе видео остаются предметом дискуссий. В ходе тестирования проверялось, способны ли популярные инструменты — Gemini, ChatGPT и Claude — понимать содержание видеороликов, будь то ссылки на YouTube или локальные файлы.

Содержание

1 Методика тестирования
2 Claude: отсутствие поддержки видео
3 Gemini: лидер по удобству
4 ChatGPT и OpenAI Codex: возможности связки
5 Выводы экспертов

Методика тестирования

В ходе эксперимента нейросети анализировали три типа видео:

Научно-популярный ролик о процессе отжига металлов (взятый с YouTube).
Тестовое видео полета дрона DJI Neo 2 без звука, демонстрирующее управление жестами (файл формата MP4 объемом 625 Мб).
Запись в формате MOV (объемом 1,65 Гб) с личного архива, где подробно обсуждается стратегия публикации контента.

Целью проверки было выяснить, может ли нейросеть «просмотреть» видео и понять происходящее без опоры на метаданные или заранее созданные текстовые расшифровки.

Claude: отсутствие поддержки видео

Модель Claude на текущий момент не обладает возможностями прямого анализа видеоконтента. Как в веб-интерфейсе, так и в приложении нейросеть сообщает, что не способна обрабатывать визуальные или аудиопотоки из файлов MP4, MOV или ссылок на видеохостинги.

Gemini: лидер по удобству

Модель Gemini продемонстрировала высокую эффективность. Ей не требуется дополнительное программное обеспечение — браузерная версия справляется с анализом напрямую. Gemini успешно идентифицировала суть видео с дроном, несмотря на отсутствие звуковой дорожки, детально описав жесты оператора и реакцию устройства.

Сильные стороны Gemini:

Мгновенный анализ контента без необходимости сторонних инструментов.
Возможность ставить временные метки для ключевых моментов видео.
Высокая точность в понимании контекста даже в сложных сценах.

Тем не менее, генерация изображений на основе кадров из видео пока остается слабым местом модели: при попытке создания обложки для видеоролика нейросеть допускала ошибки в надписях и некорректно интерпретировала внешность человека.

ChatGPT и OpenAI Codex: возможности связки

Базовая версия ChatGPT не справилась с задачей из-за ограничений по размеру файла (до 500 Мб). Однако при использовании в связке с инструментом Codex, который автоматизирует выполнение программных задач, результат оказался впечатляющим.

Codex способен самостоятельно:

Писать Python-скрипты для загрузки и обработки видеофайлов.
Выполнять транскрибацию аудио.
Анализировать сложные визуальные сцены, распознавая действия в кадре.

В вопросе создания графики связка ChatGPT и Codex показала себя лучше, чем Gemini: модель более точно следовала стилистическим указаниям, хотя и требовала дополнительных уточнений для корректного отображения технических деталей, таких как толщина металлических пластин.

Выводы экспертов

Результаты тестирования показывают, что современные нейросети способны анализировать видеоконтент значительно быстрее реального времени просмотра. Если для простых задач по пониманию видео Gemini является оптимальным решением «из коробки», то для сложных, многоступенчатых задач, включая создание визуального контента, связка ChatGPT с инструментами автоматизации показывает более качественный результат.

* — деятельность компании Meta* (включая Facebook* и Instagram*) запрещена на территории РФ