На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Свежие комментарии

  • Ингерман Ланская
    дааа, а в 1983-м камуноиды праздновали 200-летие Савейскага Черноморского флота. 200 лет Савейскага......!!! ..а ещё ...Годовщину создани...
  • Владимир Козлов
    Было бы странно, если бы мэр не присутствовал. Непонятно почему, несмотря на протесты народа, закрывают фанерой мавзо...Сергей Собянин пр...
  • Михаил Е
    Рокады?Собянин: Будет со...

Ученые МГУ изучили применение мультимодальных больших языковых моделей в видеоаналитике

Ученые МГУ провели исследование по проблеме перевода видео в текст, что позволит значительно сократить время поиска необходимой информации и повысить эффективность ее обработки. Об этом сообщили в пресс-службе вуза. 

С появлением эпохи больших данных видеоконтент стал ключевым источником информации и развлечений.

Однако, быстрый обзор огромного объема видеоматериала стал проблемой, занимающей много времени. Для ускорения этого процесса и извлечения ценной информации из видео были разработаны алгоритмы перевода видеопоследовательностей в текст.

Перевод видео в текст представляет собой сложную задачу, решение которой становится все более актуальным в современном мире. Одним из перспективных подходов к этой проблеме являются мультимодальные модели, способные обрабатывать данные разных модальностей, включая текст, аудио и изображения.

В недавнем исследовании был проведен сравнительный анализ методов перевода видео в текст с использованием классификатора CLIP и различных мультимодальных моделей. Архитектуры различных подходов были тщательно изучены, выявлены их сильные и слабые стороны, а также определены ключевые направления для улучшения результатов, включая увеличение длительности видео и более детальное описание содержания.

«Наше исследование показывает значительный прогресс в области развития мультимодальных больших языковых моделей позволяющих переводить видео в текст. Эти модели открывают новые возможности для более эффективного анализа видеоматериала и извлечения ценной информации из него», — отмечает сотрудник кафедры информационной безопасности факультета ВМК МГУ Евгений Альбинович.

Исследования, результаты которого были представлены на Всероссийской конференции «Ломоносовские чтения-2024», является важным шагом в направлении разработки более точных и эффективных методов перевода видео в текст, что существенно упростит и ускорит обработку мультимедийной информации в цифровую эпоху.

 

Ссылка на первоисточник

Картина дня

наверх