Дипломная работа на тему "ТЮМГУ | Разработка и исследование алгоритмов для генерации видео на основе диффузионных моделей"

Работа на тему: Разработка и исследование алгоритмов для генерации видео на основе диффузионных моделей
Оценка: хорошо.
Оригинальность работы на момент публикации 50+% на антиплагиат.ру.
Ниже прилагаю все данные для покупки.
https://studentu24.ru/list/suppliers/Anastasiya1---1326

Демо работы

Описание работы

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ИНСТИТУТ МАТЕМАТИКИ И КОМПЬЮТЕРНЫХ НАУК
Кафедра программного обеспечения

РЕКОМЕНДОВАНО К ЗАЩИТЕ В ГЭК

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
бакалаврская работа
РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО НА ОСНОВЕ ДИФФУЗИОННЫХ МОДЕЛЕЙ

02.03.03 Математическое обеспечение и администрирование информационных систем
Профиль «Технологии программирования и анализа больших данных»

Тюмень 2023

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 4
ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 7
1.1. АРХИТЕКТУРА ДИФФУЗИОННЫХ МОДЕЛЕЙ 7
1.2. ДИФФУЗИОННЫЕ МОДЕЛИ ДЛЯ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ 10
1.3. ДИФФУЗИОННЫЕ МОДЕЛИ ДЛЯ ГЕНЕРАЦИИ ВИДЕО 11
1.4. МЕТРИКИ ДЛЯ ОЦЕНКИ СОГЛАСОВАННОСТИ И КАЧЕСТВА СГЕНЕРИРОВАННЫХ ВИДЕО 14
ГЛАВА 2. ФОРМАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ИСПОЛЬЗУЕМЫХ МАТЕМАТИЧЕСКИХ МЕТОДОВ 17
2.1. ПОСТАНОВКА ЗАДАЧИ ГЕНЕРАЦИИ СОГЛАСОВАННОГО ВИДЕО 17
2.2. ВЫБОР МАТЕМАТИЧЕСКОГО МЕТОДА РЕШЕНИЯ ЗАДАЧИ 18
2.2.1. АЛГОРИТМ СМЕШИВАНИЯ ОСТАТОЧНОГО ШУМА 18
2.2.2. АЛГОРИТМ ИНВЕРСИИ 20
ГЛАВА 3. РЕАЛИЗАЦИЯ ИНСТРУМЕНТОВ ИССЛЕДОВАНИЯ 22
3.1. РАЗРАБОТКА TEXT&VID2VID ПАЙПЛАЙНА ГЕНЕРАЦИИ 22
3.2. ОПТИМИЗАЦИЯ ПАЙПЛАЙНА 24
3.3. РАЗРАБОТКА ГРАФИЧЕСКОГО ИНТЕРФЕЙСА 25
3.4. ВЫБОР И ПРЕДОБРАБОТКА ДАТАСЕТОВ 26
3.5. РЕАЛИЗАЦИЯ МЕТРИК СОГЛАСОВАННОСТИ И КАЧЕСТВА ВИДЕО 29
ГЛАВА 4. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ 30
4.1. КОЛИЧЕСТВЕННЫЕ РЕЗУЛЬТАТЫ ДЛЯ СОЗДАННЫХ АЛГОРИТМОВ ГЕНЕРАЦИИ ВИДЕО 30
4.2. КАЧЕСТВЕННЫЕ РЕЗУЛЬТАТЫ ДЛЯ СОЗДАННЫХ АЛГОРИТМОВ ГЕНЕРАЦИИ ВИДЕО 30
4.3. СРАВНЕНИЕ АЛГОРИТМОВ ИНВЕРСИИ 32
4.4. ПРОБЛЕМЫ И ОГРАНИЧЕНИЯ 35
4.5. ВЛИЯНИЕ ПАРАМЕТРОВ ГЕНЕРАЦИИ НА КАЧЕСТВО ВИДЕО 36
ЗАКЛЮЧЕНИЕ 38
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 40
ПРИЛОЖЕНИЕ 1. ЗАГРУЗКА МОДЕЛЕЙ И ВЕСОВ UNET, VAE и CLIP 45
ПРИЛОЖЕНИЕ 2. ЛИСТИНГ КОДА ПАЙПЛАЙНА ГЕНЕРАЦИИ 46
ПРИЛОЖЕНИЕ 3. ЛИСТИНГ КОДА ГРАФИЧЕСКОГО ИНТЕРФЕЙСА 49
ПРИЛОЖЕНИЕ 4. ЛИСТИНГ КОДА МЕТРИК СОГЛАСОВАННОСТИ И КАЧЕСТВА ВИДЕО 51
ПРИЛОЖЕНИЕ 5. ДИПЛОМ ЗА УЧАСТИЕ ВО ВСЕРОССИЙСКОЙ КОНФЕРЕНЦИИ МОЛОДЫХ УЧЕНЫХ МИМ-2023 55

ВВЕДЕНИЕ
На данный момент существует множество генеративных моделей, которые успешно применяются в различных творческих областях, включая создание текста [Language Models…], аудио [Make-An-Audio…] и изображений [High- Resolution Image Synthesis…, Photorealistic Text-to-Image…].
По мере роста популярности видеоконтента в социальных сетях и других медиа-платформах возрос спрос на более оптимизированные инструменты для создания видео, в связи с чем, актуальным направлением стало исследование подходов к генерации видео [Video Diffusion Models…, VideoFusion…] с помощью диффузионных моделей [Deep unsupervised learning…]. Создание подобных инструментов поможет легко создавать, обрабатывать и редактировать видеоконтент даже тем, кто не обладает специальными навыками, или станет большим помощником для настоящих профессионалов. При этом процесс генерации станет быстрее и, как следствие, менее затратным: количество необходимого времени, сил и бюджета на производство роликов значительно сократится.
Все перечисленные выше плюсы применения генеративных моделей в работе с видео в совокупности со статистикой видеомаркетинга за 2022 год [Video Marketing Statistics…] подкрепляют актуальность данного направления. Так, многие опрошенные по ряду причин не используют видео для продаж в социальных сетях:
1. 23% - из-за нехватки времени;
2. 16% - вследствие недостатка знаний;
3. 10% считает это дорогостоящим удовольствием.
Подходы к созданию видео с помощью диффузионных моделей разделяются на:
- TEXT2VID генерацию на основе текстового описания. Исследования в данной области предполагают использование технологии 3D UNET [3D U- Net…] и дальнейшее обучение модели на больших видеоданных. Такие решения требуют высоких вычислительных мощностей и серьезных
временных затрат для генерации продолжительных видео. При этом TEXT2VID инструменты не используют предобученные TEXT2IMG модели генерации изображений, содержащие большое количество информации о визуальном представлении реального мира;
- TEXT&VID2VID генерацию на основе исходного видео и текстового описания. Подобные решения реализуют покадровое применение предобученных TEXT&IMG2IMG моделей редактирования изображений [Tune-A-Video…, Structure and content-guided video synthesis…, Text2LIVE…]. Данный подход предоставляет больше возможностей для контроля формы и позиционирования объектов в кадре, однако нерешенной задачей остается сохранение согласованности - единого визуального представления и положения объектов видео на разных кадрах. Также в рамках данного подхода крайне важно, чтобы отредактированный результат сохранял содержимое исходного видеоролика.
Таким образом, несмотря на преимущества использования генеративных моделей, их применение для создания видео связано с проблемой рассогласованности [VideoFusion…]. Под рассогласованностью подразумевается резкое изменение формы, положения и цвета объектов на соседних кадрах, и измеряется с помощью специальных метрик [FVD: A NEW METRIC…, Clipscore…].
Целью данной работы стала разработка алгоритма TEXT&VID2VID генерации на основе TEXT&IMG2IMG модели, позволяющего создавать видео с меньшей, по сравнению с существующими подходами, рассогласованностью, и при этом:
- решать задачи стилизации и редактирования объектов в кадре;
- выполнять генерацию без необходимости дополнительного обучения на видеоданных.
Для достижения данной цели были поставлены следующие задачи:
1. Изучить общую архитектуру диффузионных моделей;
2. Ознакомиться с существующими T2V и T&V2V алгоритмами;
3. Найти подходящие метрики для оценки согласованности результатов;
4. Создать новый алгоритм T&V2V генерации на основе T&I2I модели;
5. Найти, загрузить и предобработать датасет для проверки работы алгоритма;
6. Сравнить результаты работы получившегося алгоритма с другими существующими.
Для успешной подготовки и защиты выпускной квалификационной работы использовались средства и методы физической культуры и спорта с целью поддержания должного уровня физической подготовленности, обеспечивающие высокую умственную и физическую работоспособность. В режим рабочего дня включались различные формы организации занятий физической культурой (физкультпаузы, физкультминутки, занятия избранным видом спорта) с целью профилактики утомления, появления хронических заболеваний и нормализации деятельности различных систем организма.
В рамках подготовки к защите выпускной квалификационной работы авторами созданы и поддерживались безопасные условия жизнедеятельности, учитывающие возможность возникновении чрезвычайных ситуаций.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan. Deep unsupervised learning using nonequilibrium thermodynamics // arxiv.org [сайт]. 2015. 18 ноября.
2. Robin Rombach, Andreas Blattmann, Dominik Lorenz [и др.]. High-Resolution Image Synthesis with Latent Diffusion Models // arxiv.org [сайт]. 2022. 13 апреля.
3. Chitwan Saharia, William Chan, Saurabh Saxena [и др.]. Photorealistic Text-to- Image Diffusion Models with Deep Language Understanding // arxiv.org [сайт]. 2022. 23 мая.
4. Jonathan Ho, Tim Salimans, Alexey Gritsenko [и др.]. Video Diffusion Models
// arxiv.org [сайт]. 2022. 22 июня. U
5. Jay Zhangjie Wu, Yixiao Ge, Xintao Wang [и др.]. Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation // arxiv.org [сайт]. 2023. 17 марта.
6. Patrick Esser, Johnathan Chiu, Parmida Atighehchian [и др.]. Structure and content-guided video synthesis with diffusion models // arxiv.org [сайт]. 2023.
6 февраля.
7. Zhengxiong Luo, Dayou Chen, Yingya Zhang [и др.]. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // arxiv.org [сайт]. 2023. 16 марта.
8. Ahmed Abdulkadir, Soeren S. Lienkamp, Thomas Brox [и др.]. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation // arxiv.org
9. Thomas Unterthiner, Sjoerd van Steenkiste, Karol Kurach [и др.]. FVD: A NEW METRIC FOR VIDEO GENERATION Published // openreview.net [сайт]. 2019. 22 декабря.
10. Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation // arxiv.org [сайт]. 2015. 18 мая.
11. Jonathan Ho, Ajay Jain, Pieter Abbeel. Denoising diffusion probabilistic models// arxiv.org [сайт]. 2020. 16 декабря.
12. Ron Mokady, Amir Hertz, Kfir Aberman [и др.]. Null-text Inversion for Editing Real Images using Guided Diffusion Models // arxiv.org [сайт]. 2022. 17 ноября.
13. Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles [и др.]. The 2017 DAVIS Challenge on Video Object Segmentation // arxiv.org [сайт]. 2018. 1 марта.
14. Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models // arxiv.org [сайт]. 2023. 1 мая.
15. Khurram Soomro, Amir Roshan Zamir and Mubarak Shah. UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild // arxiv.org [сайт]. 3 Dec 2012.
16. Jack Hessel, Ari Holtzman, Maxwell Forbes [и др.]. Clipscore: A reference-free evaluation metric for image captioning // arxiv.org [сайт]. 2022. 23 марта.
17. Onur Keles, M. Ak?n Y?lmaz, A. Murat Tekalp [и др.]. On the Computation of PSNR for a Set of Images or Video // arxiv.org [сайт]. 2021. 30 апреля.
18. Chenlin Meng, Yang Song, Jiaming Song [и др.]. Sdedit: Image synthesis and editing with stochastic differential equations // arxiv.org [сайт]. 2022. 5 января.
19. Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman [и др.]. Text2LIVE: Text- Driven Layered Image and Video Editing // arxiv.org [сайт]. 2022. 16 марта.
20. Adam Paszke, Sam Gross, Francisco Massa [и др.]. PyTorch: An imperative style, high-performance deep learning library // arxiv.org [сайт] 2019. 3 декабря.
21. Tsung-Yi Lin, Michael Maire, Serge Belongie [и др.]. Microsoft COCO: Common objects in context
22. Tom B. Brown, Benjamin Mann, Nick Ryder [и др.]. Language Models are Few- Shot Learners
23. Rongjie Huang, Jiawei Huang, Dongchao Yang [и др.]. Make-An-Audio: Text- To-Audio Generation with Prompt-Enhanced Diffusion Models // arxiv.org [сайт]. 2023. 23 января.
24. Video Marketing Statistics 2022 // Wyzowl: [сайт].
25. Tero Karras, Miika Aittala, Timo Aila [и др.]. Elucidating the Design Space of Diffusion-Based Generative Models // arxiv.org [сайт]. 2022. 1 июня. U
26. Alec Radford, Jong Wook Kim, Chris Hallacy [и др.]. Learning Transferable Visual Models From Natural Language Supervision // arxiv.org [сайт]. 2021. 26 февраля.
27. Diederik P. Kingma, Max Welling. An Introduction to Variational Autoencoders rxiv.org
28. Illia Polosukhin, Ashish Vaswani, Noam Shazeer [и др.]. Attention Is All You Need
29. Prafulla Dhariwal, Alexander Nichol. Diffusion models beat gans on image synthesis
30. Kasten, Y., Ofri, D., Wang, O. Layered neural atlases for consistent video editing// arxiv.org [сайт]. 2021. 23 сентября.
31. Joao Carreira, Andrew Zisserman. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset // arxiv.org [сайт]. 2018. 12 февраля.
32. Will Kay, Joao Carreira, Karen Simonyan [и др.]. The Kinetics Human Action Video Dataset // arXiv: [сайт]. 2017. 19 мая.
33. Jack Hessel, Ari Holtzman, Maxwell Forbes [и др.]. A reference-free evaluation metric for image captioning // arxiv.org [сайт]. 2021. 18 апреля.
34. Classifier-Free Diffusion Guidance / Jonathan Ho, Tim Salimans // arxiv.org [сайт]. 2022. 26 июля.
35. Chenlin Meng, Yang Song, Jiaming Song [и др.]. Sdedit: Image synthesis and editing with stochastic differential equations // arxiv.org [сайт]. 2022. 5 января.
36. Richard Zhang, Phillip Isola, Alexei A. Efros. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric // arxiv.org [сайт]. 2018. 11 января.
37. Uriel Singer, Adam Polyak, Thomas Hayes. Make-A-Video: Text-to-Video // arxiv.org [сайт]. 2022. 29 сентября.
38. Shaoteng Liu, Yuechen Zhang, Wenbo Li. Video-P2P: Video Editing with Cross-attention Control // arxiv.org [сайт]. 2023. 8 марта.
39. Alex Krizhevsky. One weird trick for parallelizing convolutional neural networks // arxiv.org [сайт]. 2014. 26 апреля.
40. Abubakar Abid, Ali Abdalla, Ali Abid [и др.]. Gradio: Hassle-Free Sharing and Testing of ML Models in the Wild // arxiv.org [сайт]. 2019. 6 июня.

Похожие работы
Другие работы автора

НЕ НАШЛИ, ЧТО ИСКАЛИ? МОЖЕМ ПОМОЧЬ.

СТАТЬ ЗАКАЗЧИКОМ