Generation of synthetic high-resolution echocardiograms using Video Diffusion Models
Cita com:
hdl:2117/401948
CovenanteePurdue University
Document typeBachelor thesis
Date2023-07-07
Rights accessOpen Access
All rights reserved. This work is protected by the corresponding intellectual and industrial
property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public
communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
The echocardiogram is a video sequence of a human patient’s heart captured using ultrasound imaging. Echocardiograms can show the position and movement of the membranes, blood vessels, and cavities of human patients’ hearts. They enable the diagnosis of cardiovascular diseases. Deep Learning has shown success in a variety of biomedical applications such as disease diagnosis, protein structure prediction, and image reconstruction from brain activity. Deep Learning methods are usually data-driven, meaning that they typically require big datasets for training. However, in the medical field, data points are scarce due to factors such as privacy and cost. This can make it difficult to train and evaluate Deep Learning-based medical analysis methods. The lack of data can be addressed using generative models, which are Deep Learning models that can produce new samples given a set of known samples. In this thesis, we investigate the generation of echocardiogram video sequences using diffusion models. Diffusion models are a type of popular generative model, which are recently used for video generation. Existing video diffusion models focus on generating natural images. In this thesis, We improve the video diffusion model for echocardiogram generation. Our approach uses a customized 3D self-attention mechanism, which enhances the video quality and reduces GPU memory consumption. Our approach also introduces an echocardiogram-specific super-resolution module, which enables the generation of high-resolution echocardiograms. The experimental results showed that our approach can generate higher quality videos compared to the original video diffusion models. Compared to existing generative methods for echocardiograms, our approach can generate video sequences with higher resolution, more details, and improved smoothness L'ecocardiograma és una seqüència de vídeo del cor d'un pacient humà captada mitjançant imatges d'ultrasons. Els ecocardiogramas poden mostrar la posició i el moviment de les membranes, els vasos sanguinis i les cavitats del cor de pacients humans. Permeten diagnosticar malalties cardiovasculars. El Deep Learning ha demostrat la seva eficàcia en diverses aplicacions biomèdiques, com el diagnòstic de malalties, la predicció de l'estructura de les proteïnes i la reconstrucció d'imatges a partir de l'activitat cerebral. Els mètodes d'aprenentatge profund solen basar-se en dades, cosa que significa que normalment requereixen grans conjunts de dades per a l'entrenament. No obstant això, en el camp mèdic, els punts de dades són escassos a causa de factors com la privacitat i el cost. Això pot dificultar l'entrenament i l'avaluació de mètodes d'anàlisi mèdica basades en Deep Learning. La falta de dades es pot abordar utilitzant models generatius, que són models de Deep Learning que poden produir noves mostres donat un conjunt de mostres conegudes. En aquesta tesi, investiguem la generació de seqüències de vídeo de ecocardiogramas utilitzant Diffusion Models. Els Diffusion Models són un tipus de model generatiu popular, que s'utilitzen recentment per a la generació de vídeo. Els Video Diffusion Models existents se centren en la generació d'imatges naturals. En aquesta tesi, millorem el Video Diffusion Model per a la generació d'ecocardiogramas. El nostre enfocament utilitza un mecanisme de 3D self-attention, que millora la qualitat del vídeo i redueix el consum de memòria de la GPU. El nostre enfocament també introdueix un mòdul de super-resolució específic per a ecocardiogramas, que permet la generació de ecocardiogramas d'alta resolució. Els resultats experimentals mostre que el nostre enfocament pot generar vídeos de major qualitat en comparació amb els Video Diffusion Models originals. En comparació amb els mètodes generatius existents per a ecocardiogramas, el nostre enfocament pot generar seqüències de vídeo amb major resolució, més detalls i millor suavitat. El ecocardiograma es una secuencia de vídeo del corazón de un paciente humano captada mediante imágenes de ultrasonidos. Los ecocardiogramas pueden mostrar la posición y el movimiento de las membranas, los vasos sanguíneos y las cavidades del corazón de pacientes humanos. Permiten diagnosticar enfermedades cardiovasculares. El Deep Learning ha demostrado su eficacia en diversas aplicaciones biomédicas, como el diagnóstico de enfermedades, la predicción de la estructura de las proteínas y la reconstrucción de imágenes a partir de la actividad cerebral. Los métodos de aprendizaje profundo suelen basarse en datos, lo que significa que normalmente requieren grandes conjuntos de datos para el entrenamiento. Sin embargo, en el campo médico, los puntos de datos son escasos debido a factores como la privacidad y el coste. Esto puede dificultar el entrenamiento y la evaluación de métodos de análisis médico basados en Deep Learning. La falta de datos se puede abordar utilizando modelos generativos, que son modelos de Deep Learning que pueden producir nuevas muestras dado un conjunto de muestras conocidas. En esta tesis, investigamos la generación de secuencias de vídeo de ecocardiogramas utilizando Diffusion Models. Los Diffusion Models son un tipo de modelo generativo popular, que se utilizan recientemente para la generación de vídeo. Los Diffusion Models de vídeo existentes se centran en la generación de imágenes naturales. En esta tesis, mejoramos el Video Diffusion Model para la generación de ecocardiogramas. Nuestro enfoque utiliza un mecanismo de 3D self-attention, que mejora la calidad del vídeo y reduce el consumo de memoria de la GPU. Nuestro enfoque también introduce un módulo de super-resolución específico para ecocardiogramas, que permite la generación de ecocardiogramas de alta resolución. Los resultados experimentales mostraron que nuestro enfoque puede generar vídeos de mayor calidad en comparación con los Video Diffusion Models originales. En comparación con los métodos generativos existentes para ecocardiogramas, nuestro enfoque puede generar secuencias de vídeo con mayor resolución, más detalles y mejor suavidad.
SubjectsArtificial intelligence, Signal processing--Digital techniques, Video recording, Intel·ligència artificial, Tractament del senyal--Tècniques digitals, Vídeo
DegreeGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)
Files | Description | Size | Format | View |
---|---|---|---|---|
Generation_of_S ... exandre_Olive_Pellicer.pdf | 4,050Mb | View/Open |