Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-32394
Titel: Learning-based face reconstruction and editing
VerfasserIn: Kim, Hyeongwoo
Sprache: Englisch
Erscheinungsjahr: 2019
DDC-Sachgruppe: 004 Informatik
Dokumenttyp: Dissertation
Abstract: Photo-realistic face editing – an important basis for a wide range of applications in movie and game productions, and applications for mobile devices – is based on computationally expensive algorithms that often require many tedious time-consuming manual steps. This thesis advances state-of-the-art face performance capture and editing pipelines by proposing machine learning-based algorithms for high-quality inverse face rendering in real time and highly realistic neural face rendering, and a videobased refocusing method for faces and general videos. In particular, the proposed contributions address fundamental open challenges towards real-time and highly realistic face editing. The first contribution addresses face reconstruction and introduces a deep convolutional inverse rendering framework that jointly estimates all facial rendering parameters from a single image in real time. The proposed method is based on a novel boosting process that iteratively updates the synthetic training data to better reflect the distribution of real-world images. Second, the thesis introduces a method for face video editing at previously unseen quality. It is based on a generative neural network with a novel space-time architecture, which enables photo-realistic re-animation of portrait videos using an input video. It is the first method to transfer the full 3D head position, head rotation, face expression, eye gaze and eye blinking from a source actor to a portrait video of a target actor. Third, the thesis contributes a new refocusing approach for faces and general videos in postprocessing. The proposed algorithm is based on a new depth-from-defocus algorithm that computes space-time-coherent depth maps, deblurred all-in-focus video and the focus distance for each frame. The high-quality results shown with various applications and challenging scenarios demonstrate the contributions presented in the thesis, and also showpotential for machine learning-driven algorithms to solve various open problems in computer graphics.
Fotorealistische Gesichtsbearbeitung ist eine wichtige Grundlage für eine breite Palette von Anwendungen in Film- und Spielproduktionen sowie für mobile Geräte. Sie basiert auf rechenintensiven Algorithmen, die oft aufwändige manuelle Schritte erfordern. Diese Arbeit entwickelt moderne Pipelines zum Erfassen und Bearbeiten von Gesichtern mittels auf maschinellem Lernen basierenden Algorithmen, die ein qualitativ hochwertiges inverses Gesichtsrendering in Echtzeit, ein sehr realistisches neuronales Gesichtsrendering und eine videobasierte Refokussierungsmethode für Gesichter und allgemeine videos ermöglicht. Mit den vorgeschlagenen Beiträgen werden insbesondere grundlegende Herausforderungen an die Echtzeitbearbeitung und hochrealistische Gesichtsbearbeitung angesprochen. Der erste Beitrag befasst sich mit der Gesichtsrekonstruktion und führt ein CNNbasiertes Rendering-Framework ein, das alle Gesichtsmodellparameter in Echtzeit aus einem einzigen Bild schätzt. Das vorgeschlagene Verfahren basiert auf einem neuartigen Boosting-Prozess, der die synthetischen Trainingsdaten iterativ aktualisiert, um die Verteilung der realen Bilder besser widerzuspiegeln. Zweitens führt die Dissertation eine Methode zur Gesichtsvideobearbeitung in bisher nicht gekannter Qualität ein. Sie basiert auf einem generativen neuronalen Netzwerk mit einer neuartigen Raum-Zeit-Architektur, die eine fotorealistische Re-Animation von Porträtvideos mithilfe eines Eingabevideos ermöglicht. Es ist die erste Methode, die die vollständige 3D-Kopfposition, Kopfdrehung, Gesichtsausdruck, Augenblick und -blinzeln von einem Ursprungsdarsteller auf ein Porträtvideo eines Zieldarsteller übertragen kann. Drittens steuert die Dissertation einen neuen Ansatz für eine nachträgliche Refokussierung von Gesichtern und allgemeinen Videos bei. Der vorgeschlagene Algorithmus benutzt Schärfentiefe, um räumlich-zeitkohärente Tiefenkarten, durchgängig scharfe Bilder sowie den Fokusabstand für jedes Videobild zu berechnen. Die qualitativ hochwertigen Ergebnisse, die mit verschiedenen Anwendungen und schwierigen Szenarien gezeigt werden, demonstrieren die in der Dissertation vorgestellten Beiträge und zeigen auch das Potenzial für von maschinellem Lernen gesteuerten Algorithmen zur Lösung verschiedener offener Probleme in der Computergrafik.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-323942
hdl:20.500.11880/29769
http://dx.doi.org/10.22028/D291-32394
Erstgutachter: Theobalt, Christian
Tag der mündlichen Prüfung: 12-Dez-2019
Datum des Eintrags: 29-Sep-2020
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Professur: MI - Keiner Professur zugeordnet
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
Kim - Thesis.pdf113,08 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.