Please use this identifier to cite or link to this item: doi:10.22028/D291-32394
Title: Learning-based face reconstruction and editing
Author(s): Kim, Hyeongwoo
Language: English
Year of Publication: 2019
DDC notations: 004 Computer science, internet
Publikation type: Dissertation
Abstract: Photo-realistic face editing – an important basis for a wide range of applications in movie and game productions, and applications for mobile devices – is based on computationally expensive algorithms that often require many tedious time-consuming manual steps. This thesis advances state-of-the-art face performance capture and editing pipelines by proposing machine learning-based algorithms for high-quality inverse face rendering in real time and highly realistic neural face rendering, and a videobased refocusing method for faces and general videos. In particular, the proposed contributions address fundamental open challenges towards real-time and highly realistic face editing. The first contribution addresses face reconstruction and introduces a deep convolutional inverse rendering framework that jointly estimates all facial rendering parameters from a single image in real time. The proposed method is based on a novel boosting process that iteratively updates the synthetic training data to better reflect the distribution of real-world images. Second, the thesis introduces a method for face video editing at previously unseen quality. It is based on a generative neural network with a novel space-time architecture, which enables photo-realistic re-animation of portrait videos using an input video. It is the first method to transfer the full 3D head position, head rotation, face expression, eye gaze and eye blinking from a source actor to a portrait video of a target actor. Third, the thesis contributes a new refocusing approach for faces and general videos in postprocessing. The proposed algorithm is based on a new depth-from-defocus algorithm that computes space-time-coherent depth maps, deblurred all-in-focus video and the focus distance for each frame. The high-quality results shown with various applications and challenging scenarios demonstrate the contributions presented in the thesis, and also showpotential for machine learning-driven algorithms to solve various open problems in computer graphics.
Fotorealistische Gesichtsbearbeitung ist eine wichtige Grundlage für eine breite Palette von Anwendungen in Film- und Spielproduktionen sowie für mobile Geräte. Sie basiert auf rechenintensiven Algorithmen, die oft aufwändige manuelle Schritte erfordern. Diese Arbeit entwickelt moderne Pipelines zum Erfassen und Bearbeiten von Gesichtern mittels auf maschinellem Lernen basierenden Algorithmen, die ein qualitativ hochwertiges inverses Gesichtsrendering in Echtzeit, ein sehr realistisches neuronales Gesichtsrendering und eine videobasierte Refokussierungsmethode für Gesichter und allgemeine videos ermöglicht. Mit den vorgeschlagenen Beiträgen werden insbesondere grundlegende Herausforderungen an die Echtzeitbearbeitung und hochrealistische Gesichtsbearbeitung angesprochen. Der erste Beitrag befasst sich mit der Gesichtsrekonstruktion und führt ein CNNbasiertes Rendering-Framework ein, das alle Gesichtsmodellparameter in Echtzeit aus einem einzigen Bild schätzt. Das vorgeschlagene Verfahren basiert auf einem neuartigen Boosting-Prozess, der die synthetischen Trainingsdaten iterativ aktualisiert, um die Verteilung der realen Bilder besser widerzuspiegeln. Zweitens führt die Dissertation eine Methode zur Gesichtsvideobearbeitung in bisher nicht gekannter Qualität ein. Sie basiert auf einem generativen neuronalen Netzwerk mit einer neuartigen Raum-Zeit-Architektur, die eine fotorealistische Re-Animation von Porträtvideos mithilfe eines Eingabevideos ermöglicht. Es ist die erste Methode, die die vollständige 3D-Kopfposition, Kopfdrehung, Gesichtsausdruck, Augenblick und -blinzeln von einem Ursprungsdarsteller auf ein Porträtvideo eines Zieldarsteller übertragen kann. Drittens steuert die Dissertation einen neuen Ansatz für eine nachträgliche Refokussierung von Gesichtern und allgemeinen Videos bei. Der vorgeschlagene Algorithmus benutzt Schärfentiefe, um räumlich-zeitkohärente Tiefenkarten, durchgängig scharfe Bilder sowie den Fokusabstand für jedes Videobild zu berechnen. Die qualitativ hochwertigen Ergebnisse, die mit verschiedenen Anwendungen und schwierigen Szenarien gezeigt werden, demonstrieren die in der Dissertation vorgestellten Beiträge und zeigen auch das Potenzial für von maschinellem Lernen gesteuerten Algorithmen zur Lösung verschiedener offener Probleme in der Computergrafik.
Link to this record: urn:nbn:de:bsz:291--ds-323942
hdl:20.500.11880/29769
http://dx.doi.org/10.22028/D291-32394
Advisor: Theobalt, Christian
Date of oral examination: 12-Dec-2019
Date of registration: 29-Sep-2020
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Keiner Professur zugeordnet
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Kim - Thesis.pdf113,08 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.