Self-supervised reconstruction and synthesis of faces

Tewari, Ayush

Please use this identifier to cite or link to this item: doi:10.22028/D291-34598

Title:	Self-supervised reconstruction and synthesis of faces
Author(s):	Tewari, Ayush
Language:	English
Year of Publication:	2021
DDC notations:	600 Technology 004 Computer science, internet
Publikation type:	Dissertation
Abstract:	Photorealistic and semantically controllable digital models of human faces are important for a wide range of applications such as movies, virtual reality, and casual photography. Traditional approaches require expensive setups which capture the person from multiple cameras under different illumination conditions. Recent approaches have also explored digitizing faces under less constrained settings, even from a single image of the person. These approaches rely on priors, commonly known as 3D morphable models (3DMMs), which are learned from datasets of 3D scans. This thesis pushes the state of the art in high-quality 3D reconstruction of faces from monocular images. A model-based face autoencoder architecture is introduced which integrates convolutional neural networks, 3DMMs, and differentiable rendering for self-supervised training on large image datasets. This architecture is extended to enable the refinement of a pretrained 3DMM just from a dataset of monocular images, allowing for higher-quality reconstructions. In addition, this thesis demonstrates the learning of the identity components of a 3DMM directly from videos without using any 3D data. Since videos are more readily available, this model can generalize better compared to the models learned from limited 3D scans. This thesis also presents methods for the photorealistic editing of portrait images. In contrast to traditional approaches, the presented methods do not rely on any supervised training. Self-supervised editing is achieved by integrating the semantically meaningful 3DMM-based monocular reconstructions with a pretrained and fixed generative adversarial network. While this thesis presents several ideas which enable self-supervised learning for the reconstruction and synthesis of faces, several open challenges remain. These challenges, as well as an outlook for future work are also discussed. Fotorealistische und semantisch steuerbare digitale Modelle von menschlichen Gesichtern sind wichtig für eine Vielzahl von Anwendungen wie Filme, virtuelle Realität und Gelegenheitsfotografie. Traditionelle Ansätze erfordern teure Setups, die die Person mit mehreren Kameras unter verschiedenen Beleuchtungsbedingungen aufnehmen. Neuere Ansätze haben auch die Digitalisierung von Gesichtern unter weniger strengen Bedingungen untersucht, selbst von einem einzigen Bild der Person. Diese Ansätze stützen sich auf Vorannahmen, sogenannte 3D morphable models (3DMMs), die aus einer Reihe von 3D-Scans gelernt werden. Diese Dissertation bringt den Stand der Forschung auf dem Gebiet der hochwertigen 3D-Rekonstruktion von Gesichtern aus Einzelaufnahmen voran. Es wird eine modellbasierte Gesichts-Autoencoder-Architektur entwickelt, die neuronale Netze, 3DMMs und differenzierbares Rendern für selbstüberwachtes Training auf großen Bilddatensätzen verbindet. Diese Architektur wird erweitert, um die Verfeinerung eines vortrainierten 3DMMs lediglich anhand eines Datensatzes von monokularen Bildern zu ermöglichen, wodurch qualitativ hochwertigere Rekonstruktionen erzielt werden können. Darüber hinaus demonstriert diese Dissertation das Lernen der Identitätskomponenten eines 3DMM anhand von Videos ohne den Einsatz von 3D-Daten. Da Videos leichter verfügbar sind, kann dieses Modell im Vergleich zu jenen Modellen, die aus begrenzten 3D-Scans gelernt wurden, besser generalisieren. In dieser Dissertation werden auch Methoden für die fotorealistische Bearbeitung von Porträtbildern vorgestellt. Im Gegensatz zu traditionellen Ansätzen sind die vorgestellten Methoden nicht auf ein überwachtes Training angewiesen. Die selbstüberwachte Bearbeitung wird durch die Verknüpfung der semantisch aussagekräftigen 3DMM-basierten Einzelbildrekonstruktionen mit einem vortrainierten und unveränderlichen generativen adversariellen Netzwerk erreicht. Während diese Dissertation mehrere Ideen entwickelt, die selbstüberwachtes Lernen für die Rekonstruktion und Synthetisierung von Gesichtern ermöglichen, verbleiben mehrere ungelöste Herausforderungen. Diese Herausforderungen, sowie ein Ausblick auf mögliche zukünftige Forschungsarbeiten werden ebenfalls erörtert.
Link to this record:	urn:nbn:de:bsz:291--ds-345982 hdl:20.500.11880/31754 http://dx.doi.org/10.22028/D291-34598
Advisor:	Theobalt, Christian
Date of oral examination:	26-Jul-2021
Date of registration:	14-Sep-2021
Faculty:	SE - Sonstige Einrichtungen
Department:	SE - Max-Planck-Institut für Informatik
Professorship:	SE - Sonstige
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
Tewari.pdf		104,96 MB	Adobe PDF	View/Open

Export: BibTex

This item is licensed under a Creative Commons License