Representing and reconstructing general non-rigid objects with neural models

Tretschk, Edith

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-41650

Titel:	Representing and reconstructing general non-rigid objects with neural models
VerfasserIn:	Tretschk, Edith
Sprache:	Englisch
Erscheinungsjahr:	2023
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	Digitizing the real world is a wide problem area at the intersection of computer vision and computer graphics and, lately, machine learning. Despite a lot of effort, creating virtual clones of real-world objects remains an unsolved scientific challenge. Still, it is of great interest as it enables interactions with the environment in augmented reality, digital clones for virtual reality, and consistent visual effects. While human-centered approaches are already advanced, the handling of general deformable objects is far less explored and the topic of this thesis. To digitize an object, it first needs to be reconstructed from sensor observations and then represented in a suitable manner for downstream tasks. Many classical methods have explored these closely related areas. However, these reconstruction methods still fall short of practical applicability, and representing general deformable objects is unduly limited by hand-crafted priors. Over the past decade, neural techniques have led to great advancement in both areas. Meshes have become accessible to deep learning thanks to graph convolutions, graphics representations have expanded to include coordinate-based neural networks, and the entire reconstruction field has been revolutionized by neural radiance fields. This thesis contributes to both areas. In the first part, it focuses on representing deformations and geometry. In particular, it introduces a low-dimensional deformation model. Unlike prior work that hand-crafts these for specific categories, it can be trained for any general non- rigid object category via mesh auto-encoding using graph convolutions. Furthermore, by integrating insights from classical deformation modeling, it avoids artifacts common to prior work, which is purely learning-based. Next, coordinate-based networks model geometry at infinite resolution but they do not generalize due to their global representation. This thesis makes them generalizable, thereby making these new models much easier to apply to general objects where training data is lacking. In the second part, this thesis advances the reconstruction side. It extends neural radiance fields, which were previously restricted to static scenes, to deformable objects. This approach seeds a new category of methods for general non-rigid reconstruction from monocular input. Finally, this thesis extends the previous method to handle large motions, a non-trivial endeavor due to backwards deformation modeling. Unlike prior work on general non-rigid reconstruction, it achieves time consistency even for studio-scale motion. Die echte Welt digital zu klonen, ist ein weites Forschungsfeld an der Grenze von Computer Vision und Computergrafik und, seit kurzem, maschinellem Lernen. Trotz vieler Bemühungen ist das Erstellen digitaler Kopien von echten Objekten nach wie vor ein ungelöstes Problem. Nichtsdestotrotz ist es ein wichtiges Unterfangen, das viele Anwendungen hat: Interaktionen mit der Umwelt in Augmented Reality, das Erstellen digitaler Assets für Videospiele und konsistente visuelle Effekte. Methoden, die sich auf Menschen konzentrieren, sind bereits weit fortgeschritten. Allgemeine verformbare Objekte hingegen sind bisher nur wenig untersucht worden und Gegenstand dieser Arbeit. Um ein echtes Objekt zu digitalisieren, muss es zunächst aus Sensormessungen rekonstruiert werden und dann passend für die eigentlichen Ziele repräsentiert werden. Viele klassische Methoden haben sich diese eng verwandten Gebiete angeschaut. Allerdings sind diese Rekonstruktionsmethoden nicht hinreichend praxistauglich und die Repräsentationen allgemeiner verformbarer Objekte sind übermäßig durch manuelle Annahmen eingeschränkt. Im letzten Jahrzehnt haben neuronale Techniken in beiden Gebieten zu großem Fortschritt geführt. Meshes sind dank Graph-Faltungen für Deep Learning zugänglich, koordinaten-basierte neuronale Netze haben Grafikrepräsentationen erweitert, und das gesamte Rekonstruktionsgebiet hat durch neuronale Radiance Fields eine Revolution durchlaufen. Diese Arbeit bringt beide Gebiete voran. Der erste Teil dreht sich um das Modellieren von Verformungen und von Geometrie. Konkret wird ein niedrig-dimensionales Modell für Verformungen vorgestellt. Im Gegensatz zu existierenden Arbeiten, die diese Modelle speziell für bestimmte Objektkategorien entwerfen, kann das vorgestellte Modell für jede beliebige allgemeine verformbare Objektkategorie via Auto-Encoding für Meshes mit Graph-Faltungen trainiert werden. DesWeiteren vermeidet es ungewünschte Artefakte, die existierende Arbeiten aufgrund ihres reinen Maschinelles-Lernen-Ansatzes aufweisen, indem es Erkenntnisse aus der klassischen Computergrafik über das Modellieren von Verformungen einbindet. Koordinaten-basierte Netze stellen Geometrie mit unendlicher Auflösung dar, lassen sich aber aufgrund ihrer globalen Repräsentation nicht auf beliebige Objekte anwenden. Diese Arbeit entfernt diese Beschränkung und vereinfacht damit die Anwendung dieser neuen Modelle auf allgemeine Objekte, die außerhalb der Trainingsdaten liegen. Der zweite Teil dieser Arbeit dreht sich um Rekonstruktion. Zunächst werden neuronale Radiance Fields, die bisher auf unbewegliche Szenen beschränkt waren, auf verformbare Objekte erweitert. Diese Methoden begründet eine neue Richtung von Methoden zur Rekonstruktion von allgemeinen verformbaren Objekten aus monokularen Messungen. Schließlich erweitert diese Arbeit die vorangegangene Methode, sodass diese auch große Bewegungen rekonstruieren kann. Das ist ein kompliziertes Unterfangen aufgrund der rückwärts gerichteten Verformungsrepräsentation. Im Gegensatz zu existierenden Arbeiten zur allgemeinen verformbaren Rekonstruktion bleibt diese Methode selbst für Bewegungen durch ein ganzes Studio zeitlich konsistent.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291--ds-416509 hdl:20.500.11880/37392 http://dx.doi.org/10.22028/D291-41650
Erstgutachter:	Theobalt, Christian
Tag der mündlichen Prüfung:	29-Jan-2024
Datum des Eintrags:	22-Mär-2024
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Professur:	MI - Prof. Dr. Christian Theobalt
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
PhD_Thesis.pdf	Thesis inkl. Anhang	117,11 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.