Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-43567
Titel: | Egocentric human motion capture |
VerfasserIn: | Wang, Jian |
Sprache: | Englisch |
Erscheinungsjahr: | 2024 |
DDC-Sachgruppe: | 004 Informatik |
Dokumenttyp: | Dissertation |
Abstract: | The human motion capture (mocap) technology has wide applications, especially in entertainment, sports analysis, and human-computer interactions. Among the motion capture techniques, egocentric motion capture provides a unique perspective from the individual's point of view. Being able to capture human motion in an unconstrained environment, egocentric motion capture is crucial for AR/VR applications. This thesis focuses on the task of egocentric motion capture with a single, head-mounted, downward-facing fisheye camera. This setup can provide a broad field of view, which enables the capture of both body movements and interactions within the environment. Despite the advantages of egocentric cameras, this setup suffers from several challenges, which are discussed in this thesis. These challenges include global motion estimation, self-occlusion, fisheye lens distortion, and the lack of large-scale training datasets. This thesis addresses these challenges by introducing new datasets and technical contributions: To address the lack of large-scale training datasets, the thesis presents new datasets, including EgoPW, EgoGTA, and EgoWholeBody. These datasets cover a wide range of motions and environments, containing detailed annotations for human motion and scene geometry. By proposing new datasets, this thesis also reduces the gap between synthetic and real-world data. To capture global human motion, the thesis employs the SLAM method to obtain the global camera poses. The camera poses and the initial local human motion estimations are simultaneously optimized with the motion prior. The thesis also presents methods to overcome the issue of self-occlusion. These include leveraging temporal information, applying human motion priors, and incorporating scene geometry information. To mitigate the fisheye distortion issue, this thesis introduces FisheyeViT. It rectifies fisheye distortion with image patches and employs a Vision Transformer (ViT) network for feature extraction. All of the methods in this thesis provide new solutions to some of the main challenges of egocentric motion capture with different technical and dataset contributions. These contributions enhance the capability to capture human motion under unconstrained scenarios, which offers new possibilities for applications in VR, AR, interactive gaming, and more. Technologien zur rechnergestützten Erfassung menschlicher Bewegungen (Mocap) finden Anwendung in unterschiedlichen Bereichen, beispielsweise in der Unterhaltungsbranche, der Sportanalyse oder der Mensch-Computer-Interaktion. Die egozentrische Bewegungserfassung sticht hierbei heraus und liefert dadurch einen entscheidenden Beitrag für AR und VR-Anwendungen, dass sie die menschliche Bewegung und Wahrnehmung aus Sicht des Trägers erfasst und somit die Nutzung in uneingeschränkten Umgebungen ermöglicht. Diese Arbeit befasst sich mit der Aufgabe der egozentrischen Bewegungserfassung auf Basis einer einzelnen, am Kopf montierten, nach unten gerichteten Fischaugenkamera. Das breite Sichtfeld dieses Systems ermöglicht nicht nur die Erfassung von Körperbewegungen, sondern auch von Interaktionen in der Umgebung. Trotz der Vorteile egozentrischer Kameras geht die Verwendung dieses Systems mit einigen Problemen einher, die in dieser Arbeit thematisiert werden. Die vorgestellten Datensätze und technischen Methoden bearbeiten unter anderem die Herausforderung der Schätzung der globalen Bewegung, die erschwerte Schätzung der Bewegung durch starke gegenseitige Überdeckungen verschiedener Körperteile, die Verzerrung der erfassten Bilder durch des Fischaugen-Objektivs und der Mangel an großen Trainingsdatensätzen. Um den Mangel an großen Trainingsdatensätzen zu beheben, stellt die Arbeit die Datensätze EgoPW, EgoGTA und EgoWholeBody vor. Diese Datensätze decken ein breites Spektrum an Bewegungen und Umgebungen ab und enthalten detaillierte Annotationen für menschliche Bewegungen sowie die Geometrie der Szene. Durch die Einführung dieser Datensätze versucht diese Arbeit auch, die Unterschiede zwischen synthetischen und realen Daten zu reduzieren. Zur Erfassung der globalen menschlichen Bewegung wird in dieser Arbeit die SLAM-Methode eingesetzt, um die globalen Kamerapositionen zu ermitteln. Die Kameraposen und initialen lokalen Bewegungsschätzungen des Menschen werden gemeinsam unter Betrachtung der Einhaltung wahrscheinlicher menschlicher Bewegungen optimiert. Die erschwerten Bedingungen durch gegenseitige Abdeckung verschiedener Körperteile wird durch die Nutzung zeitlicher Informationen, die Integration der a-priori Verteilung menschlicher Bewegungen, sowie die Einbeziehung von Informationen über die Geometrie der Szene adressiert. Um das Problem der Fischaugenverzerrung zu reduzieren, wird in dieser Arbeit FisheyeViT vorgestellt. Es korrigiert die Verzerrungen der Fischaugenkamera und verwendet ein Vision Transformer (ViT)- Netzwerk zur Merkmalsextraktion. Alle in dieser Arbeit vorgestellten Methoden bieten neue Lösungen für einige der größten Herausforderungen der egozentrischen Bewegungserfassung. Diese Beiträge erweiterten den Raum möglicher Szenarien und Umgebungen zur Erfassung menschlicher Bewegungen, was neue Möglichkeiten für Anwendungen in VR, AR, interaktiven Spielen und mehr bietet. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291--ds-435678 hdl:20.500.11880/39105 http://dx.doi.org/10.22028/D291-43567 |
Erstgutachter: | Theobalt, Christian |
Tag der mündlichen Prüfung: | 15-Nov-2024 |
Datum des Eintrags: | 3-Dez-2024 |
Fördernummer: | ERC Consolidator Grant 4DReply (770784) |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Professur: | MI - Prof. Dr. Christian Theobalt |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
PhD_Thesis_Jian_Wang.pdf | Main Thesis | 15,95 MB | Adobe PDF | Öffnen/Anzeigen |
Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons