Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-27156
Titel: | From perception over anticipation to manipulation |
VerfasserIn: | Li, Wenbin |
Sprache: | Englisch |
Erscheinungsjahr: | 2018 |
Kontrollierte Schlagwörter: | Robotik Maschinelles Sehen Maschinelles Lernen |
Freie Schlagwörter: | manipulation reinforcement learning computer vision learning from demonstration |
DDC-Sachgruppe: | 004 Informatik |
Dokumenttyp: | Dissertation |
Abstract: | From autonomous driving cars to surgical robots, robotic system has enjoyed significant growth over the past decade. With the rapid development in robotics alongside the evolution in the related fields, such as computer vision and machine learning, integrating perception, anticipation and manipulation is key to the success of future robotic system. In this thesis, we explore different ways of such integration to extend the capabilities of a robotic system to take on more challenging real world tasks. On anticipation and perception, we address the recognition of ongoing activity from videos. In particular we focus on long-duration and complex activities and hence propose a new challenging dataset to facilitate the work. We introduce hierarchical labels over the activity classes and investigate the temporal accuracy-specificity trade-offs. We propose a new method based on recurrent neural networks that learns to predict over this hierarchy and realize accuracy specificity trade-offs. Our method outperforms several baselines on this new challenge. On manipulation with perception, we propose an efficient framework for programming a robot to use human tools. We first present a novel and compact model for using tools described by a tip model. Then we explore a strategy of utilizing a dual-gripper approach for manipulating tools – motivated by the absence of dexterous hands on widely available general purpose robots. Afterwards, we embed the tool use learning into a hierarchical architecture and evaluate it on a Baxter research robot. Finally, combining perception, anticipation and manipulation, we focus on a block stacking task. First we explore how to guide robot to place a single block into the scene without collapsing the existing structure. We introduce a mechanism to predict physical stability directly from visual input and evaluate it first on a synthetic data and then on real-world block stacking. Further, we introduce the target stacking task where the agent stacks blocks to reproduce a tower shown in an image. To do so, we create a synthetic block stacking environment with physics simulation in which the agent can learn block stacking end-to-end through trial and error, bypassing to explicitly model the corresponding physics knowledge. We propose a goal-parametrized GDQN model to plan with respect to the specific goal. We validate the model on both a navigation task in a classic gridworld environment and the block stacking task. Von autonom fahrenden Autos bis zu chirurgischen Robotern haben Robotersysteme in den letzten zehn Jahren ein beträchtliches Wachstum erfahren. Mit der rasanten Entwicklung in der Robotik und der Entwicklung in den verwandten Bereichen, wie Computer Vision und Machine Learning, ist die Integration von Wahrnehmung, Antizipation und Handhabung der Schlüssel zum Erfolg zukünftiger Robotersysteme. In dieser Arbeit untersuchen wir verschiedene Möglichkeiten einer solchen Integration, um die Fähigkeiten eines Robotersystems zur Bewältigung anspruchsvollerer Aufgaben in der realen Welt zu erweitern. Im Bereich der Antizipation und Wahrnehmung beschäftigen wir uns mit der Erkennung laufender Aktivitäten aus Videos. Insbesondere konzentrieren wir uns auf lang andauernde und komplexe Aktivitäten und schlagen somit einen neuen anspruchsvollen Datensatz vor, um die Arbeit zu erleichtern. Wir führen hierarchische Label über die Aktivitätsklassen ein und untersuchen die zeitlichen Zielkonflikte zwischen Genauigkeit und Spezifität. Wir schlagen eine neue auf rekurrenten neuronalen Netzen basierende Methode vor, die lernt, über diese Hierarchie vorherzusagen und Zielkonflikte zwischen Genauigkeit und Spezifität zu erkennen. Unsere Methode übertrifft mehrere Baselines bei dieser neuen Herausforderung. In Bezug auf Handhabung mit Wahrnehmung schlagen wir ein effizientes System für die Programmierung eines Roboters zur Verwendung von menschlichen Werkzeugen vor. Wir stellen zunächst ein neuartiges und kompaktes Modell für die Verwendung von Werkzeugen, die durch ein Werkzeugspitzenmodell beschrieben werden, vor. Dann untersuchen wir die Strategie, einen Doppelgreifer-Ansatz für die Handhabung von Werkzeugen zu verwenden - motiviert durch das Fehlen von geschickten Händen bei allgemein verfügbaren Allzweckrobotern. Anschließend betten wir das Tool-Use-Learning in eine hierarchische Architektur ein und werten es auf einem Baxter-Forschungsroboter aus. Schließlich konzentrieren wir uns bei der Kombination von Wahrnehmung, Antizipation und Handhabung auf eine Blockstapelaufgabe. Zuerst untersuchen wir, wie man Roboter anleitet, einen einzelnen Block zu platzieren, ohne dass die bestehende Struktur zusammenbricht. Wir führen einen Mechanismus ein, um die physikalische Stabilität direkt aus der visuellen Eingabe vorherzusagen und bewerten ihn zunächst auf Grundlage von synthetischen Daten und dann auf Grundlage einer Blockstapelaufgabe aus der realen Welt. Außerdem führen wir die Stapelaufgabe mit Vorgabe ein, bei der der Agent Blöcke mit dem Ziel stapelt, einen in einem Bild gezeigten Turm zu reproduzieren. Um dies zu erreichen, erstellen wir eine synthetische Blockstapelumgebung mit Physiksimulation, in der der Agent das Stapeln von Blöcken durchgehend durch Versuch und Irrtum lernen kann, um das entsprechende physikalische Wissen explizit zu modellieren. Wir schlagen ein zielparametriertes GDQN-Modell vor, um in Bezug auf das spezifische Ziel zu planen. Wir validieren das Modell sowohl für eine Navigationsaufgabe in einer klassischen Gridworld-Umgebung als auch für die Blockstapelaufgabe. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291-scidok-ds-271561 hdl:20.500.11880/27026 http://dx.doi.org/10.22028/D291-27156 |
Erstgutachter: | Fritz, Mario |
Tag der mündlichen Prüfung: | 25-Apr-2018 |
Datum des Eintrags: | 3-Mai-2018 |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
wenbinli-phd-thesis.pdf | 15,52 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.