Please use this identifier to cite or link to this item: doi:10.22028/D291-28192
Title: Intents and preferences prediction based on implicit human cues
Author(s): Sattar, Hosnieh
Language: English
Year of Publication: 2019
DDC notations: 500 Science
510 Mathematics
620 Engineering and machine engineering
Publikation type: Doctoral Thesis
Abstract: Visual search is an important task, and it is part of daily human life. Thus, it has been a long-standing goal in Computer Vision to develop methods aiming at analysing human search intent and preferences. As the target of the search only exists in mind of the person, search intent prediction remains challenging for machine perception. In this thesis, we focus on advancing techniques for search target and preference prediction from implicit human cues. First, we propose a search target inference algorithm from human fixation data recorded during visual search. In contrast to previous work that has focused on individual instances as a search target in a closed world, we propose the first approach to predict the search target in open-world settings by learning the compatibility between observed fixations and potential search targets. Second, we further broaden the scope of search target prediction to categorical classes, such as object categories and attributes. However, state of the art models for categorical recognition, in general, require large amounts of training data, which is prohibitive for gaze data. To address this challenge, we propose a novel Gaze Pooling Layer that integrates gaze information into CNN-based architectures as an attention mechanism – incorporating both spatial and temporal aspects of human gaze behaviour. Third, we go one step further and investigate the feasibility of combining our gaze embedding approach, with the power of generative image models to visually decode, i.e. create a visual representation of, the search target. Forth, for the first time, we studied the effect of body shape on people preferences of outfits. We propose a novel and robust multi-photo approach to estimate the body shapes of each user and build a conditional model of clothing categories given body-shape. We demonstrate that in real-world data, clothing categories and body-shapes are correlated. We show that our approach estimates a realistic looking body shape that captures a user’s weight group and body shape type, even from a single image of a clothed person. However, an accurate depiction of the naked body is considered highly private and therefore, might not be consented by most people. First, we studied the perception of such technology via a user study. Then, in the last part of this thesis, we ask if the automatic extraction of such information can be effectively evaded. In summary, this thesis addresses several different tasks that aims to enable the vision system to analyse human search intent and preferences in real-world scenarios. In particular, the thesis proposes several novel ideas and models in visual search target prediction from human fixation data, for the first time studied the correlation between shape and clothing categories opening a new direction in clothing recommendation systems, and introduces a new topic in privacy and computer vision, aimed at preventing automatic 3D shape extraction from images.
Visuelle Suche ist eine wichtige Aufgabe und ein Teil unseres täglichen Lebens. Deswegen ist es seit langem ein Ziel des maschinellen Sehens, Methoden zu entwickeln, die Analyse menschlicher Suchvorhaben und Präferenzen zur Aufgabe haben. Da das Ziel der Suche nur in der Vorstellung der Person existiert, bleibt die Vorhersage von Suchvorhaben herausfordernd für die maschinelle Wahrnehmung. In dieser Arbeit fokussieren wir uns auf fortgeschrittene Techniken zur Vorhersage von Suchzielen und Präferenzen anhand impliziter menschlicher Hinweise. Erstens schlagen wir einen Suchziel-Inferenz-Algorithmus vor, der auf Grundlage menschlicher Fixierungsdaten, die während der visuellen Suche aufgenommen wurden, arbeitet. Im Gegensatz zu vorherigen Arbeiten die auf individuelle Beispiele als Suchziel-Objekte einer geschlossenen Welt fokussiert waren, schlagen wir den ersten Ansatz vor, der die Suchziele in einer offenen Welt vorhersagt, indem die Kompatibilität zwischen beobachteten Fixierungen und potentiellen Suchzielen gelernt wird. Zweitens erweitern wir den Anwendungsbereich der Suchzielvorhersage auf kategorische Klassen wie zum Beispiel Objektkategorien und Attribute. Führende Modelle der Kategorienerkennung benötigen jedoch im Allgemeinen große Trainingsdatenmengen von menschlichen Blicken, welche bislang schwierig zu beschaffen sind. Um diese Herausforderung anzugehen schlagen wir eine neuartige Blick- Zusammenfassungsschicht vor, die Blickinformationen in CNN-basierte Architekturen als eine Art Aufmerksamkeitsmechanismus integriert. Dies bezieht sowohl räumliche als auch zeitliche Aspekte des menschlichen Blickverhaltens mit ein. Drittens gehen wir noch einen Schritt weiter und untersuchen die Durchführbarkeit der Kombination unseres Blickeinbettungsansatzes mit der Stärke von generativen Bildmodellen um eine visuelle Repräsentation des Suchzieles zu dekodieren. Zum vierten sind wir die Ersten, die den Effekt von Körperform auf die Vorlieben für verschiedene Kleidungen untersuchen. Wir präsentieren einen neuartigen, robusten Ansatz zur Schätzung der Körperform individueller Nutzer, der auf mehreren Eingabebilder basiert, und erstellen ein Modell von Kleidungskategorien bedingt auf Körperform. Wir zeigen, dass Kleidungskategorien und Körperform in Echtweltdaten korreliert sind. Weiterhin zeigen wir, dass unser Ansatz realistisch aussehende Körperformen robust schätzen kann, welche die Gewichtsgruppen und Körperformtypen der Nutzer abbilden, und das selbst dann, wenn nur ein einzelnes Eingabebild verfügbar ist. Gleichzeitig ist eine naturgetreue Darstellung des nackten Körpers eine äußerst sensible Angelegenheit, die sicherlich nicht bei allen Nutzern auf Zustimmung stoßen dürfte. Daher untersuchen wir mithilfe einer Nutzerbefragung auch die öffentliche Einstellung einer solchen Technologie gegenüber. Im letzten Teil der Arbeit beleuchten wir darüber hinaus auch die Frage, ob die automatisierte Auswertung solch privater Informationen effektiv umgangen werden kann. Zusammenfassend betrachtet die vorliegende Dissertation verschiedene Fragestellungen, die es zum Ziel haben, Bildverarbeitungssysteme für die Analyse von menschlichen Suchabsichten und Präferenzen in Echtweltszenarien bereitzustellen. Insbesondere werden verschiedene neue Ideen und Modelle für die Zielvorhersache in der visuellen Suche durch menschliche Fixationsdaten beleuchtet. Ebenso wird erstmalig die Korrelation zwischen Körpermaßen und Kleidungskategorien untersucht, was neue Möglichkeiten für Bekleidungsempfehlungssysteme eröffnet. Darüber hinaus wird mit der Verhinderung der automatischen Gewinnung von Körpermaßen aus Bilddaten eine neue Herausforderung für weitere Forschungsvorhaben in den Bereichen Datenschutz und Bildverarbeitung definiert.
Link to this record: urn:nbn:de:bsz:291--ds-281920
hdl:20.500.11880/27625
http://dx.doi.org/10.22028/D291-28192
Advisor: Fritz, Mario
Date of oral examination: 2-Jul-2019
Date of registration: 9-Aug-2019
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Mathematik
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Search_Intents_and_Preferences_based_on_Implicit_Body_Cues.pdf94,86 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons