Logo
    • English
    • Ελληνικά
    • Deutsch
    • français
    • italiano
    • español
  • Ελληνικά 
    • English
    • Ελληνικά
    • Deutsch
    • français
    • italiano
    • español
  • Σύνδεση
Προβολή τεκμηρίου 
  •   Ιδρυματικό Αποθετήριο Πανεπιστημίου Θεσσαλίας
  • Επιστημονικές Δημοσιεύσεις Μελών ΠΘ (ΕΔΠΘ)
  • Δημοσιεύσεις σε περιοδικά, συνέδρια, κεφάλαια βιβλίων κλπ.
  • Προβολή τεκμηρίου
  •   Ιδρυματικό Αποθετήριο Πανεπιστημίου Θεσσαλίας
  • Επιστημονικές Δημοσιεύσεις Μελών ΠΘ (ΕΔΠΘ)
  • Δημοσιεύσεις σε περιοδικά, συνέδρια, κεφάλαια βιβλίων κλπ.
  • Προβολή τεκμηρίου
JavaScript is disabled for your browser. Some features of this site may not work without it.
Ιδρυματικό Αποθετήριο Πανεπιστημίου Θεσσαλίας
Όλο το DSpace
  • Κοινότητες & Συλλογές
  • Ανά ημερομηνία δημοσίευσης
  • Συγγραφείς
  • Τίτλοι
  • Λέξεις κλειδιά

Joint Object Affordance Reasoning and Segmentation in RGB-D Videos

Thumbnail
Συγγραφέας
Thermos S., Potamianos G., Daras P.
Ημερομηνία
2021
Γλώσσα
en
DOI
10.1109/ACCESS.2021.3090471
Λέξη-κλειδί
Classification (of information)
Decoding
Deep learning
Human computer interaction
Human robot interaction
Pixels
Signal encoding
Attention mechanisms
Encoder-decoder
Human-object interaction
Interaction information
Object localization
State of the art
Static images
Temporal aspects
Image segmentation
Institute of Electrical and Electronics Engineers Inc.
Εμφάνιση Μεταδεδομένων
Επιτομή
Understanding human-object interaction is a fundamental challenge in computer vision and robotics. Crucial to it is the ability to infer 'object affordances' from visual data, namely the types of interaction supported by an object of interest and the object parts involved. Such inference can be approached as an 'affordance reasoning' task, where object affordances are recognized and localized as image heatmaps, and as an 'affordance segmentation' task, where affordance labels are obtained at a more detailed, image pixel level. To tackle the two tasks, existing methods typically: (i) treat them independently; (ii) adopt static image-based models, ignoring the temporal aspect of human-object interaction; and / or (iii) require additional strong supervision concerning object class and location. In this paper, we focus on both tasks, while addressing all three aforementioned shortcomings. For this purpose, we propose a deep-learning based dual encoder-decoder model for joint affordance reasoning and segmentation, which learns from our recently introduced SOR3D-AFF corpus of RGB-D human-object interaction videos, without relying on object localization and classification. The basic components of the model comprise: (i) two parallel encoders that capture spatiooral interaction information; (ii) a reasoning decoder that predicts affordance heatmaps, assisted by an affordance classifier and an attention mechanism; and (iii) a segmentation decoder that exploits the predicted heatmap to yield pixel-level affordance segmentation. All modules are jointly trained, while the system can operate on both static images and videos. The approach is evaluated on four datasets, surpassing the current state-of-the-art in both affordance reasoning and segmentation. © 2013 IEEE.
URI
http://hdl.handle.net/11615/79700
Collections
  • Δημοσιεύσεις σε περιοδικά, συνέδρια, κεφάλαια βιβλίων κλπ. [19674]
Η δικτυακή πύλη της Ευρωπαϊκής Ένωσης
Ψηφιακή Ελλάδα
ΕΣΠΑ 2007-2013
Με τη συγχρηματοδότηση της Ελλάδας και της Ευρωπαϊκής Ένωσης
htmlmap 

 

Πλοήγηση

Όλο το DSpaceΚοινότητες & ΣυλλογέςΑνά ημερομηνία δημοσίευσηςΣυγγραφείςΤίτλοιΛέξεις κλειδιάΑυτή η συλλογήΑνά ημερομηνία δημοσίευσηςΣυγγραφείςΤίτλοιΛέξεις κλειδιά

Ο λογαριασμός μου

ΣύνδεσηΕγγραφή (MyDSpace)
Πληροφορίες-Επικοινωνία
ΑπόθεσηΣχετικά μεΒοήθειαΕπικοινωνήστε μαζί μας
Επιλογή ΓλώσσαςΌλο το DSpace
EnglishΕλληνικά
Η δικτυακή πύλη της Ευρωπαϊκής Ένωσης
Ψηφιακή Ελλάδα
ΕΣΠΑ 2007-2013
Με τη συγχρηματοδότηση της Ελλάδας και της Ευρωπαϊκής Ένωσης
htmlmap