Combining content analysis with usage analysis to better understand visual contents

Thèse Année : 2014

Combining content analysis with usage analysis to better understand visual contents Compréhension de contenus visuels par analyse conjointe du contenu et des usages

(1, 2, 3)

1 (118 Route de Narbonne, F-31062 Toulouse Cedex 9 - France) 34499

UT Capitole - Université Toulouse Capitole (2 rue du Doyen-Gabriel-Marty - 31042 Toulouse Cedex 9 - France) 81148
- UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
UT2J - Université Toulouse - Jean Jaurès (5 allées Antonio Machado - 31058 Toulouse Cedex 9 - France) 116256
- UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
UT3 - Université Toulouse III - Paul Sabatier (118 route de Narbonne - 31062 Toulouse - France) 217752
- UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
CNRS - Centre National de la Recherche Scientifique : UMR5505 (France) 441569
Toulouse INP - Institut National Polytechnique (Toulouse) (France) 448187
- UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
TMBI - Toulouse Mind & Brain Institut (CHU Purpan, Pavillon Baudot, 31059 Toulouse cedex 9 - France) 1149079
- UT2J - Université Toulouse - Jean Jaurès (5 allées Antonio Machado - 31058 Toulouse Cedex 9 - France) 116256
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
- UT3 - Université Toulouse III - Paul Sabatier : FED4171 (118 route de Narbonne - 31062 Toulouse - France) 217752
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875

"> IRIT - Institut de recherche en informatique de Toulouse
2 (Institut de recherche en informatique de Toulouse - IRIT 2 rue Charles Camichel 31071 Toulouse Cedex 7 - France) 1001832

IRIT - Institut de recherche en informatique de Toulouse (118 Route de Narbonne, F-31062 Toulouse Cedex 9 - France) 34499
- UT Capitole - Université Toulouse Capitole (2 rue du Doyen-Gabriel-Marty - 31042 Toulouse Cedex 9 - France) 81148
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
- UT2J - Université Toulouse - Jean Jaurès (5 allées Antonio Machado - 31058 Toulouse Cedex 9 - France) 116256
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
- UT3 - Université Toulouse III - Paul Sabatier (118 route de Narbonne - 31062 Toulouse - France) 217752
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
- CNRS - Centre National de la Recherche Scientifique : UMR5505 (France) 441569
- Toulouse INP - Institut National Polytechnique (Toulouse) (France) 448187
  - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
- TMBI - Toulouse Mind & Brain Institut (CHU Purpan, Pavillon Baudot, 31059 Toulouse cedex 9 - France) 1149079
  - UT2J - Université Toulouse - Jean Jaurès (5 allées Antonio Machado - 31058 Toulouse Cedex 9 - France) 116256
    - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875
  - UT3 - Université Toulouse III - Paul Sabatier : FED4171 (118 route de Narbonne - 31062 Toulouse - France) 217752
    - UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875

"> IRIT-REVA - Real Expression Artificial Life
3 (France) 448187

UT - Université de Toulouse (41 Allée Jules Guesde, 31000 Toulouse - France) 443875

"> Toulouse INP - Institut National Polytechnique (Toulouse)

Axel Carlier

Fonction : Auteur
PersonId : 740757
IdHAL : axelcarlier
IdRef : 182515206

Institut de recherche en informatique de Toulouse

Real Expression Artificial Life

Institut National Polytechnique (Toulouse)

Résumé

This thesis focuses on the problem of understanding visual contents, which can be images, videos or 3D contents. Understanding means that we aim at inferring semantic information about the visual content. The goal of our work is to study methods that combine two types of approaches: 1) automatic content analysis and 2) an analysis of how humans interact with the content (in other words, usage analysis). We start by reviewing the state of the art from both Computer Vision and Multimedia communities. Twenty years ago, the main approach was aiming at a fully automatic understanding of images. This approach today gives way to different forms of human intervention, whether it is through the constitution of annotated datasets, or by solving problems interactively (e.g. detection or segmentation), or by the implicit collection of information gathered from content usages. These different types of human intervention are at the heart of modern research questions: how to motivate human contributors? How to design interactive scenarii that will generate interactions that contribute to content understanding? How to check or ensure the quality of human contributions? How to aggregate human contributions? How to fuse inputs obtained from usage analysis with traditional outputs from content analysis? Our literature review addresses these questions and allows us to position the contributions of this thesis. In our first set of contributions we revisit the detection of important (or salient) regions through implicit feedback from users that either consume or produce visual contents. In 2D, we develop several interfaces of interactive video (e.g. zoomable video) in order to coordinate content analysis and usage analysis. We also generalize these results to 3D by introducing a new detector of salient regions that builds upon simultaneous video recordings of the same public artistic performance (dance show, chant, etc.) by multiple users. The second contribution of our work aims at a semantic understanding of fixed images. With this goal in mind, we use data gathered through a game, Ask’nSeek, that we created. Elementary interactions (such as clicks) together with textual input data from players are, as before, mixed with automatic analysis of images. In particular, we show the usefulness of interactions that help revealing spatial relations between different objects in a scene. After studying the problem of detecting objects on a scene, we also adress the more ambitious problem of segmentation.

Dans cette thèse, nous traitons de la compréhension de contenus visuels, qu’il s’agisse d’images, de vidéos ou encore de contenus 3D. On entend par compréhension la capacité à inférer des informations sémantiques sur le contenu visuel. L’objectif de ce travail est d’étudier des méthodes combinant deux approches : 1) l’analyse automatique des contenus et 2) l’analyse des interactions liées à l’utilisation de ces contenus (analyse des usages, en plus bref). Dans un premier temps, nous étudions l’état de l’art issu des communautés de la vision par ordinateur et du multimédia. Il y a 20 ans, l’approche dominante visait une compréhension complètement automatique des images. Cette approche laisse aujourd’hui plus de place à différentes formes d’interventions humaines. Ces dernières peuvent se traduire par la constitution d’une base d’apprentissage annotée, par la résolution interactive de problèmes (par exemple de détection ou de segmentation) ou encore par la collecte d’informations implicites issues des usages du contenu. Il existe des liens riches et complexes entre supervision humaine d’algorithmes automatiques et adaptation des contributions humaines via la mise en œuvre d’algorithmes automatiques. Ces liens sont à l’origine de questions de recherche modernes : comment motiver des intervenants humains ? Comment concevoir des scénarii interactifs pour lesquels les interactions contribuent à comprendre le contenu manipulé ? Comment vérifier la qualité des traces collectées ? Comment agréger les données d’usage ? Comment fusionner les données d’usage avec celles, plus classiques, issues d’une analyse automatique ? Notre revue de la littérature aborde ces questions et permet de positionner les contributions de cette thèse. Celles-ci s’articulent en deux grandes parties. La première partie de nos travaux revisite la détection de régions importantes ou saillantes au travers de retours implicites d’utilisateurs qui visualisent ou acquièrent des con- tenus visuels. En 2D d’abord, plusieurs interfaces de vidéos interactives (en particulier la vidéo zoomable) sont conçues pour coordonner des analyses basées sur le contenu avec celles basées sur l’usage. On généralise ces résultats en 3D avec l’introduction d’un nouveau détecteur de régions saillantes déduit de la capture simultanée de vidéos de la même performance artistique publique (spectacles de danse, de chant etc.) par de nombreux utilisateurs. La seconde contribution de notre travail vise une compréhension sémantique d’images fixes. Nous exploitons les données récoltées à travers un jeu, Ask’nSeek, que nous avons créé. Les interactions élémentaires (comme les clics) et les données textuelles saisies par les joueurs sont, comme précédemment, rapprochées d’analyses automatiques des images. Nous montrons en particulier l’intérêt d’interactions révélatrices des relations spatiales entre différents objets détectables dans une même scène. Après la détection des objets d’intérêt dans une scène, nous abordons aussi le problème, plus ambitieux, de la segmentation.

Mots clés

Crowdsourcing Visual content analysis Usage analysis Regions of interest detection Game with a purpose Image processing

Crowdsourcing Analyse de contenu visuel Analyse des usages Détection de régions d’intérêt Jeu sérieux Analyse des images

Domaines

Autre [cs.OH]

Fichier principal

CARLIER_Axel.pdf (6.27 Mo)

Origine	Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-04261727

Soumis le : vendredi 27 octobre 2023-10:28:21

Dernière modification le : jeudi 29 février 2024-13:36:36

Archivage à long terme le : dimanche 28 janvier 2024-18:54:56

Dates et versions

tel-04261727 , version 1 (27-10-2023)

Identifiants

HAL Id : tel-04261727 , version 1

Citer

Axel Carlier. Combining content analysis with usage analysis to better understand visual contents. Other [cs.OH]. Institut National Polytechnique de Toulouse - INPT, 2014. English. ⟨NNT : 2014INPT0085⟩. ⟨tel-04261727⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS STAR UT1-CAPITOLE IRIT IRIT-REVA IRIT-CISO IRIT-INPT TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP THESES-TOULOUSE-INP

61 Consultations

15 Téléchargements