Réalité Virtuelle

13
Université BAJI MOKHTAR

Annaba
Département d’informatique.
Réalité
Conçu par virtuelle.
: MOHAMED EL
MEHDI
LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

13
La réalité virtuelle
Exposé en module : IHM.

Réalisé par : Mohamed el Mehdi.
Université Badji Mokhtar Annaba.

Département d’informatique.
2006/2007.

13
Sommaire
Thématique
Glossaire.
Chapitre 1 : Présentation générale.

Aperçu historique.
Chapitre 2 : Les équipements de la réalité virtuelle.
Chapitre 3 : Exploration de données multimédias par

réalité virtuelle.
Chapitre 4 : Modèles et facteurs humains en IHM –

Application à la réalité virtuelle.

13
GLOSSAIRE.
Avatar
Désigne un être virtuel représentant le joueur d'un jeu

d'aventures ou d'un jeu de rôles. Le joueur se crée une identité
virtuelle ayant un nom, un âge et une fiche de caractéristiques.
Affichage à cristaux liquides - liquid crystal display (LCD)

–
Type d’affichage qui utilise un composé liquide avec une

structure moléculaire polaire, placé entre deux électrodes
transparentes. Lorsqu’un champ électrique est appliqué, les
molécules s’alignent selon le champ en formant une
organisation cristalline qui polarise la lumière qui passe à
travers. Un filtre polarisant croisé disposé sur l’écran bloque
alors la lumière. De cette façon, une grille d’électrodes peut
sélectivement « allumer » une cellule ou un pixel contenant les
cristaux liquides, et les rendre noirs. Dans certains types
d’affichage à cristaux liquides, un panneau électroluminescent
est placé derrière l’écran pour l’éclairer. D’autres types
d’affichage à cristaux liquides sont capables de reproduire les
couleurs. Synonyme : affichage LCD.
Capteur - sensor ou grabber –
Dispositif qui détecte ou mesure un phénomène physique

en convertissant de l’énergie non électrique en énergie
électrique. Une cellule photoélectrique, par exemple, détecte ou
mesure la lumière en la convertissant en énergie électrique.
Casque virtuel- head-mounted display (HMD) –
Casque qui comporte deux mini-écrans et des écouteurs

pour créer un environnement 3D et où des capteurs permettent
de récupérer les mouvements de la tête pour lui donner une
impression de déplacement dans l’espace. Il fait partie des
dispositifs de réalité virtuelle.

13
Cyberespace
Le terme "Cyberespace"
désigne l'univers virtuel, la
dimension informatique et
communicante, le lieu où est
plongé tout utilisateur de
services en ligne. L'espace est
redéfini, à la mesure des
nouveaux systèmes de
communication alliés à la
puissance de l'informatique.
Data mining
Étude des données d’une data warehouse pour en extraire

des tendances dans le temps, par exemple les habitudes
d’achat des consommateurs de moins de 30 ans.
Image de synthèse - computer-generated image –
Image générée sur ordinateur à l’aide de calculs

mathématiques. Par oppositions aux images que le graphiste
obtient à l’aide d’un logiciel de dessin tel qu’ Adobe Photoshop
ou du scan d’une illustration papier ou encore d’un appareil
photo numérique. Le plus souvent, les images de synthèses
sont conçues en 3D et animées. Elles peuvent rechercher un
certain réalisme ou représenter les formes très abstraites d’un
modèle mathématique.
Gant de données - data glove –
Gant pourvu de capteurs, utilisé avec certaines

applications de réalité virtuelle. Les mouvements de la main et

13
des doigts sont transmis à l’application pour donner à

l’utilisateur l’impression qu’il interagit avec l’environnement.
Gant détecteur - sensor glove –
Dispositif d’entrée informatique porté sur la main, destinés

à des environnements de réalité virtuelle. Le gant traduit les
mouvements des doigts de l’utilisateur en commandes pour
manipuler des objets dans l’environnement.
Gant sensitif
Dispositif d'entrée se présentant sous la forme d'un gant

recouvert de capteurs reliés à l'ordinateur. Le gant sensitif
permet de commander des programmes de réalité virtuelle et
d'y déplacer des objets virtuels. Composant matériel, il est
représenté dans ces programmes sous la forme d'une main.
Réalité virtuelle - virtual reality (VR) –
Simulation en 3D d’un espace créé par ordinateur.

L’utilisateur se déplace et agit dans cet environnement. Dans
les systèmes VRles plus sophistiqués, des lunettes écran et des
gants de données permettent à l’utilisateur de voir ses
mouvements intégrés à l’univers simulé.
Stéréoscope
Appareil permettant de voir une image en relief par

examen d'un couple stéréoscopique.
Stéréoscopie
Procédé donnant l'impression du relief par examen de

deux images d'un sujet prises avec un écartement comparable
à celui des yeux.
Simulation - simulation –
Imitation d’un processus physique ou d’un objet par un

programme : l’ordinateur répond alors mathématiquement à

13
des données et modifie certaines conditions comme s’il était le

processus ou l’objet lui-même.
Synthèse vocale - speech synthesis ou voice synthesis –
Capacité d’un ordinateur à produire des mots « parlés »,

soit à partir de sons préenregistrés et reconstitués, soit en le
programmant pour qu’il produise des sons semblables aux mots
parlés.

13
Présentation générale.
1.présentation :
Virtuelle, réalité, système qui permet à un ou plusieurs

utilisateurs de regarder, de se déplacer et de réagir dans un
univers simulé par ordinateur.
Un dispositif de réalité virtuelle (RV) doit réagir en temps réel

aux interactions de l'utilisateur afin d'accentuer son sentiment
d'immersion. L'utilisateur est immergé dans la réalité virtuelle
soit directement à l'aide d'écrans ou de lunettes, soit
indirectement par le biais d'un avatar (ou personnage virtuel) le
représentant au sein du monde virtuel.
2.Principe :
Un système de réalité virtuelle repose sur divers dispositifs

d'interface qui permettent aux utilisateurs de voir, de toucher,
de prendre et même de manipuler des objets virtuels. Les
mondes virtuels et tout ce qu'ils contiennent- y compris les
images de synthèse des participants - sont représentés par des
modèles mathématiques et par des programmes informatiques
(techniques de modélisation).
Les simulations de réalité virtuelle diffèrent des autres

simulations informatiques par leur exigence de dispositifs
d'interface spéciaux. Ces dispositifs transmettent en temps réel
les aspects, les sons et les sensations de mondes simulés à
l'utilisateur. Ils enregistrent et envoient aussi les propos et les
mouvements des participants aux programmes de simulation.
Plutôt que d'utiliser un clavier ou une souris pour communiquer
avec l'ordinateur, ces dispositifs spéciaux permettent de se
déplacer, d'agir et de communiquer avec l'ordinateur par des
moyens plus proches des situations de la vie quotidienne. Ce

13
style naturel d'interaction et la possibilité de regarder autour de

soi donnent au participant la sensation d'être immergé dans le
monde simulé.
Les progrès technologiques améliorent le réalisme de la réalité

virtuelle mais ne lui permettent pas encore d'égaler la réalité
physique. Aussi l'intérêt principal de la réalité virtuelle réside
aujourd'hui dans sa capacité à nous permettre d'évoluer à des
échelles inhabituelles dans des objets de la réalité physique ou
au sein de représentations de constructions mathématiques
abstraites et complexes.
Aperçu historique.
Bien que la réalité virtuelle ne soit que récemment

parvenue à l'attention du public, des chercheurs travaillent sur
les interfaces sensorielles et motrices depuis de nombreuses
années. Les premières versions de CRV remontent aux
années 1960 ; elles sont signées Raymond Goertz, de l’Argonne
National Laboratory (ANL), et Ivan Sutherland, du
Massachusetts Institute of Technology (MIT). Plus tard, Goertz
et Michael Noll des Laboratoires Bell seront à l’origine du
développement de prototypes de dispositifs à retour d'effort.
Depuis la fin des années 1990, les dispositifs de réalité virtuelle

connaissent des progrès spectaculaires, liés principalement à la
croissance exponentielle de la puissance de calcul des micro-
ordinateurs et de leur capacité de mémoire. Cette révolution
informatique, doublée d’une révolution technologique
stigmatisée par l'apparition des petits afficheurs à cristaux
liquides (LCD) pouvant être utilisés dans les CRV, contribuent
au développement et à l'utilisation par les scientifiques, dans de
nombreux laboratoires, de simulations en réalité virtuelle. La
réalité virtuelle est ainsi devenue un outil incontournable pour
explorer et manipuler des données expérimentales par des
moyens auparavant impossibles.

13
Les équipements de réalité virtuelle

13
La réalité virtuelle, c'est tout d'abord la possibilité de voir

quand bon le semble le monde virtuel se dérouler sous ses
yeux, ce qui implique une animation en temps réel, donc une
capacité pour l'ordinateur de produire des images à la vitesse
vidéo (25 images par seconde). Ce n'est que ces dernières
années que les stations graphiques commencent à offrir de
telles possibilités sur le marché.
Le second aspect important est la possibilité de
communiquer et d'interagir avec ce monde virtuel.
Pendant très longtemps, le seul moyen de communiquer
avec l'ordinateur était le clavier, dérivé de la machine à écrire.
Le clavier est certes très utile pour le traitement de texte mais
il n'est certainement pas le moyen idéal de communiquer
rapidement de manière visuelle. Grâce à la souris, objet
aujourd'hui présent pratiquement sur chaque station de travail,
nous avons pu interagir plus rapidement. Cependant l'usage de
la souris est fondamentalement bidimensionnel alors que les
mondes virtuels sont tridimensionnels.
Il a fallu créer de nouveaux instruments permettant de
communiquer à l'ordinateur des informations de nature
tridimensionnelle.
Mais comment faire connaître à un ordinateur une position
et une orientation dans l'espace alors que nous disposons d'un
écran plan comme support d'image ? Deux techniques
principales existent: l'une basée sur les ultrasons et l'autre
basée sur des champs magnétiques; dans ce dernier
domaine, le dispositif le plus populaire est le Polhemus. A
partir de ces techniques de base, de nouveaux périphériques
d'ordinateur sont nés. Les deux plus connus sont le gant de
données (DataGlove) et le casque de visualisation (head-
mounted displays).
Une configuration minimale pour travailler en trois
dimensions comprend donc une station graphique capable de
générer des images 3D en temps réel, la possibilité d'afficher
des images stéréo ou de changer le point de vue de manière
continue et un ou plusieurs périphériques permettant la

13
spécification directe de positions et orientations dans l'espace

pour la manipulation directe en 3D. Une meilleure sensation de
présence peut être donnée par une configuration immersive,
avec un casque de visualisation et des périphériques de suivi
attachés à différentes parties du corps: la main, la tête. A ces
configurations de base, on peut ajouter d'autres périphériques
pour augmenter la sensation d'immersion, fournir des
informations non visuelles et permettre des analyses gestuelles
sophistiquées. La Figure 5-1 présente une telle configuration: Le
périphérique de suivi le plus utilisé dans le domaine des
environnements virtuels est basé sur un principe magnétique: il
s'agit du système Polhemus. Ce périphérique est composé de
trois éléments:
• une source magnétique, formée de trois bobines
magnétiques mutuellement perpendiculaires émettant un
champ magnétique quand elles sont traversées par un
courant magnétique
• un capteur construit de la même façon à partir de trois
bobines qui génèrent un courant électrique quand elles
sont placées dans le champ magnétique généré par la
source
• un boîtier de contrôle, qui contient les circuits
électroniques qui composent le système. Le boîtier peut
être relié à l'ordinateur à travers une ligne série RS232 ou
RS422.

13
Lorsque le Polhemus est en fonction, la source émet

successivement trois champs magnétiques mutuellement
perpendiculaires qui induisent un courant dans les trois bobines
du capteur. A partir de
l'intensité de ces courants, qui dépend de la position relative du
récepteur par rapport à la source, le système calcule la position
et l'orientation du capteur. Le champ magnétique étant de
faible intensité, il n'est pas possible d'utiliser le système pour le
suivi dans des grands espaces: par exemple, le Polhemus
Isotrak (voir Figure 5-2) offre un espace de travail d'environ un
mètre cube.

13
Le gant de données (Figure 5-3) se présente comme un

gant de nylon muni d'un capteur Polhemus pour mesurer la
position et l'orientation de la main et de capteurs optiques le
long des doigts.
Ces capteurs mesurent les angles de flexions des doigts.
Ainsi à chaque instant, l'ordinateur a connaissance de la
position de la main et des doigts de l'opérateur. Ce dernier peut
alors faire des gestes et l'ordinateur les capte. Les positions de
la main et des doigts sont en fait transmis à un programme
d'ordinateur.
Mais que va faire ce programme de ces informations ? C'est là

que l'imagination du programmeur va jouer son rôle. Une
première idée qui vient à l'esprit est de manipuler une main de
synthèse semblable à celle de l'opérateur. Ainsi quand
l'opérateur ouvre sa main, celle de synthèse fait de même ce
qui permet à l'opérateur de manipuler ainsi des objets du
monde virtuel, ou même de sculpter un objet virtuel de ses
mains. Une seconde possibilité d'utilisation du gant est de
donner d'autres interprétations aux gestes de l'opérateur. Ainsi,

13
par exemple, on peut imaginer que l'opérateur peut lever son

index pour indiquer à l'ordinateur qu'il doit créer un cube, puis
tourner la main pour faire tourner le cube. On peut tout aussi
bien commander les expressions d'un visage à l'aide de la
main. Rien ne s'oppose d'ailleurs à utiliser le langage des
sourds-muets pour communiquer du texte par gestes à un
ordinateur. L'ordinateur peut aussi piloter un dispositif
mécanique comme un bras de robot par exemple. Cette
correspondance entre les mouvements des doigts d'une main et
d'un autre objet n'est d'ailleurs pas nouvelle; les
marionnettistes l'exploitent depuis si longtemps. Pour
permettre à l'ordinateur de reconnaître des gestes, il faut qu'ils
les apprennent selon des techniques d'apprentissage.
Dans ce domaine, ce sont les réseaux de neurones
artificiels auquel on va faire appel. Ainsi par exemple, de
simples gestes nous permettent de créer des formes dans
l'espace, de manipuler des caméras et des projecteurs.
Le principe de mesure du DataGlove est le suivant:
• des fibres optiques passent sur le dessus des doigts,
attachées au gant de manière à être pliées à chaque
flexion d'une articulation;
• une diode est montée à un bout de chaque fibre optique
et un phototransistor mesure la lumière à l'autre
extrémité;
• la flexion des doigts modifie le chemin de la lumière à
l'intérieur de la fibre, ce qui permet une estimation des
angles de flexion des doigts.
Le périphérique mesure la flexion de deux (ou des trois selon
le modèle) articulations de chaque doigt. Un capteur Polhemus
Isotrak, monté sur le dos de la main, est utilisé pour mesurer la
position et l'orientation de la paume.
Le second dispositif le plus populaire est le casque de
visualisation ("head-mounted display") (Figure 5-4). C'est un
système qui se présente sous forme de deux écrans couleurs à
cristaux liquides montés comme les verres de très grosses
"lunettes". L'opérateur qui porte ce dispositif voit donc
directement devant ses yeux les deux écrans. Le dispositif est
aussi muni d'un capteur Polhemus qui détecte la position et
l'orientation exactes de la tête de l'usager en temps réel. Ces
données sont transmises à un programme d'ordinateur. Le
programme va alors calculer très rapidement deux images
correspondant aux vues des deux yeux de l'observateur, et les

13
images seront envoyées sur les deux écrans. Tout l'intérêt de la

technique, c'est que ces vues seront celles du monde virtuel.
Ainsi, lorsque l'opérateur tournera la tête, le programme le
sachant affichera les nouvelles vues et donnera l'impression à
l'opérateur qu'il est à l'intérieur du monde virtuel. Le fait d'avoir
une vue pour chaque oeil crée un effet stéréoscopique donnant
une perception tridimensionnelle et augmente ainsi le réalisme
de la scène. A ce stade, il est donc possible d'introduire une
personne réelle à l'intérieur de n'importe quel monde virtuel, la
faire ainsi se promener, par exemple, sur la planète Mars, ou à
l'intérieur d'un corps humain, ou encore dans un bâtiment fictif.
Il est aussi possible de lui faire rencontrer des êtres de
synthèse.
Le
s dispositifs d'affichage stéréoscopique utilisent tous des
surfaces d'affichage basées sur des écrans. Par conséquent,
l'accommodation est fixe, ce qui introduit un découplage entre
l'accommodation et la convergence lors de l'observation d'un
objet particulier. Dans notre vie réelle, ces deux fonctions vont
toujours de pair et l'utilisateur doit apprendre à contrôler
séparément la rotation des yeux et l'accommodation.
Suivant les applications envisagées, deux types de casque
ont été construits (Figure 5-5). Pour les applications où
l'immersion totale de l'opérateur dans un environnement est
requise, on utilise des casques dits immersifs, où les seules
images perçues par l'opérateur sont celles représentant

13
l'environnement simulé dans lequel il effectue sa tâche. Pour

d'autres applications, où l'objectif est d'étendre nos systèmes
sensitifs à l'aide de systèmes d'information, on préfère des
casques non immersifs, afin de superposer les images
générées par le système informatique à la perception visuelle
de l'environnement réel. On parle alors de Réalité
Augmentée.
La perception de distance peut être améliorée en donnant

aux participants une perception binoculaire du monde
synthétique. Cela peut être fait dans une configuration non
immersive par l'utilisation de lunettes stéréo (voir Figure 5-6).
Les principaux avantages de cette technologie par rapport

à l'utilisation de casques sont le faible encombrement, la
possibilité de voir en même temps les images du monde réel et
la bonne qualité des images. L'inconvénient principal est que
les participants n'ont pas l'illusion d'être immergés dans un
monde synthétique, ce qui peut être un inconvénient pour
certaines application (par exemple les walkthrough).Comme
modèle courant de lunettes stéréo, nous pouvons considérer
lesCrystalEyes. Leur principe de fonctionnement est simple:

13
• La station graphique doit être positionnée en mode stéréo:

dans ce mode, l'écran affiche alternativement à grande
fréquence (120Hz) deux images, qui doivent correspondre à
la vision depuis l'oeil gauche et à celle depuis l'oeil droit;
• Un boîtier transmet un signal de synchronisation à la fin de
l'affichage de chaque image;
• Les lunettes masquent alternativement l'oeil droit et l'oeil
gauche à la réception des signaux de synchronisation. Le
masquage est effectué à l'aide d'écrans LCD.
On peut utiliser un capteur de position et d'orientation pour
obtenir les informations permettant de recalculer le volume de
vision à chaque image de manière à donner au participant la
sensation de regarder à travers une fenêtre. Bien sûr, on peut
combiner le gant avec les lunettes, permettant par exemple à
l'humain de s'approcher d'objets de synthèse et de les saisir, et
pourquoi pas de prendre la main d'une créature de synthèse.
Tous les fantasmes sont permis. Il y a pourtant une limitation
de taille: que va ressentir la personne qui saisit une orange de
synthèse ou caresse la joue d'un acteur virtuel?
Avec le gant, il n'y a pour le moment pas encore de sensation
de toucher, ni de résistance. C'est là qu'est le principal obstacle
à la réalité virtuelle. Il faudrait pouvoir créer des dispositifs
permettant à l'ordinateur de recréer nos sens. Or aujourd'hui, il
est possible de créer la vue et l'ouie. L'ordinateur peut fournir à
l'être humain des images correspondant à une vue sur le
monde virtuel; il peut aussi créer des sons sensés provenir du
monde virtuel, comme par exemple faire créer l'acteur de
synthèse dont on serre fort la main.
Créer la sensation du toucher est beaucoup plus compliquée.
Mais déjà la compagnie américaine VPL a annoncé un gant
capable de donner une certaine sensation de toucher et une
capacité de résistance lorsqu'on saisit un objet virtuel dur.
D'autres équipements permettent encore de faciliter cette
intégration de la machine et de la personne.
On peut citer, par exemple, la souris tridimensionnelle,
extension de la souris bidimensionnelle ou la "SpaceBall" (voir
Figure 5-7), fabriquée par Spatial Systems, qui est un
périphérique permettant la
détection de forces et torsions sur 6 degrés de liberté.

13
Composé d'une boule rigide et d'un ensemble de capteurs de

pression, elle offre une position d'utilisation confortable grâce à
sa base plastique conçue pour un soutien de l'avant bras de
l'utilisateur. Les positions et les orientations sont spécifiées en
poussant ou tournant la sphère dans la direction du mouvement
désiré. La Spaceball est assez bien adaptée au déplacement
d'objets dans l'espace et à la spécification de la caméra
virtuelle. La métaphore d'interaction, reposant sur le principe
que la sphère est l'objet manipulé, est aisément assimilée. De
plus, sa nature incrémentale et sa construction offrent une
certaine résistance, ce qui aide les participants à calibrer leurs
mouvements. Le périphérique demande toutefois une période
d'entraînement, notamment pour le contrôle indépendant de
chaque degré de liberté.
Une autre approche intéressante que nous expérimentons
d'ailleurs est l'utilisation d'un clavier de synthétiseur pour
donner à l'ordinateur une multitude d'informations en un temps
donné. En effet, si nous considérons un pianiste, il a la liberté
de peser sur chaque touche avec la force et la durée qu'il veut.
De façon semblable, chaque touche d'un synthétiseur peut être
codée de manière spécifique et fournir à l'ordinateur une
information différente avec la durée et l'intensité
correspondantes. Le programme d'ordinateur peut, en réaction
aux actions de l'opérateur, animer par exemple les muscles du
visage d'un personnage. Enfin, comme le "DataGlove" permet
de connaître tout sur la main de l'opérateur, le "DataSuit", sorte
de costume en une pièce mis sur un acteur réel et relié par des
fils à l'ordinateur, permet à ce dernier de capter les
mouvements du corps de l'opérateur. Mais il est encore plus
courant d’utiliser des capteurs tel que nous l’avons expliqué
dans la section d’animation. En plus du développement
fulgurant des images par ordinateur, il faut considérer l'essor
considérable des réseaux informatiques et de

13
télécommunications qui peuvent maintenant transporter très

rapidement des informations de nature très diverses telle que
les images, le son, les séquences de télévision, la parole, les
résultats de calculs, les graphiques, etc... En utilisant les
techniques de la réalité virtuelle, il est maintenant possible de
communiquer à l'autre bout du monde des gestes, des forces,
des positions, des attitudes et de contrôler ainsi n'importe quel
équipement, n'importe où. En d'autres termes, on peut utiliser
des outils de communication pour manipuler de l'équipement
qui est à des milliers de kilomètres tout en ayant l'impression
de manipuler directement l'équipement. Ceci n'est possible que
par l'immersion de l'opérateur dans un monde virtuel recréant
le monde éloigné.
C'est la téléprésence ou la téléopération. La réalité
virtuelle n'en est qu'à ses débuts, et déjà de nouveaux
dispositifs apparaissent, plus légers et plus performants. De
plus en plus, l'ordinateur va être capable de reconnaître les
gestes de la personne en face de lui. Grâce au traitement
d'images, il est également possible d'analyser, par une caméra
vidéo, une personne et d'en tirer des informations sur elle, ses
expressions. La reconnaissance et la synthèse des sons et plus
particulièrement de la parole, va encore renforcer cette
symbiose entre la machine et la personne.
Logiciels, Différentes architectures ont été proposées
pour modéliser des applications d'environnements virtuels, un
domaine assez vaste et avec des buts multiples. Par exemple:
• Minimal Reality a comme but primaire l'intégration de
plusieurs périphériques dans un environnement distribué;
• World Toolkit est une bibliothèque commerciale d'outils pour
la création d'applications d'environnements virtuels.;
• Reality Built for Two est un système commercial pour le
prototypage rapide d'applications d'environnements virtuels
à l'aide d'une interface de programmation visuelle
• dVS est un système commercial développé par DIVISION LTD
en Angleterre.
Dans les annexes, nous présentons deux systèmes
développés à l’EPFL (LIG): VB2 et VLNET.

13
Appendix: Extrait de l’article VB2: AN ARCHITECTURE

FOR INTERACTION IN SYNTHETIC WORLDS par
E.Gobbetti, J.F.Balaguer et D.Thalmann, Proc. UIST, 1993
VB2 is an object-oriented architecture designed to allow rapid
construction of applications using a variety of 3D devices and
interaction techniques. The goal of the system is to put the user
in the loop of a real-time simulation, immersed in a world which
can be both autonomous and dynamically responsive to its
actions.
A VB2 application is composed of a group of processes communicating

through inter-process communication (IPC). Figure A- 1 shows the typical
configuration of an immersive application. Processes are represented as
circles, while arrows indicate the information flow between them. As in the
Decoupled Simulation Model , each of the processes is continuously
running, producing and consuming asynchronous messages to perform its
task. A central application process manages the model of the virtual world,
and simulates its evolution in response to events coming from the
processes that are responsible for reading the input device sensors at
specified frequencies. Sensory feedback to the user can be provided by
several output devices. Visual feedback is provided by real-time rendering
on graphics workstations, while audio feedback is provided by MIDI output
and playback of pre-recorded sounds. The application process is by far the
most complex component of the system. This process has to respond to
asynchronous events by making the virtual world's model evolve from one
coherent state to the next and by triggering appropriate visual and audio
feedback. During interaction, the user is the source of a flow of
information propagating from input device sensors to manipulated models.
Multiple mediators can be interposed between sensors and models in
order to transform the information accordingly to interaction metaphors.

13
Dynamic Model
In order to obtain animated and interactive behaviour, the system has

to update its state in response to changes initiated by sensors attached to
asynchronous input devices such as timers or trackers. The application
can be viewed as a network of interrelated objects whose behaviour is
specified by the actions taken in response to changes in the objects on
which they depend. To provide a maintenance mechanism that is both
general enough to allow the specification of general dependencies
between objects and efficient enough to be used in highly responsive
interactive systems, we decided to model the various aspects of the
system's state and behaviour using different primitive elements:
• Active variables are used to store the state of the system;
• Domain-independent hierarchical constraints, to declaratively represent
long- lived multi-way relations between active variables;
• Daemons to react to variable changes for imperatively sequencing
between different system states.
In this way, imperative and declarative programming techniques can be
freely mixed to model each aspect of the system with the most
appropriate means. The system's description becomes largely static, and
its behaviour specified by the set of active constraints and daemons. A
central state manager is responsible for adding, removing, and
maintaining all active constraints using an efficient local propagation
algorithm, as well as managing the system time and activating daemons.
Active Variables and Information Modules

13
Active variables are the primitive elements used to store the system
state. An active variable maintains its value and keeps track of its state
changes. Upon request, an active variable can also maintain the history of
its past values. A variable's history can be accessed using the variable's
local time, which is incremented at each variable's state change, or using
the system's global time. By default, global time is advanced at each
constraint operation, but it is also possible to specify sequences of
constraint operations to be executed within the same time slice by
explicitly parenthesizing them. This simple model makes it possible to
elegantly express time dependent behaviour by creating constraints or
daemons that refer to past values of active variables.
All VB2 objects are instances of classes in which dynamically
changing information is defined with active variables related through
hierarchical constraints. Grouping active variables and constraints in
classes permits the definition of information modules that provide levels of
abstraction that can be composed to build more sophisticated behavior.
Modifying some active variables of an information module is performed
inside a transaction. Transactions are used to group changes on active
variables of the same module. A module can register reaction objects with
a set of active variables for activation at the end of transactions. Reactions
are used to enforce object invariant properties as well as to maintain
relationships between sets of active variables that cannot be expressed
through regular constraints. A typical use of reactions is to trigger
corrective actions that keep a variable's value within its limits. The
reaction code is imperative and may result in the opening of new
transactions on other modules as well as in the invalidation of the value of
modified variables. All the operations performed during a transaction are
considered as occurring within the same time slice.
Hierarchical Constraints
Multi-way relations between active variables are specified in VB2

through hierarchical constraints,. To support local propagation, constraint
objects are composed of a declarative part defining the type of relation
that has to be maintained and the set of constrained variables, as well as
of an imperative part, the list of possible methods that could be selected
by the constraint solver to maintain the constraint. Constraint methods are
not limited to simple algebraic expressions but can be general side-effect
free procedures that ensure the satisfaction of the constraint after their
execution by computing some of the constrained variables as a function of
the others. Algorithms such as inverse geometric control of articulated
chains, state machines, or non-numerical relations such as maintaining
textual representations of various values, can be represented as constraint
methods. This kind of generality is essential for constraints to be able to
model all the various aspects of an interactive application. A priority level
is associated with each constraint to define the order in which constraints
need to be satisfied in case of conflicts. In this way, both required and
preferred constraints can be defined for the same active variable.
Constraints themselves are information modules, and their priority level,

13
as well as their Boolean activation state are represented by active

variables. This makes constraints full-fledged constrainable objects and
allows the specification of higher-order constraints that act on other
constraints to activate or deactivate them, as well as of meta-constraints
that change other constraint priorities in response to the change of some
variable.
Daemons Daemons are the imperative portion of VB2. They are
objects which permit the definition of sequencing between system states.
Daemons register themselves with a set of active variables and are
activated each time their value changes. The action taken by a daemon
can be a procedure of any complexity that may create new objects,
perform input/output operations, change active variables' values,
manipulate the constraint graph, or activate and deactivate other
daemons. The execution of a daemon's action is sequential and each
manipulation of the constraint graph advances the global system time.
Daemons are executed in order of their activation time, which corresponds
to breadth-first traversal of the dependency graph. Daemons can thus be
used to perform discrete simulations. Examples of VB2's daemons are
inverse kinematics simulation for articulated chains and scene rendering
triggers.
Hand Gestures
VB2 uses a gesture recognition system linked to the DataGlove.

Whole-hand input is emerging as a research topic in itself, and some sort
of posture or gesture recognition is now being used in many virtual reality
systems for a detailed overview of whole-hand input). The gesture
recognition system has to classify movements and configurations of the
hand in different categories on the basis of previously seen examples.
Once the gesture is classified, parametric information for that gesture can
be extracted from the way it was performed, and an action in the virtual
world can be executed. In this way, with a single gesture both categorical
and parametric information can be provided at the same time in a natural
way. A visual and an audio feedback on the type of gesture recognized
and on the actions executed are usually provided in VB2 applications to
help the user understand system's behavior. VB2's gesture recognition is
subdivided into two main portions: posture recognition, and path
recognition. The posture recognition subsystem is continuously running
and is responsible for classifying the user's finger configurations. Once a
configuration has been recognized, the hand data is accumulated as long
as the hand remains in the same posture. The history mechanism of active
variables is used to automatically perform this accumulation. This data is
then passed to the path recognition subsystem to classify the path. A
gesture is therefore defined as the path of the hand while the hand fingers
remain stable in a recognized posture. In our case, the beginning of an
interaction is indicated by positioning the hand in a recognizable posture,
and the end of the interaction by relaxing the fingers. One of the main
advantages of this technique is that, since postures are static, the learning
process can be done interactively by putting the hand in the right position

13
and indicating when to sample to the computer. Once postures are learnt,
the paths can be similarly learnt in an interactive way, using the posture
classifier to correctly segment the input when generating the examples.
Many types of classifiers could be used for the learning and recognition
task. In the current implementation of VB2, feature vectors are extracted
from the raw sensor data, and multi-layer perceptron networks are used to
approximate the functions that map these vectors to their respective
classes.
The gesture recognition system is a way to enhance the data coming from
the sensors with classification information and thus provides an
augmented interface to the device. This is modelled in VB2 by explicitly
representing these higher- level views of devices as dynamic objects with
a set of active variables representing the augmented information, the
gesture-recognition system being represented as a multiple-output
constraint responsible for maintaining the consistency between the device
data and the high-level view. Application objects can then bind constraints
and daemons to both low- and high-level active variables to program their
behavior.
Virtual Tools
The amount of information that can be controlled on a three-

dimensional object and the ways that could be used to control it are
enormous. Gestural input techniques and direct manipulation on the
objects themselves offer only partial solutions to the interaction problem,
because these techniques imply that the user knows what can be
manipulated on an object and how to do it. The system can guide the user
to understand a model's behavior and interaction metaphors by using
mediator objects that present a selective view of the model's information
and offer the interaction metaphor to control this information. We call
these objects virtual tools.

13
VB2's virtual tools are first class objects, like the widgets of UGA ,
which encapsulate a visual appearance and a behavior to control and
display information about application objects. The visual appearance of a
tool must provide information about its behavior and offer visual semantic
feedback to the user during manipulation. Designing interaction tools is a
difficult task, especially in 3D where the number of degrees of freedom is
much larger than in 2D. Therefore, experimentation is necessary to
determine which tools are needed and how these tools must be organized
to build a powerful workspace. In VB2, virtual tools are fully part of the
synthetic environment. As in the real world, the user configures its
workspace by selecting tools, positioning and orienting them in space, and
binding them to the models he intends to manipulate. When the user binds
a tool to a model, he initiates a bi-directional information communication
between these two objects which conforms with the multiple-threaded
style of man-machine dialogue supported by VB2. Multiple tools may be
attached to a single model in order to simultaneously manipulate different
parts of the model's information, or the same parts using multiple
interaction metaphors. The tool's behavior must ensure the consistency
between its visual appearance and the information about the model being
manipulated, as well as allow information editing through a physical
metaphor. In VB2, the tool's behavior is defined as an internal constraint
network, while the information required to perform the manipulation is
represented by a set of active variables. The models that can be
manipulated by a tool are those whose external interface matches that of
the tool. The visual appearance is described using a modelling hierarchy.
In fact, most of our tools are defined as articulated structures that can be
manipulated using inverse kinematics techniques, as tools can often be
associated with mechanical systems.
Virtual Tool Protocol
The user declares the desire to manipulate an object with a tool by

binding a model to a tool. When a tool is bound, the user can manipulate
the model using it, until he decides to unbind it.

13
Tools have a bound active variable that references the manipulated

model. Binding a model to a tool consists of assigning to bound a
reference to a manipulatable model, while setting bound to a void
reference will unbind the tool. When binding a model to a tool, the tool
must first determine if it can manipulate the given model, identifying on
the model the set of public active variables requested to activate its
binding constraints. Once the binding constraints are activated, the model
is ready to be manipulated. The binding constraints being generally bi-
directional, the tool is always forced to reflect the information present in
the model even if it is modified by other objects. When a tool is bound to a
model, the user can manipulate the model's information through a
physical metaphor. This iterative process composed of elementary
manipulations is started by the selection of some part of the tool by the
user, resulting in the activation of some constraint such as, for example, a
motion control constraint between the 3D cursor and the selected part.
User input motion results in changes to the model's information by
propagation of device sensor values through the tool's constraint network,
until the user completes the manipulation by deselecting the tool's part.
Gestural input techniques can be used to initiate and control a tool's
manipulations, for example by associating selection and deselection
operations to specific hand postures. Unbinding a model from a tool
detaches it from the object it controls. The effect is to deactivate the
binding constraints in order to suppress dependencies between tool's and
model's active variables. Once the model is unbound, further manipulation
of the tool will have no effect on the model. All binding constraints
reference the model's variables using indirect paths through the tool's
bound variable. Second-order control is used to ensure simultaneous
activation and deactivation of all the tool's binding constraints every time
the value of the bound variable changes.

13
A Simple Tool: Dr. Plane
Dr. Plane is a tool that manipulates a shape whose geometry is a

plane. In VB2, a plane geometry is a meshed object defined on the plane
XY and defined by two active variables, its width and its height. The
information required by the tool to achieve manipulation is composed of
three variables: the width and height of the plane, used to control its size,
and its global transformation, used to ensure that the tool's position and
orientation reflect those of the manipulated shape. The visual appearance
of the tool is defined as a set of four markers, two for the display and
manipulation of the width information and two for the height. This
redundancy is introduced so that one of the markers be always accessible
from any viewpoint. Each marker is associated with a single translational
degree of freedom between the origin and the border of the plane. Width
control and display is achieved by placing equality constraints between
the value of the two degrees of freedom associated with the width
markers. The width variable is constrained to be equal the value of one of
the degrees of freedom. Height manipulation is implemented similarly.
Composition of Virtual Tools
Since virtual tools are first class dynamic objects in VB2, they can be
assembled into more complex tools much in the same way simple tools
are built on top of a modelling hierarchy. The reuse of abstractions
provided by this solution is far more important than the more obvious
reuse of code. An example of a composite tool is Dr. Map, which is a
virtual tool used to edit the texture mapping function of a model by
controlling the parallel projection of an image on the surface of the
manipulated model. The tool is defined as a plane on top of which is
mapped the texture, a small arrow icon displaying the direction of
projection. In order to compute the mapping function to be applied to the
model, the tool needs to know the texture to be used, the position and
orientation of the model in space, and the position and orientation of the
tool in space. The textured plane represents the image being mapped, and
a Dr. Plane tool allows manipulation of the plane in order to change the
aspect ratio of the texture's image. The constraint c_mapping uses the
model's and tool's transformations, the texture, and the width and height
values to maintain the mapping function. Similarly, the material editing
tool is built out of a color tool and the light tool is built out of a cone tool.

13
By reusing other tools we enforce consistency of the interface over the

entire system, allowing users to perceive rapidly the actions they can
perform. Building tools by composing the behavior and appearance of
simpler objects is relatively easy in VB2: for example, Dr. Map tool was
built and tested by one person in less than a couple of hours. The fast
prototyping capabilities of the system are very important for an
architecture aimed at experimenting with 3D interaction.
Appendix 2: Extrait de l’article Igor Sunday Pandzic, Tolga K.

Capin, Nadia Magnenat Thalmann, Daniel Thalmann, VLNET: A
Networked Multimedia 3D Environment with Virtual Humans, Proc.
MMM ‘95, Singapore.
Properties of the System
The VLNET system supports a networked shared virtual environment

that allows multiple users to interact with each other and their surrounding
in real time. The users are represented by 3D virtual human actors, which
serve as agents to interact with the environment and other agents. The
agents have similar appearance and behaviours with the real humans, to
support the sense of presence of the users in the environment. The

13
environment incorporates different media; namely sound, 3D models,

facial interaction among the users, images represented by textures
mapped on 3D objects, and real-time movies. Instead of having different
windows or applications for each medium, the environment integrates all
tasks in a single 3D surrounding, therefore it provides a natural interface
similar to the actual world. The environment works as a general-purpose
stream, allowing the usage of various models for different applications. In
addition to user-guided agents, the environment can also be extended to
include fully autonomous human agents which can be used as a friendly
user interface to different services such as navigation. Virtual humans can
also be used in order to represent the currently unavailable partners,
allowing asynchronous cooperation between distant partners.
The Environment
The objects in the environment are classified into two groups: fixed
(e.g. walls) or free (e.g. a chair). Only the free objects can be picked,
moved and edited. This allows faster computations in database traversal
for picking. In addition to the virtual actors representing users, the types
of objects can be: simple polygonal objects, image texture-mapped
polygons (e.g. to include three-dimensional documents, or images in the
environment), etc. Once a user picks an object, he or she can edit the
object. Each type of object has a user-customized program corresponding
to the type of object, and this program is spawned if the user picks and
requests to edit the object.
Virtual Actors
It is not desirable to see solid-looking floating virtual actors in the

environment; it is important to have motion control of the actors to have
realistic behaviors. There are numerous methods for controlling motion of
synthetic actors. A motion control method specifies how the actor is
animated and can be classified according to the type of information it
privileged in animating the synthetic actor. The nature of the privileged
information for the motion control of actors falls into three categories of
motion control method.
• The first approach corresponds to methods heavily relied upon by the
animator: rotoscopy, shape transformation, keyframe animation.
Synthetic actors are locally controlled by the input of geometrical data
for the motion.
• The second way is based on the methods of kinematics and dynamics.
The input is the data corresponding to the complete definition of
motion, in terms of forces, torques, constraints. The task of the
animation system is to obtain the trajectories and velocities by solving
equations of motions. Therefore, it can be said that the actor motions
are globally controlled.
• The third type of animation is called behavioural animation and takes
into account the relationship between each object and the other

13
objects. The control of animation can also be performed at task-level,

but one may also consider the actor as an autonomous creature. The
behavioral motion control of the actor is provided by providing high-
level directives indicating a specific behavior without any other
stimulus.
Each category can be used for guiding virtual actors in the virtual
environment, however it is important to provide appropriate interface for
controlling the motion. In addition, no method alone is convenient to
provide a comfortable interface to accomplish all the motions, therefore it
is necessary to combine various techniques for different tasks.
For the current implementation, we plan to use local methods for the
users to guide their virtual actors for navigating in the virtual environment
and picking objects using various input devices; and behavioral animation
for realistic appearance based on these inputs and the behavioral
parameters, such as talking for navigation and grasping for picking. This
set of behaviors can easily be extended, however these behaviors are
sufficient to perform everyday activities, providing minimum set of
behaviors to attend virtual meetings. The walking behavior is based on the
Humanoid walking model, guided by the user interactively or
automatically generated by a trajectory. This model includes kinematical
personification depending on the individuality of the user. Given the speed
and the orientation of the virtual actor with the personification
parameters, the walking module produces the movement in terms of the
joint values of the articulated body.
The grasping behavior is also important in order to achieve realistic
looking motions of the virtual actors. Although one could apply a physically
correct method, our concern is more on the visual appearance of the
grasping motion. The grasping motion is automated by the user giving
directions on which object to grasp, and the virtual actor doing the
appropriate grasping operation depending on the type of the object. This
operation again combines the animator control with the autonomous
motion.
Facial Gestures
Face is one of the main streams of interaction among humans for

representing intentions, thoughts and feelings; hence including facial
expressions in the shared virtual environment is almost a requirement for
efficient interaction. Although it is also possible to utilize a
videoconferencing tool among the users in a separate window, it is more
appropriate to display the facial gestures of the users in the face of their
3D virtual agent actors in 3D in order to give more natural virtual
environment. We include the facial interaction by texture mapping the
image containing the user's face on the virtual actor's head. To obtain this,
the subset of the image that contains the user's face is selected from the
captured image and is sent to other users. To capture this subset of
image, we apply the following method: initially the background image is
stored without the user. Then, during the session, video stream images
are analyzed, and the difference between the background image and the

13
current image is used to determine the bounding box of the face in the
image. This part of the image is comp reseed using the SGI Compression
Library MVC1 compression algorithm.
Finally, the image is sent to the other users after compression. There is a
possibility to send uncompressed greyscale images instead of using
compression, which is useful if the used machines are not powerful
enough to perform compression and decompression without a significant
overhead. However, with all the machines we used this was not necessary.
If this option is used, the compression can be turned on/off on the sending
side, and the receiving side recognizes automatically the type of images
coming.
At the receiving side, an additional service program is run
continuously in addition to the VLNET program: it continuously accepts the
next images for the users and puts to the shared memory. The VLNET
program obtains the images from this shared memory for texture
mapping. In this way, communication and simulation tasks are decoupled,
decreasing the overhead by waiting for communication. Currently, we are
using the simplified object for representing the head of users' virtual
actors. This is due to the fact that the complex virtual actor face requires
additional task of topologically adjusting the texture image to the face of
the virtual actor, to match the parts of the face (Figure A- 10).
Communication Architecture
We exploit a distributed model of communication, therefore each

user is responsible for updating its local set of data for the rendering and
animation of the objects. There is always one user that determines the
environment. The other users are "invited" and do not need to specify any
parameters, all the data is initially loaded over the network to the local
machine when the user is connected to the shared environment. The
communication is asynchronous. The information about the users' actions
are transmitted to the other users as the actions occur.
The actions can be changing position or orientation of the actors, as
well as grasping or releasing an object. The actions are broadcasted to the
other users in terms of new orientations of the updated objects in space,
or other possible changes. Note that the architecture requires the
broadcasting of the data to all the users in the system. This can create a
bottleneck if there are a lot of users in the environment. To overcome this
problem, we plan to exploit a communication mechanism that makes use
of the geometric coherence of interactions among the virtual actors in the

13
three-dimensional environment. This solution is based on the aura and

nimbus concepts in order to emphasize the awareness among the entities
in the virtual environment. Aura refers to the subspace where an object
has potential to interact with others. In order for two objects to interact,
their auras should intersect. Furthermore, if the auras intersect, then a
test whether the focus of the first object intersects with the nimbus of the
second object. Focus represents the subspace where the object draws its
attention. Nimbus refers to the space where the object makes an aspect of
itself available to other users. If the focus of the first user intersects with
the nimbus of the second object, then it is assumed that the user is
attracted to the object. We make use of the aura and nimbus concepts as
follows: When the data is to be broadcasted, the sending program tests if
the nimbus of the local user intersects with the focus of the other users'
virtual actors. The intersection means that the actors are near to each
other, therefore the local data of the user is sent to the other user. If there
is no intersection with one other actor's focus, it can be assumed that the
actor is too far and does not need the extensive knowledge of the source
user, therefore the change is not sent every time. However, for
consistency, it is necessary to send the local position data every k frames.
The k value could be computed using the distance between the two actors,
however we assume a constant k for the initial implementation.
Fully Autonomous Actors
It is also possible to include additional virtual autonomous actors in

the environment, which represent a service or a program, such as guiding
in the navigation. As these virtual actors are not guided by the users, they
should have sufficient behaviors to act autonomously to accomplish their
tasks. This requires building behaviors for motion, as well as appropriate
mechanisms for interaction.
Applications
As already discussed, VLNET is a general-purpose system. As various

widely-used file formats are supported, it is easy to create a shared
environment consisting of already developed models with other computer
modelling programs, such as AutoCad, Inventor, etc. In this section, we
present some experimental applications currently available with our
system:
Teleshopping: The VLNET system is currently used by Chopard Watches,
Inc., Geneva to collaboratively view and interact with the computer-
generated models of the recently-designed watches with the remote
customers and colleagues in Singapore, and Geneva. The models had
already been developed using AutoDesk program, and these were easily
included in the virtual environment, with the help of 3DS (3D Studio)
reader for Performer.
Business: Experiments are going on for building a virtual room
involving distant users to be able to have a meeting, with the aid of

13
images and movies to be able to discuss and analyze the results.

Entertainment: The VLNET environment is also used for playing chess
between various distant partners; and puzzle solving by two users. These
models have been created using the IRIS Inventor system. Interior design:
Currently experiments are continuing on furniture design by the customer
and the sales representative to build a virtual house. The model has been
created using the WaveFront package.

13
Exploration de données multimédia par

réalité virtuelle.
RÉSUMÉ.
Nous présentons une nouvelle méthode interactive de

visualisation 3D de données multimédia (numériques,
symboliques, sons, images, vidéos, sites Web) en réalité
virtuelle. Nous utilisons un affichage 3D stéréoscopique
permettant de représenter les données numériques.
Nous ajoutons à cet affichage l’apparition de textes
contextuels, l’utilisation de la synthèse vocale, la lecture de
sons, l’affichage d’imagettes ainsi que l’affichage de grandes
images, de vidéos ou de sites web sur une deuxième machine.
La navigation au sein des visualisations est effectuée grâce à
l’utilisation d’un capteur 3D à six degrés de liberté qui simule
une caméra virtuelle. Des requêtes interactives peuvent être
posées à la machine par l’utilisation d’un gant de données
reconnaissant les gestes. Nous montrons comment cet outil est
appliqué sur un cas réel concernant l’étude de la peau humaine
saine.

13
MOTS-CLÉS : fouille visuelle de données, visualisation de données,

interaction utilisateur.
1.Introduction
Le « visual data mining » est un champ de recherche

important dans la fouille (exploration) de données (FD) et
l’extraction de connaissances (ECD). Il s’appuie sur le fait que
l’esprit humain traite facilement des informations visuelles et
en extrait rapidement un grand nombre d’informations et de
connaissances. La visualisation de données représente une
étape critique en FD et en ECD qui peut intervenir par exemple
au début ou à la fin du processus d’extraction (Fayyad et al
1996) : avant d’extraire des connaissances, il peut être utile de
connaître mieux les données afin d’effectuer des choix corrects
dans les méthodes d’ECD à utiliser. Lorsque les connaissances
ont été extraites, l’expert du domaine a besoin d’interpréter ces
dernières pour prendre une décision. Si ces étapes sont
négligées, les outils utilisés peuvent devenir inutiles, et des
décisions erronées peuvent être prises. La plupart des outils et
des applications réelles de l’ECD sont donc concernés par le «
visual data mining ».
Depuis des travaux comme ceux de Fisher sur la base de
données des Iris (Fisher 1936), les représentations des données
ont évolué grâce aux possibilités offertes par les machines.
Dans de nombreux domaines d’application, les bases de
données ne sont plus seulement constituées de données
numériques ou symboliques mais peuvent être également
enrichies par des données sonores, des images, des vidéos, des
adresses web, etc. Aider l’expert du domaine à percevoir ces
nouveaux types de données est un des points que nous
étudions dans cette partie.
L’apparition de la réalité virtuelle a également permis des
avancées importantes dans le domaine de la visualisation et de
l’interaction avec l’utilisateur. Des mondes virtuels peuvent être
construits en combinant un affichage avancé, des capteurs et
des effecteurs. L’affichage s’effectue en temps réel et en 3D,
bien souvent de manière stéréoscopique. Des capteurs 3D

13
détectent les mouvements de l’utilisateur. Des effecteurs à

retour d’effort simulent les effets des actions virtuelles. La
réalité virtuelle rend l’interaction homme-machine très intuitive.
C’est la raison pour laquelle nous étudions également comment
elle peut être utilisée dans le « visual data mining ».
Dans cette partie, nous nous intéressons aux deux points que
nous venons d’évoquer :
aider un expert du domaine à percevoir des
informations/connaissances dans des données multimédia avec
l’aide de la réalité virtuelle. Nous appliquons le système
résultant à des données réelles sur la peau humaine saine.
La suite de cette partie est organisée de la manière suivante :
la section 2 présente un survol des travaux liés au visual data
mining et à la réalité virtuelle. La section 3 décrit notre
approche pour explorer de manière interactive des données
multimédia. La section 4 présente des résultats sur des
données réelles. La section 5 conclut sur les perspectives qui
découlent de ce travail.
2. Le visual data mining et la réalité virtuelle
Comme il est dit dans (Wong et Bergeron 1997), l’analyse

exploratoire de données et donc le visual data mining ne sont
pas uniquement un ensemble d’outils mais une manière
«philosophique» d’approcher le problème de l’extraction de
connaissances.
Deux points importants se distinguent dans le visual data
mining :
• Faciliter la perception des données.
Et.
• Permettre à l’utilisateur d’interagir avec la
représentation des données.
Ces deux points ont été étudiés depuis plusieurs dizaines
d’années dans des domaines proches du visual data mining
(Chernoff 1973) (Bertin 1983) (Card et al 1999) (Becker et
Cleveland 1987) (Pickett et Grinstein 1988) (Tufte 1990)
(Cleveland 1993) (Keim et Kriegel 1996) (Larkin et al 1997)
(Wong et Bergeron 1997) (Friendly 2000) (Unwin 2000). Par
exemple, dans (Chernoff 1973) les données sont représentées
sous la forme de visages dont les caractéristiques (yeux, nez,
position à l’écran, etc.) sont déterminées par les valeurs des
attributs décrivant ces données.

13
C’est une manière de rendre les ressemblances entre

données directement compréhensibles par le cerveau humain
particulièrement entraîné à reconnaître les visages.
Plus récemment, le système MineSet (Brunk et al. 1997)
proposait des visualisations 3D originales et intuitives pour
l’utilisateur. Il pouvait à la fois afficher des données « brutes »
mais également des résultats de l’apprentissage comme des
arbres de décisions, des règles etc. (Thearling et al. 1998).
Visage (Derthick et al. 1997) est un autre exemple dans lequel
une place importante est accordée à l’interaction entre la
visualisation et l’utilisateur : ce dernier peut en effet formuler
des requêtes de manière intuitive et « graphique ». De
nombreux autres travaux présentent des applications du «
visual data mining » dans des domaines comme la médecine
(Symanzik et al. 1999), les bases de données géographiques
(Schumann et Urban 1997) ou comme la météorologie (Macedo
et al. 2000). Ces applications présentent également des
systèmes de visualisation complexes mais on peut néanmoins
considérer qu’elles ont souvent l’inconvénient d’être
spécifiques à un domaine et même à une base de données
précise de ce domaine. Les graphiques visualisés ne sont pas
toujours en 3D et très rarement avec un affichage
stéréoscopique.
La réalité virtuelle peut améliorer largement le visual data
mining (Wegman et al. 1999) (Baker et Wickens 1998), mais il
existe encore peu de systèmes qui l’utilisent.
Par exemple, le système CAVE peut être été utilisé pour
visualiser une base de données (Symanzik et al 1996).
L’utilisateur est face à un grand écran (utilisation d’un vidéo-
projecteur) et perçoit les données en stéréoscopie. Il utilise un
gant de données pour commander le logiciel. Cet outil nous
semble très prometteur pour toutes les possibilités d’interaction
qu’il propose ou proposera dans le futur. Le principal
inconvénient de ce système vient de son coût très élevé pour
une application de visual data mining (environ un million de
dollars).
Comme nous allons le voir dans la suite, nous étudions
comment proposer des représentations de données multimédia
qui aient la qualité graphique 3D des meilleurs outils de visual
data mining tout en utilisant les possibilités interactives de la
réalité virtuelle à un coût le plus faible possible. Notre approche

13
se veut également générique plutôt que dédiée à une base de

données particulière.
Figure 1. Vue globale du système de visualisation interactive
Figure 2. Exemple d’utilisation

3. Exploration interactive de données multimédia

13
3.1. Principes :
Nous considérons que l’expert du domaine a rassemblé
des exemples décrits par des attributs numériques,
symboliques et également des attributs multimédia (sons,
images, vidéos, sites web). Par exemple, dans un domaine
médical on peut décrire des exemples par des attributs comme
« Poids », « Taille », « Age », « Alimentation », «
Radiographie », « Bruits du coeur », « Echographie
», etc. (voir table 1). Pour un attribut image comme «
radiographie », les valeurs sont des noms de fichiers images,
Tableau 1. Exemple d’une base de données fictive dans un

domaine médical
De même pour les sons (comme « bruits du coeur ») ou les

vidéos (comme « échographie »).
Les figures 1 et 2 donnent une vue d’ensemble du système
présenté. La base de données est affichée par des vues 3D sur
un écran principal. Des lunettes LCD permettent à l’utilisateur
de percevoir ces données en stéréoscopie, et la navigation au
sein des données a lieu grâce à un capteur 3D positionné par
exemple sur la main gauche (voir figures 1 et 2). L’utilisateur
donne des commandes et des requêtes interactives par un gant
de données placé par exemple sur la main droite. L’utilisateur
peut sélectionner des données et obtenir ainsi dynamiquement
des informations contextuelles (affichage de textes, synthèse
vocale, fichiers sons). Les images de petite taille sont affichées
sous forme de textures. Les images de grande taille, les vidéos
ainsi que les sites web sont affichés sur l’écran d’une deuxième
machine et peuvent être ainsi observés avec plus de détails. La
navigation effectuée ainsi que les informations affichées
peuvent être exportées au format vidéo.
L’interface utilisateur est très simple et propose toujours des
choix par défaut calculés automatiquement. De cette manière,
un utilisateur non spécialisé en informatique peut utiliser très
facilement notre système. Par ailleurs nous avons toujours

13
cherché à minimiser les coûts liés au matériel qui peuvent

devenir rapidement important dans le domaine de la réalité
virtuelle. Notre système est également générique et peut être
appliqué à de nombreuses bases de données réelles comme
celles issues du « Machine Learning repository » (Blake et Merz
1998).
3.2. Bases de la visualisation
La table 2 résume la manière dont les différents types

d’attributs peuvent être affichés et perçus par l’utilisateur. Une
attention particulière a été portée aux attributs multimédia et à
toutes les techniques pouvant lui permettre de percevoir
simultanément le plus d’informations possible.
Le coeur de la représentation graphique des données est un
nuage de « points » calculé d’après trois attributs numériques.
Ces attributs numériques peuvent être des informations brutes
issues directement des données d’origine ou bien des valeurs
issues par exemple d’une méthode d’analyse des données.
Ces trois attributs sont choisis dans la base de données par
l’utilisateur ou bien par la machine.
Dans ce dernier cas, l’algorithme utilisé consiste à trouver
parmi tous les attributs numériques de la base
Tableau 2. Traitement des attributs numériques, symboliques

et multimédia

13
Figure 3. Nuage de points servant de base à la visualisation

(base des Iris de Fisher)
avec des couleurs (a) et des textures (b) de données le triplet

d’attributs qui va maximiser une mesure de séparabilité (et
donc de lisibilité) des données. Pour un triplet d’attributs
numériques, cette séparabilité est mesurée par les
performances de l’algorithme du 1 plus proche voisin en
utilisant une validation croisée avec la méthode du « leave-one-
out ».
Ces points peuvent être des sphères ou des cubes selon le
choix de l’utilisateur.
Nous pouvons afficher les valeurs d’un attribut symbolique en
affectant une couleur aux points en fonction de valeurs prises
par cet attribut. Par exemple, si un attribut « classe » existe
dans la base de données, alors la couleur des points correspond
aux valeurs de cet attribut (voir figure 3(a)). À cette couleur
peut être ajoutée une image qui est plaqué sous la forme d’une
texture sur chaque point du nuage (voir figure 3(b)).
Cet affichage d’images apporte un gain d’information très
important mais reste limité à de petites images. C’est la raison
pour laquelle nous proposons une architecture à deux machines
(voir section suivante).

13
Figure 4. Sélection d’un point (en (a)) et exemple d’affichage

d’informations contextuelles
sous la forme d’un texte (en (b))
3.3. Sélection des données et informations

contextuelles
À partir de ce nuage de points, l’utilisateur va pouvoir

percevoir de nombreuses autres informations. Un pointeur est
placé au centre de l’écran, et chaque fois que ce pointeur se
trouve sur un point du nuage, des actions vont se déclencher
automatiquement ou manuellement suivant les requêtes de
l’utilisateur (voir section 3.5). Ce pointeur indique qu’un point
est sélectionné en l’entourant d’un maillage blanc (voir figure
4(a)). Dans ce cas, suivant les commandes données avec le
gant de données, les actions suivantes peuvent se déclencher :
• l’affichage d’un texte apparaît pour donner les valeurs des
attributs du point sélectionné (voir figure 4(b)), et
l’utilisateur peut faire dérouler avec le gant de données la
liste des valeurs. L’utilisateur peut ainsi vérifier la valeur de
tous les attributs d’un exemple de la base ;
• La lecture par synthèse vocale de la valeur d’un attribut
numérique ou symbolique. L’utilisation de la synthèse
vocale existe par exemple dans le système CAVE (Symanzik
et al. 1996). Cela permet à l’utilisateur d’obtenir un
complément d’information de manière facilement
compréhensible ;
• La lecture sur les haut-parleurs de la valeur d’un attribut
son ;

13
• L’affichage d’un attribut image de grande taille sur l’écran

d’une deuxième machine connectée en réseau à la
première. Ce deuxième affichage indépendant permet
d’obtenir une visualisation en temps réel de l’image. Il
permet également à l’utilisateur de se déplacer dans
l’image, de faire des zooms, etc. Les vidéos sont gérées de
la même manière, ainsi que l’affichage de sites web.
3.4. Affichage stéréoscopique et navigation
interactive
L’affichage stéréoscopique des données est un point très

important pour l’expert car cela lui permet de comprendre
vraiment la structure 3D des données. Des tests effectués avec
un casque de réalité virtuelle nous ont permis de nous orienter
plutôt vers des lunettes LCD, et ceci pour les raisons suivantes :
le casque est plus lourd, plus fatiguant pour l’utilisateur et
surtout il est mono utilisateur. Les lunettes LCD (Nuvision60 GX)
sont très légères, ne donnent pas de sensation de malaise et
permettent d’utiliser une résolution graphique plus élevée. Elles
permettent à plusieurs personnes de visionner ensemble les
données ce qui est important dans une application de « visual
data mining » où plusieurs experts peuvent comparer leurs
avis. L’affichage est suffisamment rapide et ne donne aucune
sensation de scintillement.
Nous utilisons un mode de navigation interactive très
simple et très intuitif pour l’utilisateur. Un capteur fixé sur la
main permet de placer aisément une caméra virtuelle dans
l’espace 3D. Ce capteur possède 6 degrés de liberté et permet
de définir une position ainsi qu’une orientation dans l’espace
virtuel. Il utilise un capteur magnétique miniature (Ascension
Flock of Birds) qui se manipule très facilement et peut par
exemple se fixer sur un doigt comme une bague. Ensuite, tout
ce passe comme si les points du nuage étaient présents dans
un cube virtuel posé à proximité de l’utilisateur.
En reculant ou en avançant sa main, l’utilisateur effectue
des zooms. Il peut placer la caméra au-dessus des points, mais
aussi au-dessous, à l’intérieur etc. Il peut orienter la caméra
dans toutes les directions. Ce capteur permet également à
l’utilisateur de s’approcher d’un point et ainsi de le sélectionner
ce qui engendre automatiquement des actions de la part du
système (voir section 3.3). La position du cube virtuel peut être
définie par l’utilisateur à l’initialisation. Ainsi, l’utilisateur peut

13
placer les données à sa droite, à sa gauche, dans un cube de

petite taille ou de grande taille. Il peut explorer les données en
étant assis ou debout.
3.5. Commandes intuitives avec un gant de

données
Lors de la visualisation, l’utilisateur est bien souvent

engagé dans un processus complexe de compréhension des
données. Au cours de cette exploration, l’utilisation du clavier
est difficile pour deux raisons :
1. L’utilisateur concentre son attention visuelle sur l’écran,
2. L’utilisateur est souvent loin du clavier ce qui l’oblige par
exemple à se rapprocher.
Nous avons donc opté pour l’utilisation d’un gant de données
très léger et bon marché (Fifth Dimension Tech. 5DT). Ce gant
détecte les mouvements de chacun des doigts en mesurant
simplement leurs rayons de courbure. Il détecte également
l’orientation de la main selon deux axes. Pratiquement toutes
les commandes à l’intérieur de la visualisation décrites dans
cette partie sont effectuées par le gant.
Les gestes détectés sont très simples à apprendre et ces
commandes ne requièrent pas une attention soutenue de
l’utilisateur qui peut se concentrer complètement sur ses
données. Les commandes sont par exemple « geler l’affichage
», « faire dérouler les valeurs affichées », « affichage sur
deuxième machine », etc.
Figure 5. Mode de navigation en vue extérieure (a) et mode

détail (b)

13
3.6. Autres modes de visualisation
Deux modes de visualisation en vues extérieures

permettent de montrer à l’utilisateur sous quel angle il a placé
la caméra (voir figure 5(a)). Le premier mode consiste à
visualiser temporairement les données et la caméra mais vues
d’un point externe.
Les positions relatives des données et de la caméra ne
changent plus. Par contre, l’ensemble de la visualisation peut
pivoter sur elle-même selon les 3 axes. De cette manière
l’utilisateur peut facilement connaître son angle de vue par
rapport aux données.
Le deuxième mode consiste également à visualiser les données
et la caméra d’un point de vue extérieur mais cette fois les
données sont fixes et la caméra est mobile.
L’utilisateur peut ainsi placer la caméra où il veut en
vérifiant d’un point de vue extérieur son emplacement par
rapport aux données. Un mode détail permet d’obtenir en
permanence les informations concernant un point sélectionné
(voir figure 5(b)). Enfin, il est possible d’enregistrer dans une
vidéo la navigation et les différentes actions effectuées par
l’utilisateur.
4. Application aux données sur la peau
Notre outil est générique et ne dépend pas d’une base de

données particulière.
Cela permet d’envisager des applications dans de
nombreux domaines comme la médecine (voir l’exemple fictif
de la table 1) mais il serait possible de représenter aussi des
morceaux de son selon des critères numériques tout en
permettant d’écouter les morceaux, de voir la partition etc.
Nous avons appliqué ce système à une base
de données réelles en collaboration avec le CE.R.I.E.S., un
centre de recherche sur la peau humaine saine financé par
CHANEL. Cette base de données est constituée de 259
exemples qui représentent la description des caractéristiques
visuelles/tactiles de la peau de femmes caucasiennes âgées de
20 à 50 ans. Trente caractéristiques ont été évaluées sur la joue
droite et sur le front à l’aide d’échelles catégorielles. Des
photos de ces zones du visage ont également été prises. Le but
de cette étude est

13
Figure 6. Données réelles sur la peau traitées par notre outil
d’établir une classification de la peau saine du visage, sans

modèle préconçu, à partir des caractéristiques cutanées, en
utilisant des méthodes d’analyse de données multivariées et
le logiciel SAS R ® version 6.12. : une méthode de classification
hiérarchique a été appliquée sur les composantes principales
extraites des données grâce à l’analyse des
correspondances multiples. Finalement, six classes ont été
obtenues, caractérisées principalement par la couleur de la
peau, son aspect gras, sa texture, et d’autres caractéristiques
associées au système vasculaire de la peau. Le lecteur
intéressé peut se reporter à (Guinot et al. 2001) pour plus de
détails.
Notre système est utilisé ici pour permettre à l’expert du
domaine de visualiser et d’explorer la classification trouvée
(voir figure 6). À partir des quatre axes principaux obtenus,
notre système en sélectionne trois pour définir le nuage de
sphères 3D.
Ensuite, chaque sphère prend la couleur de la classe
trouvée pour l’exemple correspondant.
L’expert peut analyser la forme des classes et plus
spécialement leur densité, les cas isolés, les distances relatives
entre classes, les exemples situés à la frontière de deux
classes, etc. L’expert peut obtenir des informations
supplémentaires sur les autres attributs en utilisant la synthèse
vocale par exemple et peut visualiser les photographies de

13
peau correspondant aux exemples. Ce système a été appliqué

avec succès à cette application réelle en confirmant la
classification trouvée par des méthodes d’analyse des données.
Cela montre qu’il est opérationnel et que les choix
matériels/logiciels effectués sont justes. Les atouts de ce
système pour une application industrielle sont sa capacité à
représenter des données multimédia, sa facilité d’emploi et un
coût très faible (moins de 10 000 EUR).
5. Conclusion
Nous avons présenté dans cette partie un système qui

élargit le visual data mining aux données multimédia en
utilisant la réalité virtuelle. Nous avons proposé différents
moyens pour la perception de données comme des imagettes,
des images de grande taille, des sons, des vidéos ou des sites
web. L’utilisation de la réalité virtuelle nous semble être un des
points clés de ce système car cela permet à l’utilisateur
d’interagir de manière directe et intuitive avec les données.
Modèles et facteurs humains en IHM -

Application à la réalité virtuelle.
Résumé.
Notre objectif est d’identifier les facteurs humains qui

influencent la performance lors des tâches de manipulation et
de locomotion en environnement virtuel afin d’adapter les
interfaces aux utilisateurs. L’étude des modèles IHM et de
l’interaction en réalité virtuelle montre la pertinence des
modèles de Card et al. et de Fuchs pour modéliser l’interaction.
De plus, de nombreux résultats expérimentaux montrent

13
l’impact des facteurs cognitifs, socioculturels, biologiques et

idiosyncrasiques sur la performance en réalité virtuelle. En
combinant les approches modélisatrices et expérimentales,
nous proposons une méthodologie d’analyse des tâches de
manipulation et de locomotion en environnement virtuel basée
sur la recherche de corrélations entre performance et facteurs
humains.
Mots-clés : Modélisation, Expérimentation, Interaction Homme
Machine, Réalité Virtuelle, Facteurs Humains
1 Introduction
Dans cette partie, nous nous intéressons aux outils et aux

modèles de l’Interaction Homme Machine (IHM) et de la Réalité
Virtuelle (RV).
Pour étudier l’interaction en RV, nous nous appuyons sur des
modèles issus de l’IHM. Notre objectif est d’identifier les
facteurs humains qui influencent la performance lors d’une
tâche de manipulation ou de locomotion en environnement
virtuel afin d’adapter les interfaces aux utilisateurs.
Les références de l’état de l’art sont issues de l’informatique,
l’ergonomie et la psychologie cognitive. La première étape de
cette étude identifie et critique les modèles de l’interaction
entre un utilisateur et un système informatique (éditeur de
texte, système de RV etc.).
La deuxième étape consiste en une revue de la littérature
expérimentale en IHM et en RV. Ces études identifient les
facteurs humains corrélés avec les performances d’un
utilisateur face à un système informatique. Dans la dernière
partie, nous relions l’approche modélisatrice et les données
expérimentales afin de proposer une méthodologie d’analyse
des tâches de manipulation et de locomotion en environnement
virtuel.
2 Les modèles de l’interaction en IHM et en RV
Dans un premier temps, nous nous focalisons sur les

quatre principaux modèles IHM :
• Le modèle du processeur humain de Card et al.,
• Le modèle ICS de Barnard,
• La théorie de l’action de Norman.

13
• La théorie instrumentale de Rabardel.

Dans un second temps, nous nous intéressons aux deux
principaux modèles de la RV, les modèles de Fuchs et de Verna.
Enfin, nous tentons de déterminer si les modèles IHM sont
transférables à la RV.
2.1 Les modèles en IHM

Le modèle du processeur humain de Card, Moran et
Newell
est issu de la théorie de l’information. Comme l’indique la figure
1, ce modèle se compose de mémoires hiérarchisées (mémoire
à long terme, de travail, iconique et échoïque) et de trois
processeurs : perceptif, cognitif et moteur. Chaque mémoire se
caractérise par sa taille, sa durée et le type d’information
qu’elle traite. Le système perceptif comprend les récepteurs
sensoriels, le processeur perceptif et les mémoires sensorielles
(mémoire iconique et mémoire échoïque). Le système cognitif
comprend le processeur cognitif, la mémoire de travail et la
mémoire à long terme. Le système moteur comprend le
processeur moteur et les effecteurs moteurs.
FIG. 1 – Le modèle du processeur humain.
Le trajet de l’information à travers le modèle du processeur

humain peut se décrire comme suit :
les récepteurs sensoriels reçoivent l’information et la
transmettent au processeur perceptif (noté S sur la figure 1)
puis le processeur perceptif dirige cette information vers les
mémoires iconique ou échoïque (noté P). La mémoire de travail
récupère l’information. Le processeur cognitif recherche dans la
mémoire à long terme les actions associées aux informations
présentes dans la mémoire de travail (noté C1 et C2). Les
actions sélectionnées (noté C3) sont transmises aux

13
processeurs moteurs (noté M1) et en parallèle aux différents

effecteurs (noté M2).
Ce modèle a fait l’objet de nombreuses extensions et
modifications. Wickens y ajoute notamment le système de
ressources attentionnelles.
Deux méthodes d’analyse du comportement humain sont nées
de ce modèle : GOMS et Keystroke (version simplifiée de
GOMS). Elles prédisent le temps d’exécution d’une tâche
routinière primitive par un utilisateur expert en fonction d’un
langage de commande, des caractéristiques de l’utilisateur et
des temps de réponse du système. Elles permettent d’évaluer
et de comparer différentes options de conception.
Le modèle ICS, Interacting Cognitive Subsystems, de

Barnard. représente les mécanismes de traitement de
l’information comme une organisation parallèle avec une
structure modulaire. Les composants de l’ICS supportent tous
les aspects de la perception, de la cognition, des émotions, du
contrôle de l’action et des réactions internes du corps. Le
modèle ICS a fait l’objet de peu de mise en pratique. Ce modèle
s’applique surtout à la production langagière. Les sous-
systèmes de l’ICS sont définis fonctionnellement mais la
quantité d’information traitée et le temps de traitement de
l’information sont peu précisés.
La théorie de l’action de Norman.

propose une modélisation de l’accomplissement d’une tâche en
sept étapes allant de l’établissement du but à l’évaluation de
l’état du système par rapport à ce but. L’introduction de cette
notion de but met en avant des processus de haut niveau. Cette
théorie est d’une aide précieuse dans l’analyse fonctionnelle et
l’analyse des tâches. Découlant de cette théorie, un modèle de
la navigation en RV a été proposé par Jul et Furnas. Ce modèle
intègre seulement l’aspect cognitif de la navigation i.e. la
recherche d’un itinéraire dans un environnement.
L’aspect interaction n’est pas pris en compte.
La théorie instrumentale de Rabardel.

qualifie les relations qui existent entre un sujet, un instrument
et l’objet vers lequel l’action est dirigée. Elle décrit toutes les
relations entre un opérateur, un instrument et une tâche, ainsi
que l’utilisation de cet instrument grâce des schèmes d’usage.

13
Cette théorie sert de fondement à d’autres modèles

d’interaction comme par exemple celui de Fuchs.
2.2 Les modèles de l’interaction en RV

De nombreuses études en RV, comme celles de Bowman et
Lampton proposent des méthodes d’évaluation et de
conception d’interface.
Bien que ces méthodes identifient les facteurs liés à la tâche,
au système, à l’environnement et à l’utilisateur influençant la
performance en RV, elles ne rendent pas compte des influences
réciproques de ces différents facteurs.
Les travaux de Fuchs et Verna, que nous allons détailler,
tentent de préciser ces influences.
Le modèle de Fuchs
Propose trois niveaux d’analyse d’un système de réalité
virtuelle :
• L’immersion et l’interaction sensori-motrices,

• L’immersion et l’interaction mentales et l’immersion
• Et l’interaction fonctionnelles (cf figure 2).
La conception d’une application de RV doit passer par une
analyse du probl7me allant du niveau fonctionnel vers le niveau
sensori-moteur.

13
FIG. 2 – Modèle d’analyse de Fuchs
Au niveau théorique, le modèle de Fuchs trouve ses fondements

dans la théorie de Rabardel décrite à la section précédente.
Fuchs souligne, sans les définir, l’intervention des processus
sensoriels, cognitifs et moteurs. Il propose une approche
macroscopique des phénomènes cognitifs.
Ce modèle a été validé par la construction de nombreuses
applications comme par exemple le magasin virtuel IN VIVO 1.
Le modèle MRIC, Modèle Représentatif de l’Interaction

Cognitive, de Verna
Décrit l’interaction entre un humain et son environnement.
Verna définit les processus de virtualisation, i.e. les
mécanismes cognitifs qui font qu’à partir d’une situation réelle,
l’humain entre progressivement dans le virtuel.
La définition des processus de virtualisation permet de
catégoriser les applications de RV. Ainsi, la virtualisation de
l’environnement réel est représentative des applications de

13
type CAO tridimensionnelle ; la virtualisation des sens et

réponses motrices de l’utilisateur est représentative de la RV
immersive. Ce modèle semble pertinent pour catégoriser les
applications en fonction de leur degré de virtualisation et
propose une réflexion épistémique sur la RV.
2.3 Synthèse et critique des modèles

Les modèles que nous venons de présenter sont difficilement
comparables car ils ont des vocations différentes : prédiction de
la performance, réflexion épistémique, explication du
fonctionnement humain ou aide à la conception d’interface.
Nous analysons dans cette dernière partie l’adaptabilité des
modèles IHM à la RV et vice-versa. Certains modèles IHM,
comme la théorie instrumentale, base du modèle de Fuchs, et
la théorie de l’action, base du modèle de Jul et Furnas, ont fait
l’objet d’une extension à la RV. Les modèles de Card et al. et de
Barnard n’ont pas, à notre connaissance, été exploités en RV.
Par contre, les modèles de Fuchs et de Verna sont, par
définition, spécifiques à la RV.
Le modèle de Fuchs s’inspire de Rabardel, par contre, le modèle
de Verna ne trouve aucun fondement dans les modèles IHM. Du
point de vue de la RV, le modèle de Fuchs semble le plus
pertinent, son approche macroscopique mériterait d’être
complétée par une étude microscopique des processus
cognitifs. Le modèle du traitement de l’information de Card et
al. pourrait servir de support à cette étude. Dans cette première
section, nous avons étudié les modèles IHM et RV existants.
Nous proposons maintenant une revue de la littérature
expérimentale en RV.
3 Les études expérimentales
Nous nous focalisons sur les protocoles recherchant des

corrélations entre les performances en RV et les scores à des
tests psychométriques (mesure des facteurs humains). Nous
classons les facteurs humains en deux catégories : les facteurs
principaux liés au modèle du traitement de l’information de
Card et al et les facteurs secondaires qui regroupent les
facteurs socioculturels, biologiques et idiosyncrasiques.
3.1 Les facteurs principaux

13
Les facteurs principaux regroupent les processus sensoriels,

cognitifs et moteurs qui apparaissent dans le modèle de Card et
al..
Les processus sensoriels les plus étudiés sont les processus
de la perception visuelle (vitesse de balayage de l’écran,
détection de cible). Ils sont cités par Fuchs, Moreau et Papin
comme intervenant dans la performance en RV.
Allen montre l’implication de ces processus dans la recherche
d’informations sur un thème précis dans un document
électronique. Dans une étude complémentaire, il identifie une
triple interaction entre la tâche, l’utilisation d’une carte et les
processus de la perception visuelle.
Les processus cognitifs les plus étudiés en IHM et en RV sont
les capacités spatiales et les capacités mnésiques.
Les capacités spatiales sont fréquemment corrélées avec la
performance du sujet quelle que soit la tâche demandée :
recherche d’informations , navigation dans des environnements
virtuels. Chen a étudié le rôle des capacités spatiales lors d’une
recherche d’informations dans des environnements virtuels
sémantiques (base de mots).
Les résultats montrent une corrélation positive entre les
capacités spatiales des sujets et le nombre d’éléments
pertinents recueillis.
Dans une autre étude, Waller identifie des corrélations entre les
capacités spatiales des individus et la construction d’une carte
cognitive de l’environnement. Cutmore et al. Montrent que les
sujets qui enregistrent l’information en mémoire sous format
spatial ont de meilleures performances en navigation. L’ajout
d’indices dans l’environnement permet de gommer les
différences interindividuelles.
Les capacités mnésiques ont été moins étudiées en RV, elles
apparaissent néanmoins comme corrélées avec la performance.
Par exemple ; Chen montre l’existence d’une corrélation
positive entre le nombre d’éléments pertinents relevés dans un
environnement virtuel sémantique et les performances en
mémoire associative. D’autres études en RV menées par
Cutmore et al. identifient des corrélations positives entre la
performance de navigation et les performances en mémoire de
travail.
D’autres facteurs, comme le raisonnement, les capacités
verbales, influencent la performance en IHM. Pour une revue

13
plus détaillée,. Ces facteurs n’ont pas fait l’objet, à notre

connaissance, d’études en RV.
Les processus moteurs comme la dextérité, la réponse
motrice, sont souvent cités comme intervenant dans la
performance en RV. La sélection de cible souvent étudiée à
travers la loi de Fitts en IHM a fait l’objet de quelques d’études
en RV.
3.2 Les facteurs secondaires
Les facteurs secondaires sont les facteurs socioculturels,
biologiques et idiosyncrasiques. Ces facteurs secondaires sont
reconnus comme pouvant influencer la performance dans de
nombreuses tâches cognitives.
Les facteurs socioculturels comme l’ethnicité, le niveau
d’étude, l’expérience du sujet (expérience des ordinateurs, de
la RV, des jeux vidéo, dans la tâche) influencent fortement
certaines tâches en IHM et en RV. Par exemple, Waller et Rozell
et Gardner montrent une corrélation entre l’utilisation d’une
interface et l’expérience envers les ordinateurs. Nous avons
montré dans l’influence de l’expérience en RV et en jeu vidéo
sur les performances de navigation en environnement virtuel
urbain. Egan montre l’impact de l’expérience de la tâche sur la
performance.
Les facteurs biologiques comme le sexe, l’âge et la latéralité
sont considérés en psychologie cognitive comme pouvant
influencer certaines performances. Cutmore et al. Montrent une
corrélation entre le sexe et les performances de navigation en
environnement virtuel. Les hommes ont de meilleures
performances. De plus, en ergonomie des postes de travail, la
taille, le poids et la stabilité posturale sont reconnus comme
influençant la performance. Enfin,
selon Salzman et al., le mal des simulateurs (dû à un conflit
visuo-vestibulaire) influence la qualité de l’apprentissage en RV.
Les facteurs idiosyncrasiques (stress, motivation)
influencent la performance en RV. A titre d’exemple, Rozell et
Gardner ont montré des corrélations entre humeur et
performance sur machine, Sas et O’Hare ont montré des
corrélations positives entre absorption, imagination, empathie
et sentiment de présence en RV. Ce dernier est connu pour
influencer la performance. De plus, Chen, en IHM. Ces facteurs
n’ont pas fait l’objet, à notre connaissance, d’études en RV.
Jones, Rozell et Gardner montrent des corrélations entre les
styles cognitifs (style d’apprentissage, dépendance et

13
indépendance à l’égard du champ) et l’utilisation d’une

interface. Quelques résultats expérimentaux allant dans ce sens
existent en RV.
3.3 Synthèse et critique
Nous venons d’effectuer une revue non exhaustive des facteurs
corrélés avec les performances en RV et en IHM. Ces études
montrent que des différences interindividuelles existent en RV
et qu’elles peuvent être gommées grâce à des aides cognitives.
Ces résultats permettent aux auteurs de tirer des conclusions
sur l’intervention des différents facteurs en RV, mais pas de
quantifier et de classifier leurs influences réciproques sur la
performance.
En IHM, l’étude des tâches primitives (sélection de cible, édition
de texte) a montré sa pertinence . En RV, les études se
focalisent sur les tâches primitives d’interaction (locomotion,
manipulation). Ces études ont pour vocation de valider des
interacteurs, mais elles ne corrèlent pas les performances avec
les facteurs humains. En effet, les études recherchant des
corrélations entre performance en RV et facteurs humains
utilisent souvent des tâches complexes : mémorisation de carte
d’environnement virtuel, recherche d’informations . Il apparaît
un manque d’études des tâches primitives d’interaction en RV.
Notons que les facteurs idiosyncrasiques ont fait l’objet de
nombreuses études approfondies. Cependant, la subjectivité
des tests rend difficile l’interprétation des résultats.
Dans cette section, en nous basant sur des données empiriques
nous avons identifié un certain nombre de facteurs pouvant
influencer la performance en RV et en IHM. Il convient
maintenant de faire le lien entre ces facteurs et les modèles
décrits au début de cet article.
4 Proposition méthodologique
Dans cette dernière section, nous présentons une

méthodologie d’analyse des tâches primitives de manipulation
et de locomotion en environnement virtuel. Cette méthodologie
résulte de la combinaison du modèle de Card et al. et des
résultats expérimentaux.
Dans un premier temps, pour chaque fonction identifiée dans le
modèle de Card et al, nous effectuons une sélection de tests
psychométriques : test d’empan visuo-spatial pour mesurer la
capacité de la mémoire de travail, test de Fitts pour mesurer les

13
capacités motrices. Nous contrôlons les principaux facteurs

secondaires : sexe, âge, latéralité, cursus et niveau d’étude.
Nous définissons des tâches de manipulation (redresser et
positionner un objet dans une boite) et de locomotion (atteindre
des objets dans un environnement virtuel). Nous mesurons le
nombre d’objets déplacés ou atteints dans un temps limite.
Grâce à l’ensemble de ces résultats, nous espérons proposer un
modèle explicatif rendant compte de l’influence de chaque
facteur humain mesurés sur la performance dans des tâches de
locomotion et de manipulation. Les résultats obtenus seront
fortement dépendant du système de RV utilisé. Pour généraliser
nos résultats, et proposer un modèle explicatif plus robuste, ce
type d’expérimentation doit être renouvelé pour différentes
techniques d’interaction (casque, écran géant, gants de
données, souris 3d etc.).
Ce protocole est complexe (temps de passation d’environ trois
heures par sujet, mise en place du matériel de RV) ; cependant,
des études génériques de ce type sont indispensables pour
qualifier les tâches d’interaction en environnement virtuel.
Deux applications directes en découlent, l’une pratique : la mise
en place d’aide cognitive en adaptant les interacteurs en
fonction des facteurs humains impliqués, l’autre théorique :
proposer un modèle explicatif des tâches de manipulation et de
locomotion en RV basé sur l’étude des facteurs humains.
5 Conclusion
Nous avons dans cette partie dressé un état de l’art des

modèles existants en IHM et en RV, puis listé les différentes
études expérimentales qui corrèlent facteurs humains et
performance.
En combinant ces deux approches, nous avons proposé une
méthodologie d’analyse anthropocentrée de l’interaction. Notre
méthodologie permettra de quantifier l’influence des différents
facteurs humains pour une interface et une tâche donnée. Nous
faisons l’hypothèse que l’influence de chaque facteur humain
sur la performance en RV sera différente en fonction de la tâche
et en fonction de l’interface.

13
Nous sommes conscients que la méthodologie présentée ici est

ambitieuse. Nous devons maintenant montrer par la mise en
oeuvre
expérimentale la pertinence de notre approche.

Réalité Virtuelle

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Réalité Virtuelle

Încărcat de

Drepturi de autor:

Formate disponibile

13

Université BAJI MOKHTAR

LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

Exposé en module : IHM.

Université Badji Mokhtar Annaba.

LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

Chapitre 1 : Présentation générale.

Chapitre 2 : Les équipements de la réalité virtuelle.

Chapitre 3 : Exploration de données multimédias par

Chapitre 4 : Modèles et facteurs humains en IHM –

LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

Désigne un être virtuel représentant le joueur d'un jeu

Affichage à cristaux liquides - liquid crystal display (LCD)

Type d’affichage qui utilise un composé liquide avec une

Capteur - sensor ou grabber –

Dispositif qui détecte ou mesure un phénomène physique

Casque virtuel- head-mounted display (HMD) –

Casque qui comporte deux mini-écrans et des écouteurs

LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

Étude des données d’une data warehouse pour en extraire

Image de synthèse - computer-generated image –

Image générée sur ordinateur à l’aide de calculs

Gant de données - data glove –

Gant pourvu de capteurs, utilisé avec certaines

LA REALITE VIRTUELLE E-mail : ElMehdi23@gmail.com

des doigts sont transmis à l’application pour donner à

Gant détecteur - sensor glove –

Dispositif d’entrée informatique porté sur la main, destinés

Dispositif d'entrée se présentant sous la forme d'un gant