Sunteți pe pagina 1din 30

Analyse des donnes qualitatives avec le Sphinx

Les tudes quali


Les situations de recherche Les tudes quali se dfinissent bien souvent par opposition aux tudes quanti . On indique ainsi que les informations tudies proviennent de sources multiples documents, crits ou discours et quelles sont analyses sans recourir au calcul. Comme nous le verrons cette simplification et abusive mme si elle dfinit assez bien les situations de recherche dans lesquelles on a recours aux approches qualitatives. Les enqutes : recueillir des informations nouvelles. Le qualitatif apparat avec la prsence de questions ouvertes dans les questionnaires. Celles-ci chappent aux analyses statistiques qui font lefficacit des dpouillements classiques et sont trop souvent tout simplement oublies au moment de lanalyse. Avec les guides dentretien, les interviews non directives, les entretiens de groupe, la conversation remplace le questionnaire. Le recueil des informations et leur analyse deviennent bien plus difficile (il faut enregistrer, retranscrire.) et implique tout un savoir faire bien spcifique. Il sagt l de privilgier lcoute plutt que le questionnement, la comprhension et lanalyse en profondeur plutt que le dnombrement. Les documents : exploiter les informations existantes Avant de lancer lenqute on a bien sr tudi la bibliographie sur le sujet et les documents qui peuvent nous renseigner. Comme le font les historiens la qute porte alors

sur les traces qui renvoient au domaine tudi (documents juridiques, transactionnels, commerciaux, comptes rendus, annonces et communications de toute sorte). Linformation recueillie peut tre trs abondante et htrogne et pose les mmes difficults de comprhension et danalyse. Lvolution des technologies de linformation et Internet notamment, bouleverse laccs aux donnes que nous venons dvoquer. Les enqutes via le web simplifient considrablement la collecte des rponses aux questions ouvertes, les interviews par mail ou par dialogue lectronique (chat) offrent de nouvelles opportunits Les bases de donnes bibliographiques, les moteurs de recherches permettent au chercheur de rcuprer trs facilement rfrences et publications. En gnralisant le format numrique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives lectroniques. Ces volutions mettent disposition du chercheur un matriau considrable et posent de nouveau problmes : comment traiter des informations dont labondance peut trs vite dcourager et dont la complexit pose des problmes spcifiques pour lesquelles la statistique noffre pas de rponse immdiate. Les mthodes Ceci nous conduit une autre caractristique des tudes quali . Le terme renvoie lapproche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des tudes littraire et de la critique. Le travail du chercheur consiste rendre compte des textes tudis en citant des extraits et en produisant un nouveau texte comprhensif et dmonstratif dont, pour faire bref, la qualit ne tient quau talent de lecteur et dcrivain du chercheur.

Avec lanalyse de contenu ou analyse thmatique, le classeur et le stylo de couleur sajoutent la panoplie des instruments de recherche. Le travail de lecture devient plus systmatique, le systme de comprhension sexplicite en une grille qui guide le classement des citations et le reprage par couleurs ou annotations des passages du texte. Cet effort de mthode dbouche naturellement sur le dnombrement des thmes, si on admet que la rptition ou la frquence peuvent galement faire sens et que largument du dcompte renforce la dmonstration. Lappellation quali voque ainsi le travail artisanal prudemment dmarqu des mthodes scientifiques et de la statistique, mais lapproche des textes a aussi de tout temps t marque par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l exgse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations caches ou permettent de contrler lexactitude des manuscrits. Des tudes sur la bible aux concordances de Saint Augustin le texte analys est mis en fragments puis en cartes perfores Les premires analyses par ordinateurs ont t effectues en 1945 par IBM qui pour reconstituer les concordances de Saint Augustin. Devenu donne textuelle, le texte chappe la tradition quali et se trouve aussi concern par les problmatiques quanti comme lont montrs des travaux sur ltude de lattribution des uvres littraires et lusage dj trs ancien des techniques informatique par les services de renseignements En banalisant ces mthodes et en les rendant accessibles, les volutions technologiques ajoutent lordinateur, le moteur de recherche et le logiciel danalyse de donnes textuelle la boite outil du chercheur. La spcificit des donnes textuelles et les voies danalyse assiste par ordinateur. Rponses aux questions ouvertes dans les enqutes, interviews ou entretiens de groupe, revue bibliographique,

tude de documents, ces corpus ont en commun dtre essentiellement forms de donnes textuelles. Elles ont la complexit et lambigut de la langue. Leur sens nest pas fix a priori comme cest le cas pour les donnes quanti pour lesquelles les units de mesures (variables numriques) et les tats observs (variables nominales) sont fixs par un accord tacite de comprhension entre le rpondant et lenquteur. La signification des donnes textuelles est dcouvrir dans le sens des mots des phrases et de lorganisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhtorique) apporte une contribution au sens dgag par la lecture. Cette proprit justifie la mfiance de ceux qui pensent quon ne peut pas faire lconomie dune lecture humaine et quune machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire la prtention des tenants de lintelligence artificielle nous pouvons accepter que lordinateur et sa puissance de calcul apportent une aide pour lapproche des corpus textuels et notamment lorsque ceux-ci sont de trs grande taille. Nous montrerons dans ce qui suit que lordinateur peut tre utilis comme un auxiliaire pour rendre plus systmatique les approches classiques et augmenter la productivit du chercheur et la qualit de ses rsultats. En effet, les fonctions de recherche peuvent considrablement acclrer le travail traditionnel ncessit par lusage de la citation ou la production de verbatim Pour lanalyse de contenu, la construction dune grille thmatique et la codification du corpus peuvent se faire en utilisant les ressources de linformatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivit pour la lecture et la codification

Mais il peut aussi tre mis en uvre dune manire beaucoup plus automatique en fournissant, partir du reprage des

formes graphiques qui composent le texte, des indications sur son contenu. Lanalyse de contenu peut ainsi tre automatise en construisant les listes de mots ou dictionnaires correspondant aux diffrentes catgories de la grille thmatique. La frquence avec laquelle ces lments se trouvent dans le texte sert dindicateurs pour mesurer la prsence et lintensit de ces catgories. On peut parler ici de smiomtrie puisque lusage des dictionnaires permet de mesurer les significations ainsi repres dans le texte Lanalyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte utiliser la redondance des donnes de langue et la statistique pour substituer la lecture du texte celle dlments lexicaux qui en sont extraits : listes des mots les plus frquents (mots cls), cartes visualisant la manires dont les mots se trouvent associs (zones thmatiques) ou leffets des circonstances ou des contextes (mots spcifiques)

Ces approches sont particulirement bien adaptes au traitement de trs gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les rgularits et effets statistiques sont significatifs. Outils et stratgies danalyse Tout ceci ne peut bien sr se faire quavec laide de logiciels adapts. Loffre est dsormais assez abondante, mais quel logiciel choisir ? Tout dpend du type danalyse envisage et de degr de spcialisation des fonctions proposes. On peut distinguer 3 grandes classes de logiciels Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en uvre des procdures plus

ou moins sophistiques pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica) Les logiciels danalyse thmatique et de contenu ils aident au reprage, la codification et lorganisation des ides du texte, ainsi qu leur analyse et leur synthse (Nudist, Atlas ti, Modalisa, Sphinx Lexica) Les logiciels danalyse de donnes textuelles, ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, )

Ces logiciels sont plus ou moins spcialiss sur leur fonction principale. Alceste par exemple est trs spcialis, Modalisa lest beaucoup moins. Dans ce qui suit nous nous rfrerons principalement Sphinx Lexica qui est un outil trs gnraliste bien qu premier abord il semble sadresser plus spcifiquement au traitement denqute. Quelque soit loutil, le chercheur a un rle essentiel. Cest lui qui pilote le logiciel et cest lui qui lance slectionne les citations et le verbatim, labore la grille thmatique lit et code le texte, cest enfin lui, qui seul est capable dinterprter et de donner sens aux rsultats des statistiques lexicales. Pour cela il lui faudra matriser le passage oblig de lacquisition des donnes et de lintgration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thmatique de contenu, ou faire de lanalyse de donnes textuelles. Les techniques avec lesquelles il devra se familiariser reposent galement sur une bonne connaissance des proprits de la langue des textes et discours quelle permet de construire. Quelques connaissances utiles sur les proprits de la langue, des textes et des ides.

Les grandes tapes

Lacquisition des donnes textuelles La premire chose faire consiste mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de lavoir sous une forme numrique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi le dcouper en distinguant les diffrents lments qui le composent, bref le mettre sous la forme dune table de donnes. Tout dpend alors des circonstances. Les questionnaires Sil sagt dtudier les rponses aux questions ouvertes dune enqute par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le enqutes papier crayon ou directement entr par le rpondant lorsquil rpond une enqute internet. Les interviews non directives Pour les interviews non directives le travail est plus complexe car il faut dabord mettre le texte dans Sphinx . La mthode la plus simple consiste le retranscrire dans un questionnaire Sphinx compos des lments suivants : 1- Des questions didentit pour enregistrer le nom et les caractristiques de linterview 2- Une question pour noter le texte de la question et une autre pour le texte de la rponse Pour une interview on saisira ainsi autant dobservations que dchange question rponse auquel il a donn lieu. Il faudra en outre pour chaque nouveau couple rpter les questions didentit. Si les interviews ont dj t saisies dans un traitement de texte on importe directement dans Sphinx le fichier qui les contient. Ce travail ncessite le respect des consignes suivantes :

1/ le fichier importer doit tre enregistr au format texte. Les fichiers de Word ne sont reconnus que sils ont t enregistrs sous se format. 2/ afin de distinguer le texte des questions et des rponses et indiquer quand on passe dune interview une autre, il faut ajouter des repres dans le texte. Ces repres doivent respecter des rgles qui permettront lordinateur de les reconnatre et de les interprter. Par exemple : Interview > Pierre Q > Que pensez vous de . R> Mon opinion sur Q> mais encore R> et bien voil. . . Interview> Jean Q>. R>.. Q>.. R> Les indications Interview >, Q >, R> signalent le nom de linterview, une question ou une rponse. On les appelle des balises. Elles sont toujours places en dbut de ligne et se terminent par > (ou un autre caractre qui nest pas utilis autrement dans le texte) Le texte conscutif chaque balise est report dans une variable qui lui correspond. Lexemple ci-dessus sera ainsi converti en un questionnaire de 3 questions ou variables : Interview, Q et R. La table de donnes correspondante aura 3 colonnes et autant de lignes que de couple questions rponses. Si seul le texte des rponses a t saisi il suffit dajouter en dbut le nom de la premire interview puis celui de la deuxime et ainsi de suite pour reprer le passage dune interview lautre. On appelle ces indications des jalons.

Elles sont en gnral notes dans le texte comme cidessous : [J=Pierre] Mon opinion sur Et bien voil. .. [J=Jean] Bla bla bla bla. Truc. .. Dans ce cas limportation du texte conduit un questionnaire de 2 questions. La premire indique de quelle interview il sagit. La deuxime contient le texte dcoup en fragments (paragraphes, phrases ou squence de mots de longueur gale). Chaque fragment du texte correspond une observation. On peut complter les annotations qui jalonnent lensemble des interviews (jalons) par des annotations ponctuelles utilises par exemple pour ajouter des commentaires (marques) Ces annotation, signales par une indication mise entre crochet (par exemple [M=commentaire]) permettent de distinguer le contenu des commentaires de celui de linterview. Les bases de donnes et lutilisation des balises Le texte analyser peut galement provenir dune dune application informatique : logiciels de messagerie, banque documentaires dans ce cas les donnes sont structures par des balises : indications places au dbut de chaque lment qui dfinissent la nature du texte conscutif. Par exemple pour une base de donnes bibliographique : Titre : les misrables Auteur : Victor Hugo Editeur : Hachette Rsum : Histore de Jean Valjean et cosete. Titre : les sequestrs dAltona Auteur : Jean Paul Sartre Editeur : seuil ou pour une base de mail de : andr lucas

: annie2 ;jean3 objet : rendez vous message : demain la premire heure.. Dans ces exemples titre, auteur, diteur, rsum, de, , objet, message sont des balises. En les reconnaissant, lordinateur pourra la table de donnes correspondante. Analyse dune collection de documents quelconques Cest le cas par exemple lorsque les donnes analyser sont composes darticles de presse ou dautre sources documentaires constituant le corpus de ltude. Cest lanalyste dajouter dans le fichier texte o il a rassembl tous ces lments les annotations qui permettront dindiquer quon passe dun article un autre ou dune source une autre. Lordinateur pourra alors construire une table dans laquelle sera note le nom de larticle ou de la source dune part et le contenu dautre part. Si les diffrents textes sont longs on peut en outre dcider de les fragments paragraphes ou phrases. Analyse de sites web ou une page de liens Le logiciel permet daspirer directement le contenu de sites ou de pages slectionnes par un moteur de recherche. Cette possibilit ne permet malheureusement pas daccder aux contenus des sites dynamiques. Dans ce cas il faut procder manuellement en parcourant le site et recopiant le texte dans un questionnaire conu cet effet.

Produire des extraits ou faire du verbatim Faire du verbatim (ou des citations) est la mthode la plus utilise dans les tudes qualitatives. Ces citations peuvent tre choisies en lisant le texte ou slectionnes de manire systmatique selon le contexte ou selon le contenu.

Verbatim par contexte Savoir qui dit quoi ou slectionner les citations selon les circonstances ou tout autre information contenue dans les rponses aux questions fermes. Ce type de slection peut tre plus ou moins complexes : on peut nutiliser quun seul critre, par exemple ce que disent les femmes ou en combiner plusieurs en sintressant aux femmes de moins de 30 ans et diplmes .. Dans les enqutes de satisfaction le contexte pertinent sera plutt tous ceux ou celles qui dclarent tre insatisfait, lidentit apparaissant comme la signature de chaque citation Verbatim selon le contenu Slectionner les citations en fonction de ce qui est dit. Cette approche privilgie le contenu qui peut tre repr automatiquement par la prsence dans le texte dun ou plusieurs mots ou par un travail de codification pralable (voir analyse de contenu) Les 2 approches par le contexte et par le contenu peuvent bien sr tre combines pour restituer le texte par fragments relatifs aux diffrents angles de vue ou problmatiques de ltude. Faire du verbatim avec Sphinx La slection de verbatim dans Sphinx peut se faire soit partir la fonction Etudier les textes de la partie classique du logiciel ou directement dans les tableaux de bord de lenvironnement multimdia. Recoder / Etudier les textes / Verbatim : Lexemple ci-dessous indique le dialogue correspondant la slection des rponses de jeunes femmes citant les mots enfant ou enfants. La liste des rponses correspondantes tant donne par type dhabitat.

Atelier lexical Dans latelier lexical (Etudier les textes / Atelier lexical) un double clic dans un mot de la fentre du lexique permet dafficher toute les fragments de texte contenant le ou les mots slectionns. La longueur du fragment se rgle avec le bouton Apparier et les indications de mise en forme figurant en bas de lcran. Le bouton Illustrer permet dajouter une signature (sexe, csp). Utiliser Transfrer pour enregistrer ou recopier dans un traitement de texte.

Dans lenvironnement multimdia On peut faire figurer dans un tableau de bord la liste des rponses correspondant un profil donn. Par exemple dans un tableau de bord on peut faire figurer les commentaires des insatisfait et ou de satisfaits.

Lexemple ci-dessus est tir du tableau de bord dune enqute de satisfaction. On produit pour cela le tableau de la variable texte en choisissant dans longlet Calcul loption Mise en classe des rponses et en fixant le profil de la slection. Dans longlet Tableau on indique que les effectifs et pourcentage ne doivent pas tre affichs.

Dans le cas dune analyse de contenu, la slection peut tre effectu en fonction des variables de la grille thmatique. On peut galement utiliser des calculs dintensit lexicale pour afficher les rponses exprimant le plus les ides correspondant une liste de mots cls (dictionnaire). Faire de lanalyse de contenu Cette mthode consiste lire lensemble du corpus en reprant les thmes ou ides quil contient pour ensuite

produire du verbatim par thmes et / ou mener une analyse statistique des thmes. Les tapes du travail sont les suivantes. Illustrons les sur le cas de lanalyse des questions ouvertes dans les questionnaires. Dfinir la grille des thmes Elle organise la description des ides susceptibles dtre prsentes dans le texte. Par exemple pour analyser les rponses la question : Si vous gagniez au loto, que feriez vous ? on distingue : les actions : consommer, investir, donner les personnes concernes : moi, mes proches, les gens la tonalit de la rponse : neutre, sceptique, humour. Ajouter au questionnaire les variables thmatiques Elles dcrivent les thmes et leurs catgories (modalits)

Au stade du formulaire, faire modification du questionnaire et ajouter les questions correspondant la grille Crer le code book

Cest linterface dans laquelle les ides du texte seront codes. Elle se prsente comme un formulaire qui prsente la rponse texte analyser et les questions de la grille thmatique. On peut rajouter une nouvelle variable texte pour recopier les expressions savoureuses et les retrouver plus facilement.

Au stade questionnaire, faire formulaire multimdia et crer un nouveau formulaire, puis disposer les variables correspondant la rponse et la grille. On peut ajouter une lgende pour rappeler lidentit du rpondant. Lire interprter et coder le contenu Le code book dfini ltape prcdente est lanc partir du module oprateur. On peut ainsi parcourir lensemble des rponses (flches du haut de lcran), ou seulement celles qui contiennent tel mot ) ou plus et rpondent telle identit (slection dun profil simplement celles qui ne sont pas encore codes (non rponse pour la variable thme).

Analyser la frquence des thmes et faire du verbatim Une fois toutes les rponses lues et codes, lanalyse sachve par ltude statistique des thmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thmes entre eux ou les croiser avec les autres variables de lenqute. Si la grille thmatique est pertinente les rsultats seront coup sr intressants.

Le travail de prparation pour les interview non directives Pour les interviews non directives le travail est plus complexe car il faut dabord mettre le texte dans Sphinx . Mettre le texte dans Sphinx. La mthode la plus simple consiste directement retranscrire le texte dans un questionnaire Sphinx compos des lments suivants : 3- Des questions didentit pour enregistrer le nom et les caractristiques de linterview 4- Une question pour noter le texte de la question et une autre pour le texte de la rponse 5- Les questions relatives la grille thmatique Lorsque ce questionnaire est construit il ny a plus qu le mettre en forme pour disposer dun code book bien prsent. On peut alors couter lenregistrement de

linterview et entrer le texte. La codification peut se faire en mme temps ou aprs que tout a t retranscrit. Si les interviews ont dj t saisies, on importe directement dans Sphinx le fichier qui les contient. Ce travail ncessite le respect des consignes suivantes : 1/ le fichier importer doit tre enregistr au format texte. Les fichiers de Word ne sont reconnus que sils ont t enregistr sous se format. 2/ afin de distinguer le texte des questions et des rponses et indiquer quand on passe dune interview une autre, il faut ajouter des repres dans le texte. Ces repres doivent respecter des rgles qui permettront lordinateur de les reconnatre et de les interprter. Par exemple : Interview > Pierre Q > Que pensez vous de . R> Mon opinion sur Q> mais encore R> et bien voil. . . Interview> Jean Q>. R>.. Q>.. R> Les indications Interview >, Q >, R> signalent le nom de linterview, une question ou une rponse. On les appelle des balises. Elles sont toujours places en dbut de ligne et se terminent par > (ou un autre caractre qui nest pas utilis autrement dans le texte) Le texte conscutif chaque balise est report dans une variable qui lui correspond. Lexemple ci-dessus sera ainsi converti en un questionnaire de 3 questions ou variables : Interview, Q

et R. La table de donnes correspondante aura 3 colonnes et autant de lignes que de couple questions rponses. Si seul le texte des rponses a t saisi il suffit dajouter en dbut le nom de la premire interview puis celui de la deuxime et ainsi de suite pour reprer le passage dune interview lautre. On appelle ces indications des jalons. Elles sont en gnral notes dans le texte comme cidessous : [J=Pierre] Mon opinion sur Et bien voil. .. [J=Jean] Bla bla bla bla. Truc. .. Dans ce cas limportation du texte conduit un questionnaire de 2 questions. La premire indique de quelle interview il sagit. La deuxime contient le texte dcoup en fragments (paragraphes, phrases ou squence de mots de longueur gale). Chaque fragment du texte correspond une observation. On peut complter les annotations qui jalonnent lensemble des interviews (jalons) par des annotations ponctuelles utilises par exemple pour ajouter des commentaires (marques) Ces annotation, signales par une indication mise entre crochet (par exemple [M=commentaire]) permettent de distinguer le contenu des commentaires de celui de linterview. Analyse de donnes textuelles et approximation lexicale Cette approche simpose lorsque le corpus est trs volumineux. Elle permet de gagner beaucoup de temps mais requiert un savoir faire spcifique autant pour bien matriser les mthodes mises en uvre que pour en interprter les rsultats. Approcher le texte par le lexique

Lide est simple : prendre connaissance du texte partir de des mots les plus frquemment utiliss. Linformatique et la statistique permettent de faire cela trs vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les rsultats. Il faut ensuite pouvoir se faire une ide du texte partir dune simple liste de mots classs par frquences dcroissantes et bien choisir cette liste. Lexemple ci-dessous donne les diffrents lexiques tirs de ltude sur le rve des franais.

Les mots outils sont rvlateurs de lnonciation, ici la frquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans mots outils). La lemmatisation ramne chaque mot sa forme racine : linfinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, prsenter le lexique par catgories grammaticales permet de focaliser lattention sur les objets (substantifs), les actions (verbes) et valuations (adjectifs). On peut enfin chercher grouper les termes du lexique en utilisant des dictionnaires de termes quivalents pour encore rduire la varit lexicale et mieux approcher les diffrentes ides du texte et leur importance.

Segments rpts et cartes dassociation lexicales Les lexiques donnent trs rapidement un aperu du texte analys mais ils peuvent aussi conduire des interprtations errones. Il faut donc vrifier et resituer chaque mots dans son contexte en revenant au texte (verbatim) ou dune manire plus synthtique en cherchant les segments rpts et en produisant des cartes dassociations lexicales. Les segments rpts (squences de mots rpts lidentique) renvoient les rigidits du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguts (arrter de travailler) et rvlent les leitmotivs du corpus.

Les cartes dassociation lexicales D'une manire moins rigide que les segments rpts la statistique des associations lexicales (via lanalyse factorielle des correspondances multiples) donne une ide de la propension associer les mots les uns aux autres ou au contraire ne pas les faire coexister dans une mme expression. Ainsi, la carte ci dessous laisse apparatre dans les constellations proches ou distinctes les rseaux smantiques, modles cognitifs ou configurations mentales qui dans leur rptition structurent le discours. Ici on peut opposer les vocations gnreuses droite, celles de l'utilitarisme gauche.... La lecture de ces cartes conduit identifier les thmatiques du corpus. Elles ont l'avantage d'tre produites sans biais cognitifs et de rduire trs significativement la masse d'information qui devient ainsi partageable.... et discutable.

Influence des contextes bilan lexicaux, tableaux croiss et vocabulaires spcifiques Comment ont rpondu les diffrentes catgories de personnes interroges ? Cest ce que permet dtablir un bilan lexical du type de celui-ci :
Caractristiques des rponses selon le contexte LOTO Moyenne Homme Femme SEXE Agriculteurs Commerant, artisan Cadre.Prof.Intell. Sup. Prof.Intermdiares Employs Ouvriers Retraits Inactifs, Autre CSP Somme Part 44% 56% 100% 4% 5% 16% 8% 29% 12% 18% 9% 100% Effectif 444 546 990 46 47 151 78 277 132 175 84 990 17,76 7 886,00 18,05 9 857,00 17,92 17 743,00 15,15 20,21 697,00 950,00

18,47 2 789,00 17,68 1 379,00 18,41 5 099,00 15,79 2 084,00 18,37 3 215,00 18,21 1 530,00 17,92 17 743,00

Le corpus est 56% form de rponses de femmes soit

9 857 mots sur un total de 17 743. Leurs rponses sont en moyennes plus longues que celle des hommes, mais la catgorie la plus prolixe est les commerants artisan.

Les mots utiliss sont ils les mmes suivant lidentit de celui qui parle, les circonstances ou toute autre information qui situe le texte analys ? On peut le savoir en croisant par exemple les rponses une question ferme avec les mots les plus couramment utiliss.

Les femmes sont proportionnellement plus nombreuses utiliser donner , les hommes se distinguent par lusage de travailler et investir

Plus directement on peut slectionner la liste des mots sur reprsents dans telle ou telle catgorie et obtenir ainsi les mots spcifiques qui les caractrisent. Ces listes peuvent tre cartographies pour mettre en vidence des zones de langages.

Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) la diffrence des plus gs qui privilgient laide et le don.

Intensits lexicales et lexicomtrie On peut aussi orienter la recherche par rapport ce quon pense trouver. Comme on le ferait en lisant tout le texte pour reprer les ides qui sy trouvent on confie cette tche lordinateur. Pour cela on dresse des listes de termes exprimant les ides que lon cherche reprer. Ces listes appeles dictionnaire permettent de calculer le nombre de fois o lun des termes se trouve dans la rponse analyse. Lintensit lexicale est calcule comme le rapport entre ce nombre et le nombre total de mots de la rponse. Le poids de lide correspondante est mesur par se rapport ou intensit lexicale. Cet usage de donnes lexicales pour mesurer limportance dune ide permet de parler de lexicomtrie. Ainsi, partir dune expression libre on mesure limportance des lments du modle pour ensuite poursuivre les analyses comme si ces mesures taient tablies en recueillant des opinions sur des chelles.

Le calcul des intensits lexicales permet de mettre en vidence les diffrences de raction selon la catgorie de franais.

Comment procder Dans la parties classique de Sphinx Lemmatiser : Panneau de commande : Crer les variables lexicale ou dans lAtelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans latelier bouton Rduire Regrouper Supprimer pour agir sur les mots marqus dans le lexique. Segments rpts : Panneau de commande, ou dans latelier article Expression du menu Lexique puis bouton Segments Cartes dassociations lexicales. Dans latelier : 1/ Slectionner les mots considrs dans la fentre du lexique 2/ Crer une variable codant la prsence de ces mots : Recoder, Ferm sur les mots marqus du lexique. Nommer la nouvelle variable 3/ Lancer lanalyse factorielle des correspondances multiples partir de la variable qui vient dtre cre : Menu Approfondir (menus droulants du haut de lcran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thmes : bouton Typologie et dfinir interactivement les classes Bilan lexicaux : Panneau de commande, Bilan par catgories ou tableau de bord en croisant une variable texte avec loption de calcul Nombre de mots avec une autre variable ferme. Choisir les indicateurs (moyenne, somme, part) dans longlet Tableau . Tableaux croiss lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour slectionner la variable croiser avec le texte. Mots spcifiques : Panneau de commande ou dans latelier 1/ calculer la liste article Mots spcifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spcificits et de frquence.

2/ produire la liste des rponses caractristiques de chaque catgorie (verbatim des rponses contenant le plus de mots spcifiques) : bouton Rponses caractristiques. Intensits lexicales. La dfinition des dictionnaires peut se faire dans un traitement de texte ou en slectionnant les mots dans latelier lexical. La procdure la plus rapide consiste utiliser une thmatique (ensemble de dictionnaires correspondant chacun un thme) : atelier lexical, bouton Recoder et Analyse thmatique. Slectionner les fichiers des dictionnaires ou ouvrir une thmatique existante puis Recoder. Pour chaque dictionnaire de la thmatique une variable numrique contenant lintensit lexicale de la rponse ou du fragment est cre. Ces variables peuvent tre utilises pour crer une typologie : Menu Approfondir, Classification automatique. Dans les tableau de bord multimdia. La lemmatisation et la dfinition des variables dorigine lexicales dont le calcul des intensits lexicale et le calcul des doivent se faire dans la partie classique et latelier lexical. Il en galement ainsi pour le calcul de mots spcifiques. Calcul des lexiques : Choisir loption Mise en classe des mots dans longlet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique une liste ou au contenu dun dictionnaire. Dans le mme onglet les articles du menu Simplifier permettent de contrler la longueur de la liste en fixant le nombre de lignes ou la frquence minimum. Tableau croiss et cartes lexicales. Une variable texte prsente comme un lexique (mise en classes des mots) peut tre croise avec nimporte quelle autre variable avec la possibilit dutiliser des reprsentations cartographies des tableaux croiss ainsi obtenus (Carte ). dans onglet Graphique ou raccourcis montrer la carte Ceci permet notamment de caractriser les rponses selon les diffrentes catgories de rpondant. Dans le tableau de groupe ci-dessus caractrisant les rponses par sexe et CSP, la variable texte et calcule selon

loption Nombre de mots de longlet Calcul et dans longlet Tableau, moyenne somme et effectif ont t slectionns. Privilgier une approche ou les combiner ? Les approches diffrentes. que nous venons dvoquer sont trs

Le verbatim est de loin la pratique la plus courante et la plus simple mettre en uvre. Lanalyse de contenu par recodification prsente lavantage de reposer sur une thmatique qui en elle-mme est dj une contribution la comprhension du texte. La codification permet de prciser avec la rigueur de la statistique comment cette thmatique sapplique et de mettre en vidence les interdpendances entre thmes ainsi que rechercher des explications contextuelles. Dautre par le vebatim associ chaque catgorie de codification permet dillustrer de manire concrte les ides gnrales et peut tre den affecter la comprhension en leur donnant plus de vigueur ou de pertinence. Ces 2 mthodes souffrent galement de la subjectivit qui fatalement accompagne leur mise en uvre dans le choix final de telle ou telle citation et dans la dcision de coder de telle ou telle manire. Lusage des outils informatiques et statistiques permet de mieux contrler ces biais subjectifs grce la formalisation et aux possibilits de recoupement. Enfin malgr ses nombreux avantages lanalyse de contenu est trs consommatrice de temps et de ce fait trs coteuse pour lanalyse des gros corpus. Lanalyse des donnes textuelle offre une voie bien diffrente et beaucoup plus technique. Elle prsente lavantage dune relle objectivit dans la production de substituts lexicaux (listes, cartes). Bien que la subjectivit intervienne nouveau au moment de la lecture et de linterprtation elle bnficie ainsi dun crdit de scientificit que les autres approches nont pas.

Dautre part, en dtournant le regard du sens de surface vers linterprtation des actes de langage (tout ce que le choix des mots rvle dans les rptitions ou les absences) ce procd cre les conditions dune distance critique et cratrice. Au risque bien sr dimportants contre sens dont il faut se prmunir par des prcautions lmentaires. - ses mthodes ne sont applicables que sur de trs gros corpus, l ou les grands nombre et la statistique peuvent lgitiment faire sens - un patient retour au texte reste absolument indispensable pour contrler les interprtations rapidement acquises par ces techniques. A nouveau le verbatim simpose - enfin certains aspects des contenus sont trs difficiles apprhender ainsi des valuations ou jugement. Il est facile de voir quil est question de travail ou de prix mais beaucoup plus difficile dtablir si le travail ou les prix sont voqus positivement ou ngativement. Les formes lexicales de lvaluation, du jugement sont en effet trs varies et complexes apprhender (pas trop, trop, trop peu .). Lanalyse lexicale doit tre dconseille pour traiter les rponses ouvertes dans des enqutes sur un petit nombre de rpondants (moins de 200). Lanalyse de contenu prendra moins de temps et les rsultats en seront coup sr probants. Il est en revanche des situations o seule, compte tenu du temps ou des budgets disponible, lanalyse des donnes textuelles est envisageable. Ctait par le exemple le cas pour lanalyse des 45000 pages du dbat national sur lavenir de lcole. Mais le plus souvent ces mthodes gagent tre mises en uvre de manire complmentaire. Dans un premier lanalyse lexicale utilise de manire exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes dinterprtation quon naurait peut tre jamais empruntes autrement. Cest ainsi que la thmatique mergente du texte peut tre complte par les problmatiques, modles et systmes dinterprtation

gnraux qui permettront de construire une grille thmatique plus pertinente. Enfin le travail mthodique danalyse de contenu et de codage permettra si le corpus nest pas trop volumineux de rigoureusement catgoriser les ides prsentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront par le calcul des intensits lexicales dautomatiser codage des ides prsentes dans le texte. Enfin aprs lexpos des rsultats statistique le texte reprendra ses droits grce aux citations et verabtim qui ajouteront aux chiffres le pouvoir du sens singulier des phrases ou des paroles.

S-ar putea să vă placă și