Sunteți pe pagina 1din 92

UQM

Introduction SPSS

Rachad Antonius Dpartement de sociologie Universit du Qubec Montral


2005

antonius.rachad@uqam.ca Rachad Antonius

Labo 1 1.

Introduction SPSS

Introduction
SPSS, dont le sigle anglais signifie Statistical Package for the Social Sciences, est un programme informatique danalyse de donnes statistiques. Il permet de saisir des donnes, den faire des prsentations rsumes (tableaux, graphiques), de les organiser et surtout de les analyser. Il fonctionne sur les plateformes Macintosh et Windows, ainsi que sur les systme centraux tels UNIX. Nous ferons rfrence trois types de documents SPSS : des fichiers de donnes (SPSS Data Editor), des fichiers de commandes permettant dexcuter des procdures statistiques (SPSS Syntax Editor), et des fichiers de rsultats o apparaissent les tableaux et les graphiques produits par SPSS (SPSS Viewer). Dans ce qui suit nous apprendrons ce que sont ces fichiers et comment les utiliser. Le programme SPSS est constamment mis jour et amlior, mais les diffrences entre les versions rcentes ne sont pas toujours majeures. Nous utiliserons ici la version 11, mais elle ne diffre pas beaucoup des versions subsquentes en ce qui concerne les fonctions lmentaires. Il existe une version franaise de SPSS, et les versions plus rcentes permettent de choisir une interface soit anglaise ou franaise.

2.

Dmarrage de SPSS
Quand on dmarre SPSS, on obtient soit un fichier de donnes vide, ou alors la figure 1.1 que lusager a le choix de faire apparatre ou non au dmarrage de SPSS. Cette bote de dialogue vous donne plusieurs choix, dont ouvrir un nouveau fichier, ouvrir un fichier existant, etc.. Si vous choisissez loption Open an existing data source et puis More Files qui est slectionne par dfault, et que vous cliquez OK, vous obtenez une liste de fichiers SPSS. En faisant dfiler la fentre vers la droite, dautres fichiers apparaissent. En regardant attentivement, vous verrez un fichier nomm GSS93 subset. Slectionnez-le et ouvrez-le. Nous allons travailler beaucoup sur les donnes de ce fichier qui provient dune enqute sociale gnrale (General Social Survey) entreprise aux tats-Unis en 1993. Ce fichier est fourni avec les diverses versions de SPSS et il contient un assortiment de variables intressantes analyser. Il faut cependant noter que si les donnes sont bien relles, lchantillon de 1500 cas utilis pour la construction de ce fichier nest pas reprsentatif. Les conclusions quon en tirera ne refltent donc pas les caractristiques relles de la population amricaine en 1993. Fig. 1.1 En ouvrant le fichier de donnes GSS93 subset, on obtient la fentre suivante (Fig. 1.2).

Fig. 1.2. Vous remarquerez que le nom du fichier apparat au haut de cette fentre et que le terme SPSS Data Editor apparat sa suite. Ce terme dsigne les fichiers de donnes. Dans ces fichiers, on peut saisir les donnes, les organiser et les transformer, do le terme Data Editor. La fentre des fichiers de donnes comporte, au bas gauche, deux onglets, tiquetts Data View et Variable View. Chacun de ces onglets correspond lun des deux affichages possibles de la fentre de donnes : soit les donnes elles-mmes, ou alors la liste des variables ainsi que leurs caractristiques. En cliquant sur un onglet ou sur lautre, on passe dun affichage lautre, en restant toujours dans le mme document. La figure 1.2 montre ci-haut correspond laffichage Data View. Ce sont les donnes ellesmmes que lon voit. Ces donnes sont organises en lignes et en colonnes. Chaque ligne correspond un cas, et chaque colonne une variable. La premire ligne comporte toutes les informations du questionnaire numro 1, la deuxime ligne les informations du questionnaire numro 2, et ainsi de suite. Mais attention : faites dfiler cette feuille de donnes vers le bas jusqu la ligne 1500. Que voyez-vous dans la premire case ? Le numro qui apparat nest pas 1500. Vrifiez vous-mme. On y lit : 1606. Ceci signifie que plusieurs questionnaires ont d tre abandonns, sans doute parce quils comportaient trop domissions, ou quils taient mal remplis. Pour avoir 1500 cas, on a d se rendre au questionnaire 1606. Donc, 106 questionnaires ont t ignors pendant la constitution de ce fichier. Les colonnes correspondent des variables. La premire colonne identifie le cas, ou le questionnaire, qui reoit un numro. La 2me colonne correspond la variable statut demploi. Elle nous renseigne sur le statut de la personne, qui pourrait travailler temps plein, ou temps partiel, ou tre retraite, etc. La troisime colonne donne le statut matrimonial des individus de lchantillon, et ainsi de suite. Nous allons prsent exprimenter quelques manipulations de lapparence du fichier. Vous tes invits les excuter sur votre poste de travail. 1. Laffichage Data View peut faire apparatre soit les codes utiliss pour dsigner les catgories des variables, soit les catgories elles-mmes. Par exemple, on pourrait avoir dans la colonne de la variable sexe soit les codes 1 ou 2, ou les valeurs Hommes ou Femmes. Le changement dune option lautre se fait en slectionnant loption Value Labels dans le menu View ou en la dslectionnant. Faites-en lexprience et observez le rsultat. 2. On peut aussi faire apparatre le nom complet dune variable en positionnant le curseur au haut de la colonne correspondante, l o le nom bref apparat. Ainsi, le nom complet de la variable marital apparat comme tant Marital Status quand on positionne le curseur dessus. Essayez, et trouvez aussi les noms complets des 3 ou 4 variables suivantes.

3. largissez une colonne en positionnant le curseur sur la ligne qui la spare de la colonne suivante, puis en tirant vers la droite avec le bouton droit de la souris press. 4. La commande Variables. Slectionnez la commande Variables dans le menu Utilities. Vous obtiendrez la fentre de la figure 1.3. On peut y lire les caractristiques de chacune des variables en faisant dfiler la liste des variables. En positionnant le curseur sur la variable marital, par exemple, vous verrez la signification de tous les codes utiliss : 1 signifie Married 2 signifie Widowed (i.e veuf ou veuve), etc. Une explication est requise pour le mot Type. Il est suivi de codes de la forme : F4.1, ou encore F1. Cest le format dans lequel la variable est note. F4.1 signifie que quatre espaces sont requis pour noter les valeurs de cette variable, dont un point et une dcimale (le point occupe un espace). On pourra donc inscrire des valeurs telles que 28.3 qui prennent quatre espaces et qui comportent une dcimale. Le format F2 signifie que la variable est note par un nombre comportant deux chiffres, sans dcimale. On peut aussi avoir des formats tels que A8 qui signifie que la variable est note par 8 caractres qui nont pas de valeur numrique, mais le fichier GSS93 subset ne comporte pas de telles variables. 5. Vous remarquerez dans cette mme fentre que le terme Missing Values apparat avec chaque variable. Il dsigne les valeurs manquantes, qui sont spcifies. Ces valeurs sont utilises pour coder des situations telles que Le rpondant refuse de rpondre ou La question ne sapplique pas. Dans de telles situations, on ne veut pas que les valeurs correspondantes soient prises en considration dans les calculs statistiques. La mention Missing Values nous indique que ces valeurs ne seront pas prises en considration dans les calculs. Nous verrons au labo 9 comment dfinir les variables et spcifier les valeurs manquantes. Le terme Measurement Level dsigne lchelle de mesure utilise pour cette variable (nominale, ordinale ou chelle quantitative, notions vues au premier cours). 6. La commande File Info. Slectionnez la commande File Info sous le menu Utilities. Vous verrez une nouvelle fentre apparatre, qui comporte toutes les informations vues dans la fentre Variables mentionne ci-haut. Cette fentre est intitule Output1 et elle est de type SPSS Viewer, qui est le type de fichier qui comporte les tableaux et graphiques produits par SPSS. Lavantage de produire ces informations par la commande File Info, cest quon peut copier toutes ces informations dun seul coup et les coller dans un document Word (ou tout autre traitement de texte) et les faire imprimer en tout ou en partie. Essayez cette procdure : cliquez une fois sur les informations produites par File Info : une bordure apparat, indiquant que cette information est slectionne. Copiez et collez dans un document Word. Chaque fois quon donne une commande SPSS, le rsultat est affich dans une fentre de type SPSS Viewer. Les rsultats des commandes suivantes sont affichs dans le mme fichier, la suite des rsultats dj produits. On peut enregistrer ce fichier de rsultats en lui attribuant un nom de notre choix. On peut aussi slectionner nimporte quel rsultat apparaissant dans ce fichier, puis le copier et le coller dans un document Word. Vous aurez sans doute remarqu que la fentre de rsultats est divise verticalement en deux. Le ct gauche de la fentre comprend une sorte de plan, ou de table des matires des rsultats produits (le terme utilis par SPSS pour dsigner cette partie est : Document map). Quand le fichier de rsultats comprend de nombreux lments, le Document map permet de rprer rapidement un rsultat et de le visionner. Nous navons pas encore parl des fichiers de type SPSS Syntax Editor. Ceci fera lobjet du labo 2.

Exercice 1.1
Ouvrez le fichier intitul Road Construction Bids qui est fourni avec SPSS. Pour cela, cliquez sur Open Data, rprez ce fichier en faisant dfiler la fentre vers la droite, et cliquez deux fois dessus. Produisez les informations sur les variables de ce fichier (File Info), puis copiez-les dans un document Word. IMPORTANT : Incluez dans ce document un en-tte qui comprend votre nom, le numro du labo, la date, ainsi que la pagination. Cette opration a t montre en classe. Tous les documents que vous allez produire dans ce cours doivent comporter un tel en-tte. Enregistrez ce document sur votre disquette afin de le faire imprimer si ncessaire.

SOC 4206 R. Antonius Labo 2 SPSS

2.1

Labo 2

La syntaxe dans SPSS

Les commandes dans SPSS peuvent tre donnes de deux faons : soit en cliquant dans le menu appropri, soit en crivant la commande dans un langage spcial qui doit obir une syntaxe trs prcise, et qui apparat dans une fentre de type SPSS Syntax Editor. Certaines commandes ne peuvent tre donnes que dans le langage de la syntaxe, mais nous naurons pas traiter de telles commandes dans ce cours. Rappelez-vous quil y a trois sortes de fentres dans SPSS : 1. Celles o les donnes apparaissent, appeles SPSS Data Editor, qui ont elles-mmes deux modes daffichage : Data View permet de voir les donnes elles-mmes, et Variable View permet de voir les proprits de chacune des variables, qui sont listes sur le mme cran, chaque variable occupant une ligne. On passe de lun de ces deux affichages lautre en cliquant sur longlet appropri au bas de lcran, gauche. On ne peut ouvrir quune seule fentre de donnes la fois. 2. Celles o les tableaux et les graphiques apparaissent, appeles SPSS Viewer. On peut avoir plusieurs fentres de type Viewer ouvertes la fois. 3. Et celles o la syntaxe apparat, appeles SPSS syntax Editor. On peut avoir plusieurs fentres de type Syntax Editor ouvertes la fois. On peut sauvegarder chacune de ses fentres et lui donner un nom. Ainsi, si vous avez produit des tableaux de frquence, vous pouvez cliquer la commande Save et sauvegarder votre document sous le titre, disons, de Labo 4_Votre_nom_de_famille. Il y a deux faons dcrire une syntaxe. Soit que vous la dactylographiez (les utilisateurs rguliers de SPSS prfrent cette mthode) ou encore que vous demandiez SPSS de lcrire pour vous. En effet, lorsque vous donnez une commande par menus, vous avez toujours loption de cliquer Paste plutt que OK, ce qui a pour effet de coller la syntaxe correspondante dans la fentre de la syntaxe. Regardez la figure ci-contre. Cest la bote de dialogue (Dialogue Box, en anglais) de la commande Frequencies. On a plac la variable Marital Status, qui provient du fichier GSS93 subset, dans lespace des variables traiter dans cette commande. Si on clique OK, on obtiendra le tableau de frquences de ltat matrimonial des rpondants. Mais si on clique Paste, une nouvelle fentre souvre, illustre ci-bas.
NOTE : Il est suggr dexcuter les commandes illustres en mme temps que vous les lisez, afin de bien les comprendre.

On voit dans cette fentre la structure de la syntaxe : la commande utilise est dabord indique (FREQUENCIES). Sur la ligne suivante, en retrait, il est indiqu la liste des variables laquelle cette commande sapplique. La troisime ligne indique lordre dans lequel les tableaux vont paratre, au cas o il y aurait plusieurs variables traiter.

SOC 4206 R. Antonius Labo 2 SPSS

2.2

Vous naurez pas crire la syntaxe des commandes vous-mmes dans ce cours, mais il faudrait apprendre la faire crire par SPSS, comme nous venons de le faire. En effet, la syntaxe a plusieurs avantages : 1. On peut la sauvegarder et refaire les analyses statistiques plus tard, ou les refaire en utilisant dautres donnes qui comportent les mmes variables, ou encore une partie des donnes. 2. Elle permet de tenir une sorte de journal de toutes les commandes qui ont t utilises dans une session de travail. 3. On peut la copier, la coller, la modifier, comme on fait pour nimporte quel texte. On peut ajouter des variables la liste des variables traites. 4. On peut crire des commentaires avant ou aprs la syntaxe, pour expliquer ce quon voulait faire, ou pourquoi on la fait, ou pour tout autre commentaire. Cependant, chaque ligne de commentaires doit tre prcde dun astrix * (quon obtient en tapant majuscule 8) qui indique SPSS que ceci est un commentaire et quil ne faut pas le traiter comme une commande. Il vaut mieux mettre un point la fin dun commentaire ou encore laisser une ligne blanche. 5. Les commandes crites en syntaxe ne sont excutes que lorsque vous demandez SPSS de le faire, soit en cliquant le menu Run All dans la fentre de la syntaxe, ou encore en slectionnant une commande puis en cliquant sur le petit triangle noir qui se trouve parmi les icnes au haut de la fentre de la syntaxe. Exemple de commentaire : Les trois premires lignes de cette fentre commencent par un astrix et sont donc considres comme des commentaires et non pas des commandes. Vous remarquerez aussi que ce document de syntaxe a t sauvegard sous le nom de Antonius Ex1 syntaxe. Il est fort utile dajouter votre nom aux documents que vous produisez quand vous devez les remettre sous forme lectronique, afin que le correcteur sache qui les a produit.

EXERCICE 2.1
Produisez la syntaxe ncessaire pour obtenir les tableaux de frquence des variables Labor Force Status (wrkstat) et Number of Children (childs). crivez un commentaire explicatif et sauvegardez le document de syntaxe que vous avez produit. Prenez lhabitude dajouter une ligne vide aprs chaque commande colle par SPSS, afin que vous puissiez diffrencier une commande de la commande suivante..

SOC 4206 R. Antonius Labo 3 SPSS

3.1

LAB0 3: LES PROCEDURES DESCRIPTIVES I - CATEGORIES


Le but de ce labo est de vous familiariser avec les procdures les plus communes pour dcrire des donnes avec SPSS. Nous travaillera avec le fichier de donnes GSS93 subset qui est fourni avec le programme SPSS. Afin de se familiariser avec les procdures disponibles dans SPSS, nous rpondrons des questions telles que : Quel est l'ge moyen des personnes leur premier mariage ? Quel est l'ge moyen des hommes dans cet chantillon ? Quel est l'ge moyen des femmes ? Peut-on donner une reprsentation visuelle de la distribution de la variable ge ? Quelle est la proportion de personnes qui favorisent la peine de mort ? Il y a quatre commandes qui produisent des mesures descriptives. Elles se trouvent toutes dans le menu Analyze Descriptive statistics tel quillustr par la figure 3.1. Ces procdures sont : La commande Frequencies qui produit des tableaux de frquences mais dautres mesures aussi, La commande Descriptives qui produit des mesures quantitatives, La commande Explore qui produit diverses mesures dun seul coup, pour lensemble des donnes ou encore pour des sous-groupes qui peuvent alors tre compars, et la commande Crosstabs qui produit des tableaux croiss de deux variables ou plus. (Nous nutiliserons pas la commande Ratio pour le moment).

Figure 3.1 Pour chacune de ces commandes, il faut spcifier les variables analyser, ainsi que certaines options offertes par SPSS. Ce laboratoire est de nature exploratoire : il vous permettra de vous familiariser avec ces diverses procdures. Rappelez-vous cependant que lchelle de mesure utilise pour une variable dtermine les procdures que lon peut lui appliquer : il ne sert rien de calculer une moyenne quand la variable est qualitative, par exemple. Les tableaux de frquences de la procdure Frequencies sont appropris quand on a un nombre restreint de catgories, et quon veut mesurer leur importance relative ou absolue. Par contre, cette mme procdure offre de nombreuses options intressantes pour les variables quantitatives. Les procdures Descriptives et Explore ne sont applicables que pour les variables quantitatives.

SOC 4206 R. Antonius Labo 3 SPSS

3.2

Attention: SPSS est un programme danalyse statistique puissant, qui offre une grande tendue de possibilits. Nous nen utiliserons quune petite partie. Il vous faudra donc spficier uniquement les options que vous connaissez, et ne pas modifier celles que vous ne connaissez pas et qui sont offertes par dfaut par SPSS. Si vous obtenez accidentellement des tableaux que vous ne savez pas interprter, ne les utilisez pas dans les rsums danalyses que vous ferez.

Variables qualitatives, ou quantitatives comportant un petit nombre de catgories

La commande Frequencies
1. Slectionnez la commande Frequencies... montre ci-haut. Vous obtenez la bote de dialogue illustre la figure 3.1. Cette procdure est utile quand les variables sont qualitatives, mais elles sont aussi trs utiles quand la variable est quantitative mais quelle a t regroupe en un nombre restreint de catgories, comme par exemple pour la variable Age Categories [agecat4] qui se trouve vers la fin de la liste de variables .

Figure 3.2 Toutes les variables du fichier sont inscrites dans la partie gauche de cette bote de dialogue. Pour obtenir le tableau de frquence dune variable, il faut la slectionner, puis la placer dans lespace prvu droite en cliquant sur le bouton contenant une mini-flche. Remaquez quil y a plusieurs boutons permettant de spcifier des options. 2. Slectionnez les variables Marital Status et Age Categories (attention : pas Age of Respondent qui nest pas regroupe et qui comporte un trop grand nombre de catgories) et placez-les dans lespace prvu droite. Laissez le petit carr de loption Display frequency table slectionn. 3. Cliquez maintenant sur le bouton Statistics. Vous obtenez la bote de dialogue illustre la Figure 3.3.

SOC 4206 R. Antonius Labo 3 SPSS

3.3

Il y a quatre sections dans cette bote de dialogue, chacune permettant un type de mesure descriptives : des mesures de position telles que les quartiles ou les percentiles, des mesures de tendance centrale, des mesures de dispersion, et des mesures qui dcrivent la distribution dans son ensemble. Revoyez les dfinitions de ces termes vues au dbut du cours. Si la variable est qualitative, seul le Mode sera utile parmi ces mesures. Figure 3.3

4. Cliquez Continue, vous reviendrez la bote de dialogue prcdente. 5. Cliquez sur le bouton Charts . Vous obtenez la figure 3.4. On a le choix entre plusieurs type de graphiques. Choisissez Bar charts et cliquez Continue. 6. Dans la bote de dialogue initiale de la commande Frequencies, cliquez sur Paste. Cette opration inscrit la commande dans la fentre du Syntax Editor. Vous devriez obtenir la commande suivante : Figure 3.4
FREQUENCIES VARIABLES=marital agecat4 /STATISTICS=MODE /BARCHART FREQ /ORDER= ANALYSIS .

On voit ici les composantes de cette commande : La commande principale (FREQUENCIES) est suivies des sous-commandes qui spcificient les options possibles : la sous-commande VARIABLES (obligatoire) qui permet de spcifier les variables que lon veut dcrire, la souscommande STATISTICS qui spcifie quon souhaite que le mode soit donn, une souscommande pour les graphiques (BARCHART) et enfin une sous-commande qui spcifie lordre dans lequel les rsultats vont apparatre. videmment, on peut toujours cliquer OK plutt que Paste. Dans ce cas, la commande est excute directement, sans que la syntaxe ne soit donne.

SOC 4206 R. Antonius Labo 3 SPSS

3.4

Exercice 3.1
a) Excutez la commande donne ci-haut et crivez une phrase complte pour chacune des variables, qui dcrit sa distribution en donnant les pourcentages appropris. b) Refaites le mme exercise en slectionnant plutt Pie Charts, puis une autre fois avec Histograms. crivez quelques lignes pour dire les avantages ou inconvenients comparatifs de ces trois types de graphiques pour reprsenter des variables qualitatives.

Lecture et interprtation des rsultats SPSS


Les procdures expliques ci-haut donnent un tableau et un graphique pour chaque variable, mais ces rsultats sont gnralement accompagns dun tableau qui liste toutes les variables, ainsi que le nombre total de cas valides que lon a pour chacune. Ce premier tableau ne nous renseigne pas sur la distribution des variables proprement dites, mais il est important de lexaminer afin de connatre limportance relative du nombre de donnes manquantes. Les tableaux de frquences. Ils comportent cinq colonnes. Produisez les taleaux de frquences pour la variable marital et examinez-les et dcrivez ce que chaque colonne contient. Quelle diffrence voyezvous entre les colonnes Percent et Valid percent ? Quant la colonne Cumulative percentage, elle nest utile que pour les variables mesures par une chelle ordinale ou dintervalle ou de ratio. Elle donne le pourcentage cumulatifs des diverses catgories. Les lignes dun tableau de frquences. Les premires lignes correspondent aux diverses catgories du tableau, et elles sont suivies dune ligne qui donne le nombre total de rponses valides. Observez bien le pourcentage total de rponses valides. Si beaucoup de donnes manquent, il faut se demander pourquoi, car une grande proportion de donnes manquantes pourrait rendre toute gnralisation problmatique. Les lignes suivantes font justement le dcompte des donnes manquantes, en les ventilant selon la raison pour laquelle elles sont manquantes quand cela est possible. En gnral, on utilise trois catgories de donnes manquantes. Les sigles anglais suivants sont utiliss dans les fichiers dexemples de SPSS : DK (Dont Know) ; quand la personne interroge dit ne pas connatre la rponse. NA (No Answer) ; quand la personne na pas rpondu du tout. NAP (Not Applicable) ; quand la question ne sapplique pas. Par exemple, si la question est : quel est lge de votre enfant an, et que la personne na pas denfants. Les diagrammes en btons. Examinez la reprsentation graphique en btons de la variable agecat4. Il sagit de lge regroup en quatre catgories. Vous aurez remarqu sans doute que la barre la plus haute dsigne la catgorie 50 ans et plus . Ceci est d au fait que cette catgorie recouvre une tendue de prs de 40 ans, alors que dautres catgorie ne couvre quune tendue de 10 ans. Ceci donne une image un peu dforme de la distribution. Des catgories dtendue gale permettent de faire de moyennes, et donnent une meilleure reprsentation de la distribution. Cependant, il y a parfois de bonnes raisons de regrouper les ges en catgories ingales. Cest la problmatique laquelle on sadresse qui peut nous amne prfrer un regroupement en catgories ingales ou pas.

Productions de tableaux et graphiques ventils par sous-groupe


Quand on produit des diagrammes en btons, il est souvent souhaitable de ventiler les rsultats en sousgroupes. Ceci signifie que plutt quobtenir les pourcentages des diverses catgories dune variable pour lensemble de vos donnes, vous les obtenez disons pour les hommes versus les femmes, ou encore pour ceux qui ont un diplme universitaire versus ceux qui nen ont pas, et ainsi de suite. Cette procdure sappelle Clustered Bar Charts dans la version anglaise de SPSS. On verra aussi comment obtenir des tableaux de frquences ventils de la mme faon.

SOC 4206 R. Antonius Labo 3 SPSS

3.5

Pour produire un diagramme en btons ventil (Clustered Bar Chart), suivre les tapes suivantes. 1. Slectionnez Bar sous le menu Graphs. 2. Dans la bote de dialogue qui en rsulte, slectionnez Clustered et Summaries for groups of cases. 3. Cliquez Define. Vous obtenez la bote de dialogue illustre la figure 3.5. 4. Placez la variable Marital status dans lespace intitul Category Axis:, et placez la variable Respondents sex dans lespace dsign par Define Clusters by: , tel quillustr dans la figure 3.5. 5. Au haut de cette bote de dialogue, assurez-vous que pour loption Bar represents, vous avez slectionn % of cases plutt que N of cases. La raison de ce choix est la suivante : comme il y a beaucoup plus de femmes que dhommes dans notre fichier de donnes, des diagrammes en btons qui reprsenteraient le nombre de cas dans chaque catgorie donneraient une fausse impression de limportance relative des catgories. Tandis que les pourcentages permettraient de comparer le pourcentage dhommes dans une catgorie avec le pourcentage de femmes dans la mme catgorie. 6. Cliquez le bouton Options et d-slectionnez le choix de faire apparatre les catgories relatives aux donnes manquantes (le libell anglais est : Display groups defined by missing values). 7. Cliquez OK pour excuter la commande directement, ou Paste pour obtenir la syntaxe correspondante. Figure 3.5

La syntaxe obtenue est :


GRAPH /BAR(GROUPED)=PCT BY marital BY sex.

Vous obtenez un diagramme en btons o il devient vident que les hommes se retrouvent dans la catgorie maris en plus grand pourcentage que les femmes, mais que ces dernires sont relativement plus nombreuses dans la catgorie veufs/veuves . Outre que lchantillon que nous avons nest sans doute pas reprsentatif, ce phnomne est d au fait que les femmes ont tendance vivre plus longtemps que les hommes. Il y a donc plus de chances quelles se retrouvent veuves.

SOC 4206 R. Antonius Labo 3 SPSS

3.6

Exercice 3.2
Modifiez la syntaxe prcdente pour obtenir le diagramme en btons pour la variable marital, mais ventil en fonction de la possession ou nom dun diplme universitaire, et crivez quelques lignes pour interprter le diagramme obtenu. Attention : il y a plusieurs variables qui traitent du niveau dducation. Choisissez la bonne : elle na que deux catgories.

Tableaux de frquences ventils


Cest en utilisant la commande Analyze Decriptive Statistics Crosstabs quon obtient des tableaux de frquences ventils en sous-catgories. Cette procdure statistique est utilise sa pleine capacit dans le cadre de lanalyse de la relation entre deux variables, aborde plus loin dans le cours. Mais nous pouvons ici nous y rfrer pour produire les tableaux de frquences ventils par sous-groupes, en nous en tenant une lecture directe des tableaux. Ceci est fait de la faon suivante. 1. Slectionnez la commande Analyze Decriptive Statistics Crosstabs. Vous obtenez la bote de dialogue illustre la figure 3.6 cicontre. 2. Dans la liste des variables, slectionnez la variable Respondants sex et placez-la dans lespace rserv pour les lignes (Rows), et slectionnez la variable Marital Status et placez-l dans lespace rserv pour les colonnes, tel quillustr dans la figure 3.6. 3. Vous pouvez cocher la case Display cluster bar charts, mais vous ne pourrez pas modifier les options par dfaut du diagramme : vous obtiendrez les colonnes du graphique qui reprsentent les frquences (et non les pourcentages) et les catgories des donnes manquantes apparatrons dans le graphique. Si vous avez vraiment besoin des graphiques, il vaut mieux les produire par la commande Graphs comme montr plus haut. 4. Cliquez le bouton Cells et assurez-vous que les cases pour Rows et pour Observed sont coches. Ne cochez aucune des cases du bouton Statistics. Nous verrons ces options plus tard dans le cours, quand nous parlerons dinfrence statistique. Cliquez OK ou encore Paste si vous prfrez travailler avec la syntaxe. Vous devriez obtenir la syntaxe suivante :

SOC 4206 R. Antonius Labo 3 SPSS

3.7

CROSSTABS /TABLES=sex BY marital /FORMAT= AVALUE TABLES /CELLS= COUNT ROW .

Si vous lexcutez, vous obtiendrez le tableau de frquence ventil.

Exercice 3. 4
Excuter les commandes expliques prcdemment, et examinez le tableau qui en rsulte. Rpondez aux questions suivantes. a) Quel est le pourcentage dhommes maris ? b) Quel est le pourcentage de femmes maries ? c) Quel est le pourcentage de personnes maries ? d) Quel est le pourcentage dhommes veufs ? e) Quel est le pourcentage de femmes veuves ? f) Quel est le pourcentage de personnes veuves ?

SOC 4206 R. Antonius Labo 4 SPSS

4.1

LABO 4: LES PROCEDURES DESCRIPTIVES II - VARIABLES QUANTITATIVES La commande Descriptives


Cette commande nest approprie que pour les variables quantitatives, prfrablement mesures avec une chelle dintervalle ou de ratio (scale dans la terminologie de SPSS). Nous allons lillustrer avec un exemple que vous tes invit excuter sur votre poste de travail. 1. Slectionnez la commande Descriptives (Analyze Descriptive Statistics Descriptives). 2. Placez les variables que vous voulez analyser dans lespace dsign par Variables du ct droit de la bote de dialogue obtenue. Nous allons le faire pour les variables Age of Respondent, et Age when First Married. 3. Cliquez sur le bouton Options pour spcifier les statistiques que vous souhaitez obtenir. Vous obtenez la bote de dialogue illustre dans la figure 4.1. Remarquez que vous ne pouvez pas obtenir de graphiques par lentremise de cette commande. Figure 4.1
Cocher les cases de la bote de dialogue correspondant aux mesures que vous souhaitez obtenir

Ces six mesures nous renseignent sur la dispersion des donnes.

Ces deux mesures concernent la forme gnrale de la distribution.

Cette liste vous permet de dterminer lordre dapparition des variables dans les tableaux. .

4. Cliquez Continue. Vous revenez la bote de dialogue principale de la commande Descriptives. 5. Cliquez OK, ou encore Paste si vous voulez travailler avec la syntaxe. Dans ce dernier cas, la syntaxe obtenue est :
DESCRIPTIVES VARIABLES=agewed age /STATISTICS=MEAN STDDEV RANGE MIN MAX .

Le rsultat de lexcution de la commande Descriptives ... est un tableau qui comporte toutes les mesures slectionnes dans les Options. Dans lexemple prsent, vous obtenez :

SOC 4206 R. Antonius Labo 4 SPSS

4.2

Descriptive Statistics

N Age When First Married Age of Respondent Valid N (listwise) 1202 1495 1199

Range 45 71

Minimum 13 18

Maximum 58 89

Mean 22,79 46,23

Std. Deviation 5,033 17,418

Examinez la premire colonne de ce tableau. Les variables analyses sont listes, et le nombre de rponses valides pour chaque variable est donn la colonne 2. Mais la dernire ligne de la colonne 1 comporte le terme : Valid N (listewise). Le nombre 1199 donn la dernire ligne de la colonne 2 est le nombre de cas pour lesquels on a des donnes valide pour chacune des variables listes. On a donc 1199 cas pour lequels on a la fois lge du rpondant et son ge au premier mariage.

La commande Explore
La commande Explore (Analyze Descriptive Statistics Explore) sapplique elle aussi aux variables quantitatives uniquement. Elle nous permet dobtenir une varit de mesures descriptives, ainsi que quelques mesures utilises dans linfrence statistique. Comme son nom le laisse supposer, elle est trs utile dans une dmarche exploratoire visant se faire une ide gnrale de la distribution dune variable. Elle permet en outre de traiter plusieurs variables dun seul coup, et aussi de ventiler les donnes en fonction de sous-groupes dfinis par une variable qualitative (par exemple dobtenir les mesures souhaites sparment pour les hommes et les femmes). Nous allons illustrer ces usages par un exemple. 1. Cliquez sur la commande Explore (Analyze Descriptive Statistics Explore). Vous obtenez la bote de dialogue illustre la figure 4.2.

Figure 4.2 2. Slectionnez la variable Age When First Married et placez-la dans lespace dsign par le terme Dependent List, tel quillustr ci-haut. Laissez les autres espaces vides pour le moment. 3. Cliquez OK ou Paste. Nous examinerons la syntaxe un peu plus loin. Observez pour le moment les deux tableaux obtenus.

SOC 4206 R. Antonius Labo 4 SPSS

4.3

y s d e g A s % 1 . 0 8 N c

a C

s s a C N ln ag i l V M i c 8 9 2 t o T % . 9 1 N 0 5 1 t e n P e n P e e

0 2 1

d e i r a

Descriptives
Age When First Married Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 22.79 .145 22.51 23.08 22.40 22.00 25.331 5.033 13 58 45 6.00 1.658 .071 5.382 .141

Lecture des tableaux obtenus par la commande Explore


Le premier tableau concerne le nombre de donnes valides, et il est plus utile quand nous traitons plusieurs variables simultanment. Les mesures du deuxime tableau ont t expliques dans la partie thorique du cours, sauf les cellules qui ont t ombrages et que nous ignorerons pour le moment : elles concernent linfrence statistique qui sera tudie plus loin dans le cours. Rappelez vous que la mesure 5% Trimmed Mean est la moyenne de la variable aprs avoir limin les 5 % des cas les plus extrmes. Cette mesure est utile quand des cas exceptionnels haussent ou baissent la moyenne de faon marque. Mais il nest pas toujours sage dliminer ces cas extrmes : en fonction des questions que lon se pose, ces cas pourraient tre trs rvlateurs, mais ils pourraient aussi affecter dmesurment les tendances centrales des donnes. Cest pourquoi il est toujours conseill dexaminer tant la moyenne gnrale, que la moyenne quand les donnes extrmes ont t supprimes et se poser la question de la signification de la diffrence entre les deux. Dans ce cas-ci, la diffrence est petite, et elle est due au fait de quelques premiers mariages tardifs : par exemple une personne sest marie pour la premire fois 58 ans, ce qui est lge maximum du premier mariage pour les donnes de ce fichier. La mesure Skewness est une mesure dasymtrie, et elle est gale 0 quand la mesure est parfaitement symtrique. Si la courbe reprsentant la distribution est tire vers la droite, lasymtrie est positive. Si elle tire vers la gauche, lasymtrie est ngative. La mesure Kurtosis est une mesure de la relative platitude de la courbe reprsentant la distribution. Une courbe normale a une Kurtosis gale 0, et cette mesure est positive quand la courbe est plus pointue quune courbe normale, et ngative quand elle est plus platte quune courbe normale. Ces deux mesures ne sont utiles que pour comparer des distributions. Pour les fins de ce cours, linspection visuelle de la courbe sera probablement plus parlante que ces mesures.

SOC 4206 R. Antonius Labo 4 SPSS

4.4

Les options de la commande Explore


Vous aurez peut-tre remarqu que dans la bote de dialogue de la commande Explore, on peut cocher une option qui permet de faire paratre soit des mesures statistiques uniquement, ou des graphiques, ou les deux. Le choix par dfault est Both (les deux). De plus, des boutons spcifiques nous permettent de spcifiez dautres options. Examinons-les.

Les options du bouton Statistics


Quand on clique sur le bouton Statistics, on obtient la bote de dialogue de la figure 4.3 illustre ci-contre. Si on garde loption Descriptives coche (elle lest par dfault), on obtient toutes les statistiques obtenues prcdemment. Le 95 % que lon voit dans une case rfre linfrence statistique et sera discut dans une tape ultrieure du cours. Figure 4.3 Loption Outliers tablit une liste des 10 valeurs les plus extrmes, les cinq plus grandes et les cinq plus petites, ainsi que le numro du cas correspondant ces valeurs, tel quillustr dans le tableau ci-bas. Extreme Values Case Number 1241 190 822 744 777 1357 1377 893 763 665

Age When First Married

Highest

Lowest

1 2 3 4 5 1 2 3 4 5

Value 58 54 50 49 47 13 14 14 14 14

On voit que le cas numro 1241 sest marie pour la premire fois 58 ans, et que cest le cas numro 1357 qui sest marie 13 ans. Ceci nous permet dexaminer les autres caractristiques de ces cas extrmes, et qui nous apprend entre autres que les deux sont des femmes, et que celle qui sest marie 13 ans avait au moment de lenqute 67 ans. Loption Percentiles produit un tableau de certains des percentiles, tel quillustr ci-bas. Les 25e, 50e, et 75e percentiles sont appels Tukeys Hinges. Ce sont ces valeurs qui sont utilises pour constituer la partie centrale du graphique des botes et moustaches , appeles aussi diagrammes en botes. (boxplots en anglais).

SOC 4206 R. Antonius Labo 4 SPSS

4.5

Percentiles

Percentiles 5 Weighted Average (Definition 1) Tukey's Hinges Age When First Married Age When First Married 17,00 10 18,00 25 19,00 50 22,00 75 25,00 90 29,00 95 32,00

19,00

22,00

25,00

Les options du bouton Plots


Le bouton Plots permet de dterminer quels graphiques on souhaite obtenir (figure 4.4). Par dfault, on obtient un diagramme bote et moustaches (ou encore diagramme en botes), Boxplots, quon peut supprimer. On peut aussi obtenir les diagrammes descriptifs classiques, soit des diagrammes de dnombrement des cas (Stemand-leaf) ou des histogrammes. Quant loption Normality plotes with tests elle se rapporte linfrence statistique et ne sera pas traite dans ce cours. Figure 4.4

La ventilation des donnes en fonction de sous-groupes


Un des avantages de la commande Explore est quelle permet dobtenir les mesures descriptives quon a vues ci-haut sparment pour des groupes distincts, dfinis par une variable qualitative. Par exemple, on pourrait obtenir lge au premier mariage sparment pour les hommes et les femmes, ou sparment pour les divers niveaux dducation. Et l il nest pas ncessaire que cette variable qualitative soit dichotomique et elle peut comporter plusieurs catgories. Nous allons illustrer cette procdure en lapplicant la variable de lge au premier mariage, ventile en fonction du sexe. Voici les tapes pour le faire. 1. Dans la bote de dialogue de la commande Explore, placez la variable Age When First Married dans lespace dsign pour la Dependent List, et placez la variable Respondents Sex dans lespace dsign par le terme Factor List. 2. Cliquez OK ou utilisez la syntaxe si vous prfrez. 3. Vous obtiendrez toutes les statistiques usuelles de la commande Explore sparment pour les hommes et pour les femmes. Les diagrammes en botes pour les hommes et pour les femmes seront juxtaposs, permettant des comparaisons.

SOC 4206 R. Antonius Labo 4 SPSS

4.6

IMPORTANT : Les variables places dans la bote Dependent list doivent obligatoirement tre quantitatives. Les variables places dans la bote Factor list doivent obligatoirement tre organises en un petit nombre de catgories.

Exercice 4.1
1. Faites lanalyse de lge au premier mariage en fonction de la variable degree2. crivez vos conclusions en phrases compltes. 2. Refaites-la en fonction de lappartenance religieuse.

SOC 4206 R. Antonius Labo 5 SPSS

5.1

Labo 5

La manipulation des donnes et des variables

Alors que les analyses statistiques proprement dites se font travers le menu Analyze, la manipulation des donnes et des variables se font travers les menus Data et Transform. Nous allons faire quelques exercices comportant ces manipulations.

1. Slectionner un sous-ensemble des donnes pour en faire un traitement statistique


Il y a deux faons de slectionner un sousensemble de donnes : soit en effaant les donnes quon ne souhaite pas conserver, ou alors en les conservant dans le fichier sans en tenir compte dans lanalyse. Ceci sappelle filtrer les donnes. Voici comment cela est effectu. Dans le menu Data, cliquez sur Select Cases. Vous obtenez la fentre ci-contre. Vous remarquerez que le bouton Filtered, au bas de la fentre, est slectionn. Toutes les donnes seront donc conserves dans le fichier. Nous avons cliqu sur loption If condition is satisfied. Il faut maintenant cliquer sur le bouton If afin dindiquer comment le filtrage de donnes doit se faire. En cliquant dessus, on obtient la bote de dialogue suivante :

Supposons quon veuille choisir les hommes de cette population. Mais nous ne souvenons plus si les hommes sont cods 1 ou 2. Alors on clique sur la fentre Variables dans le menu Utilities. Mais SPSS refuse de ragir, car la bote de dialogue de la commande Select est encore ouverte. Il faut la fermer, puis retourner la commande Variables. On fait alors dfiler les variables pour faire apparatre la variable Respondents Sex. On obtient ce qui suit. On voit que cette variable est code ainsi : Hommes, cods 1; femmes, codes 2.

SOC 4206 R. Antonius Labo 5 SPSS

5.2

On retourne la fentre Select Cases, on clique le bouton If et on inscrit ce qui suit dans lespace en haut droite de la bote de dialogue: Sex = 1 On clique Continue, puis OK (rappelez-vous quon aurait pu cliquer Paste, ce qui nous aurait permis de conserver la syntaxe de cette commande). On observe alors que dans la fentre des donnes, tous les numros des cas non retenus (ici, il sagit des femmes) sont barrs. Les analyses qui suivent vont se faire sans inclure ces cas. Si on avait choisi Delete dans la premire bote de dialogue (Select Cases) les cas non retenus auraient t effacs du fichier. Dans ce cas, sauvegarder le fichier quivaut effacer les cas non retenus pour de bon !! Si on veut vraiment travailler avec une partie des donnes seulement, il vaut mieux sauvegarder le fichier en changeant son nom. Ainsi, le fichier original sera conserv avec toutes les donnes, et le fichier de donnes modifi sera conserv sous un autre nom. Si on a choisi Delete par erreur et quon ne veut pas perdre les donnes, il faut fermer le fichier de donnes SANS LE SAUVEGARDER (donc en rpondant NO la question : Save contents of data editor to nom_du_fichier ? (On pourrait aussi sauvegarder le fichier en changeant son nom : ainsi le fichier original resterait intact. On peut toutefois sauvegarder le fichier de syntaxe et celui des tableaux et des graphiques, le Output qui est de type Viewer).

Exercice 5.1
Nous travaillons avec le fichier GSS93 subset. Slectionnez les hommes de la population, puis faites un tableau des frquences de leur statut demploi (par le biais de la syntaxe comme on la appris prcdemment). Copiez ce tableau dans un document Word et ajoutez une explication de ce que vous avez fait. Ensuite, revenez la commande Select Cases, cliquez loption All Cases puis cliquez OK. Ensuite, produisez le tableau des frquences des statuts demploi avec la mme syntaxe. Assurez-vous que ce tableau comptabilise bien TOUTES les donnes du fichier.

Exercice 5.2 : Comment utiliser deux critres dans la slection


Si vous voulez slectionner les hommes qui ont un diplme universitaire, refaites les tapes suivantes, mais quand vous spcifiez le critre de slection (le bouton If) il faut entrer les deux conditions, soit en les dactylographiant, soit en manipulant les variables laide de la souris. La bote de dialogue ressemblera alors ce qui suit. Si vous cliquez Continue puis Paste, la syntaxe de la commande sera :
USE ALL. COMPUTE filter_$=( sex = 1 & degree2 = 1). VARIABLE LABEL filter_$ ' sex = 1 & degree2 = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .

SOC 4206 R. Antonius Labo 5 SPSS

5.3

Produisez prsent les tableaux de frquences produits prcdemment pour cette sous-population.

2. Recodage dune variable


Recoder une variable, cest modifier la faon dont les valeurs et les catgories sont notes. En gnral, cette opration est entreprise pour regrouper des catgories distinctes. Pare exemple, si nous avons lge des rpondants en anne, nous pourrions vouloir les regrouper en tranches dge, en fonction dune problmatique qui ncessite un tel regroupement. Le recodage dans SPSS se fait par la commande Recode qui se trouve dans le menu Transform. Quand on la slectionne, on a le choix entre remplacer la variable quon recode par celle qui en rsulte (Into same variable) ou encore en crer une nouvelle qui rsulte du recodage. Il vaut mieux toujours en crer une nouvelle car on pourrait vouloir rutiliser les valeurs originales. Nous allons effectuer lopration suivante : crer une nouvelle variable par recodage qui comporte les catgories dge suivantes : 30 ans ou moins, 31 ans 40 ans, 41 ans 50 ans, puis 51 ans ou plus. Ceci se fait ainsi. 1. Slectionnez Recode Into Different Variables sous le menu Transform. 2. Dans la bote de dialogue qui apparat, place la variable age dans lespace prvu droite laide du bouton comportant une flche en forme de triangle. 3. droite, dans lespace intitul Name, inscrivez le nom de la nouvelle variable : agerec. 4. Inscrivez ltiquette (Label) de cette variable, cest--dire son nom tout au long : Age recod en 4 catgories. 5. Cliquez sur le bouton Change. Le nom de la nouvelle variable va sinscrire dans la fentre du centre, tel quillustr ci-bas.

6. La nouvelle variable est cre, mais il faut indiquer comment dfinir les nouveaux codes, et ensuite donner des noms aux catgories ainsi dfinies. Pour dfinir les nouveaux codes, on clique sur le bouton Old and New Values . Vous obtenez la fentre illustre au haut de la page suivante. gauche, on indique les anciennes valeurs, et on a plusieurs choix posible (une valeur en particulier, les valeurs comprises entre deux nombres, les valeurs plus grandes ou plus petites quun nombre, etc). droite, on inscrit la nouvelle valeur qui remplace les anciennes. Ainsi, si on veut remplacer tous les ages de 30 ans ou moins par le code 1, on clique : Range : Lowest through :, on inscrit 30 dans lespace appropri, on inscrit 1 dans lespace intitul Value : . La fentre de la page suivante inclut toutes ces oprations.

SOC 4206 R. Antonius Labo 5 SPSS

5.4

7. prsent il faut cliquer le bouton Add pour que ce changement soit enregistr dans la liste de calcul des nouvelles valeurs. On refait la mme chose avec les valeurs 31 40 ans et 41 et 50 ans, puis 51 ans et plus, en prenant soin de choisir le bouton appropri gauche : le bouton des valeurs entre deux nombres est diffrent de celui des valeurs plus petites quun certain nombre. Voici quoi ressemble la fentre en cours dopration.

8. Quand on a rentr les quatre nouvelles catgories, on clique Continue. On retombe sur la premire bote de dialogue de la commande Recode. Plutt que cliquer OK, cliquez Paste pour voir quoi ressemble la syntaxe de cette commande. Vous devriez obtenir la syntaxe suivante.
RECODE age (Lowest thru 30=1) (31 thru 40=2) (41 thru 50=3) (51 thru Highest=4) INTO agerec . VARIABLE LABELS agerec 'Age recod en 4 catgories'. EXECUTE .

9. Observez bien les termes entre parenthses : ils indiquent comment on regroupe les anciennes valeurs et par quoi il faut les remplacer. Cette commande donne aussi le nom de la nouvelle variable (INTO agerec) et la ligne suivante, la commande VARIABLE LABELS, donne aussi le nom complet ou tiquette de la nouvelle variable. Si vous slectionnez cette syntaxe et la faites excuter, SPSS crera une nouvelle colonne lextrmit droite du fichier de donnes qui comportera ces nouvelles valeurs : 1, 2, 3, ou 4. 10. Ces nouvelles catgories nont pas encore de noms ! Il faut en mettre. Pour cela, aller laffichage des variables, du fichier des donnes, et faites dfiler la liste des variables vers le bas. La dernire variable est celle que nous venons de crer. La fentre devrait ressembler ceci :

SOC 4206 R. Antonius Labo 5 SPSS

5.5

11. Cliquez sur la colonne Decimals dans la case correspondant agerec, et changez le 2 pour un 0 : nous navons pas besoin de dcimales pour noter ces quatre catgories. 12. Cliquez sur le ct droit de la case Values correspondant la variable agerec. En cliquant deux fois, la bote de dialogue suivante devrait apparatre :

13. Cette bote de dialogue va vous permettre dinscrire les quatre catgories cres, une une, et de leur coller une tiquette (Value Label). Ainsi vous auriez :
Value : 1 Value Label : Moins de 30 ans.

Ensuite vous cliquez Add, et vous faites de mme pour les trois autres catgories. Cliquez OK, et aller vrifier dans le fichier de donnes. Vous verrez que les catgories on prsent une tiquette, et ce sont ces tiquettes qui vont apparatre quand vous prosuisez des tableaux. 14. Produisez le tableau de frquence de la nouvelle variable pour vous assurer que les catgories ont bien t cres correctement. 15. Sauvegarder le fichier de donnes sous un nouveau nom (ex : GSS93 recod) sur une disquette ou dans votre dossier personnel si vous en avez un sur le serveur.

Exercice 5.3
Recodez la variable age au premier mariage en 5 catgories ainsi : Moins de 18 ans, de 18 25 ans, de 26 35 ans, de 36 45 ans, plus de 45 ans. Produisez le tableau de frquences de la nouvelle variable ainsi cre.

SOC 4206 R. Antonius Labo 6 SPSS

6.1

Labo 6 La cration de nouvelles variables laide de la commande Compute


SPSS nous permet de crer de nouvelles variables partir de variables existantes, en utilisant la commande Compute. Cette commande permet de dfinir cette nouvelle variable et de calculer les valeurs quelle prend pour chacun des cas. Pour effectuer ce calcul, nous pouvons nous-mmes spcifier les oprations arithmtiques faire (additionner ou retrancher des valeurs existantes, les multiplier ou les diviser, etc.) ou encore utiliser des fonctions dj inscrites dans SPSS, telles que : mettre une valeur au carr, calculer le logarithme dune valeur (pouah !), calculer la racine carre dune valeur, choisir la plus grande de deux valeurs ou mme de n valeurs, coller ensemble deux suites de chiffres ou de lettres, slectionner les 3 premiers chiffres (ou les n premiers) dune suite de lettres, calculer la diffrence entre deux dates, etc. Par exemple, si nous avons une variable qui donne lge du rpondant, et une autre qui donne la dure de son mariage ou de son union civile, nous pouvons calculer lge lors du mariage ainsi : ge du rpondant lors du mariage = ge actuel - dure du mariage. SPSS nous permet mme de faire des calculs logiques qui incluent des conditions relies par ET ou par OU. Par exemple, si on a les trois variables :
Vit seule (oui/non) A des enfants (oui/non) Travaille (oui/non)

on peut inventer une variable quon appellerait solitude et quon dfinirait ainsi :
Si la personne vit seule ET quelle na pas denfant ET quelle ne travaille pas : solitude = 4 Si la personne vit seule ET quelle a des enfants ET quelle ne travaille pas : solitude = 3 Si la personne vit seule ET quelle a des enfants ET quelle travaille : solitude = 2 Si la personne ne vit pas seule : solitude = 1

Il faudrait aussi quon ait une bonne raison de dfinir la solitude ainsi et que cette dfinition ait un sens dans le cadre thorique auquel on se rfre. (Vous aurez remarqu que la dfinition donne ci-haut est incomplte, car elle nassigne pas de valeur la variable solitude dans un des cas possibles : essayez didentifier ce cas et proposez une valeur qui vous semble raisonnable). Nous allons examiner prsent comment utiliser la fonction Compute laide des menus ainsi qu laide de la syntaxe. Ouvrez le fichier GSS93. Nous souhaitons calculer une fonction appele Dure du mariage que nous voulons calculer ainsi : Dure du mariage = ge actuel ge au premier mariage. Mais il y a un problme avec cette dfinition. Quest-ce qui garantit que ce premier mariage a perdur jusquau moment de lenqute ? Nous navons pas de variable qui nous informe si cest toujours le premier mariage qui est en cours. On ne peut pas non plus utiliser la variable Statut civil (Marital Status) pour tenir compte des personnes veuves, car mme si la personne a rpondu quelle est marie, nous ne savons pas si ceci est le premier mariage. Compte tenu des informations que nous avons, tout ce quon peut calculer, cest une variable quon appellerait : temps coul depuis le premier mariage, quon obtiendrait en faisant la diffrence entre lge actuel et lge au premier mariage. Donc, on ne suppose pas que cest le premier mariage qui est en cours. Pour simplifier les choses, nous allons calculer la variable : Anne de la naissance. Comme lenqute a t effectue en 1993, il suffira de retrancher lge de la personne de 1993. La formule sera donc :

SOC 4206 R. Antonius Labo 6 SPSS Anne de la naissance = 1993 (ge actuel)

6.2

Voici comment cela est fait dans SPSS. Cliquer sur Transform Compute. Vous obtenez la fentre suivante.
Inscrire ici le nom de la nouvelle variable Inscrire ici la fonction Ceci est un clavier qui vous permet de composer la fonction vous-mme. La barre verticale | veut dire : ou Les deux ** veulent dire : Exposant Le ~ veut dire : Ngation de lnonc.

Ici se trouve une longue liste de fonctions mathmatiques et logiques prdfinies que vous pouvez utiliser.

Nous allons appeler notre nouvelle fonction : an_naiss, et son nom au complet ou tiquette (le Variable Label) sera : Anne de naissance. Inscrivez : an_naiss dans lespace appropri, puis inscrivez dans lespace intitul Numeric Expression la formule suivante :
1993 age

Vous nallez pas crire le mot age. Vous allez plutt cliquer sur la variable age dans la liste qui se trouve gauche, et puis cliquer sur le petit triangle noir qui va placer la variable age l o se trouve le curseur. Votre bote de dialogue ressemblera alors ceci : Cliquez maintenant sur le bouton Type & Label, et inscrivez le nom de la variable au complet : Anne de naissance. Assurezvous que la variable est de type numrique, puis cliquez Continue. Vous revenez la bote de dialogue intitule Compute Variable illustrs ci-haut. Si vous cliquez OK, la nouvelle variable sera cre et se retrouvera au bout de votre fichier ( droite dans laffichage des donnes, et en bas dans laffichage des variables). Mais plutt que de cliquer OK, nous allons cliquer Paste. La commande sera alors affiche ainsi dans la fentre de syntaxe :
COMPUTE an_naiss = 1993-age . VARIABLE LABELS an_naiss 'Anne de naissance ' . EXECUTE .

Regardez bien chaque ligne. La premire dfinit la nouvelle variable, et la deuxime spcifie le nom au complet (ltiquette) de cette nouvelle variable. Slectionner la syntaxe et faites-l excuter, puis courez voir dans la fentre des donnes si elle a t cre comme il faut.

SOC 4206 R. Antonius Labo 6 SPSS

6.3

Exercice 6.1
Crez la variable Anne du premier mariage et produisez un histogramme de frquences. Copiez lhistogramme dans un document Word, copiez aussi la syntaxe qui a produit cette variable, et expliquez pourquoi il y a des donnes manquantes. Conservez ce travail dans vos dossiers.

SOC 4206 R. Antonius Labo 7 SPSS

7.1

Labo 7: Cration dun fichier de donnes


Le but de cette leon est d'apprendre comment crer un fichier de donnes partir d'un questionnaire, comment inclure toutes les caractristiques exiges des variables qui sont cres, comment saisir des donnes, et comment sauver et imprimer un fichier de donnes et un fichier de rsultats.

1. Ouverture dun nouveau fichier de donnes


Rappelez-vous qu'un fichier de donnes lectroniques se compose de l'information qui a t rassemble, puis saisie l'aide dun logiciel statistique et organise de manire faciliter son analyse statistique. Chaque colonne reprsente une variable, et chaque ligne reprsente un cas. Quand vous ouvrez SPSS, vous obtenez une fentre qui offre plusieurs options, incluant: O Et O Open a data file (Ouvrir un fichier de donnes existant). Cliquez le bouton rond prcdant les mots Type in data: vous obtenez un fichier de donnes vierge. Parfois, le programme est configur de telle sorte quil souvre en mode Saisie des donnes. Vous obtenez la fentre illustre dans la figue 7.1 Figure 7.1 Type in data (Saisir les donnes)

Les colonnes correspondent aux variables, et les lignes aux cas. Avant de saisir les donnes, vous devez indiquer les caractristiques de chacune des variables que vous voulez utiliser. Il est toujours prfrable de prparer une matrice de donnes vide avant de saisir les donnes, et d'imprimer linformation du fichier pour vrifier si les variables ont t dfinies correctement. Nous pouvons toujours modifier les caractristiques d'une variable par la suite, et ajouter mme de nouvelles variables, mais il est prfrable de dmarrer avec une bonne matrice vierge o toutes les variables ont t dfinies correctement. Le mot matrice est employ pour indiquer un fichier de donnes vierge o les variables ont t dfinies. Une fois que les donnes sont saisies, nous dsignerons le fichier qui en rsulte comme tant un fichier de donnes. Pour construire la matrice de SPSS, cliquez sur longlet Variable View qui apparat au bas de la fentre du Data Editor.

SOC 4206 R. Antonius Labo 7 SPSS

7.2

Le nom du fichier apparat au haut de la fentre. Dans cet exemple, le mot Untitled apparat parce que nous n'avons pas encore donn un nom au fichier de donnes. Examinez soigneusement les diverses colonnes de laffichage Variable View. Chaque ligne est une variable, et chaque colonne permet de dterminer lune des caractristiques des variables dfinir. Nous allons illustrer dans ce qui suit comment remplir ces cases, mais indiquons en attendant ce que les diverses colonnes permettent de spcifier : Name : cest le nom de la variable (8 lettres ou chiffres, sans espace) Type : cest son type (des nombres, ou une date, ou des lettres etc. ) Width : le nombre despaces rservs pour inscrire les valeurs Decimals : cest le nombre de dcimales utilises pour cette variable Label : cest le nom complet de la variable, qui apparatra dans les tableaux Values : on inscrit ici les catgories dsignes par les codes utiliss pour mesurer les valeurs Missing : on indique ici les valeurs qui doivent tre considres manquantes Columns : on indique ici la largeur des colonnes souhaite pour laffichage Data Align : permet daligner les valeurs de cette variable gauche, droite ou au centre Mesure : permet dindiquer quelle chelle de mesure est utilise (nominale, ordinale ou numrique). Nous illustrerons le procd avec la variable Sexe du rpondant. Nous utiliserons le code suivant : 1 Homme 2 Femme, et nous lui attribuons le nom sexe. 1. La premire colonne complter est le nom de la variable. Celui-ci doit tre un nom court, avec tout au plus 8 caractres et aucun espace. Dactylographiez le nom 'sexe '. 2. La deuxime colonne est le Type. Cliquez sur le ct droit de la cellule ; vous obtenez la zone de dialogue montre dans fig. 7.2. Puis, vous indiquez si les donnes sont numriques, ou un signe tel qu'un point ou une virgule, ou une devise, ou une date, ou une variable chanes de caractres.

Figure 7.2

Une variable de type Numric est employe quand vous voulez saisir vos donnes laide de codes numriques, comme la variable Sexe : les codes employs pour la saisir (1 ou 2) sont des nombres. Si ces nombres se rapportent des valeurs numriques relles vous devez indiquer le nombre despaces et de dcimales dont vous avez besoin. Par exemple, si vous voulez enregistrer la taille du rpondant mesure en centimtres, vous avez besoin de 5 chiffres avec une seule dcimale, afin de pouvoir crire des nombres comme 172.3 centimtres (le point emploie un espace). Si les nombres se rapportent des catgories (par exemple : 1 = Homme ; 2 = Femme), vous n'avez besoin que dun seul espace sans aucune dcimale. Vous aurez besoin de deux espaces si vous avez plus de dix mais moins de 100 catgories, et ainsi de suite.

SOC 4206 R. Antonius Labo 7 SPSS

7.3

Une variable de type String comporte des valeurs qui sont des suites de lettres ou de chiffres sans valeur numrique. Elle est employe quand vous voulez saisir un nom propre par exemple, tel que Pierre, ou Marie. Peu de procdures statistiques s'appliquent aux variables de type String. Elles sont utilises pour dsigner les divers cas du fichier, ou encore pour retranscrire des questions ouvertes. 3. La troisime colonne, width, permet de spcifier le nombre despaces requis est largeur. On a dj spcifi ce nombre ltape prcdente, mais il peut tre modifi directement dans cette colonne. 4. Les mmes remarques sappliquent la quatrime colonne qui permet de spcifier le nombre de dcimales. 5. La cinquime colonne, Label, est le nom dtaill de la variable, par exemple : Sexe du rpondant. C'est le nom qui apparatra dans les tableaux produits par SPSS. Il faut donc le choisir avec soin pour quil dsigne clairement la variable tout en tant concis. 6. La sixime colonne permet de spcifiez les catgories utilises pour mesurer la variable. Cliquez sur le ct droit de la cellule. La zone de dialogue montre dans la figure. 7.3 devrait apparatre.

Figure 7.3 Inscivez 1 et Homme dans la case Value, dans la case Value Label.

Cliquez sur Add, puis recommencer avec : 2 dans la case Value, et Femme dans la case Value Label. Cliquer encore sur Add, puis sur OK. 7. La septime colonne permet de spcifier les valeurs manquantes. Pour la variable Sexe, nous pourrions la laisser telle quelle puisquon s'attend ce que le sexe du rpondant soit connu. Mais nous pouvons penser aux situations o le sexe du rpondant n'est pas connu avec certitude (par exemple s'il est dtermin par la voix dans une communication tlphonique) ou si les donnes proviennent de fichiers darchives incomplets. Dans ces cas, il faut prvoir une valeur manquante. En cliquant sur le ct droit de la cellule, nous obtenons la zone de dialogue montre dans la figue 7.4.

SOC 4206 R. Antonius Labo 7 SPSS

7.4

Figure 7.4 La fentre vous donne trois choix. Ou vous n'avez aucune valeur manquante, ou vous avez jusqu' trois valeurs manquantes distinctes (cest ce que signifie le mot Discrete) ou enfin vous considrez comme manquantes toutes les valeurs qui tombent dans ltendue entre deux nombres, avec la possibilit davoir une valeur manquante distincte additionnelle. Par exemple, on peut avoir les valeurs manquantes codes par : 7, 8, et 9. Mais il faudra retourner la colonne Values et inscrire les significations des codes 7, 8 et 9. Par exemple, cela pourrait tre : 7 Ne sait pas 8 Pas de rponse, et 9 Ne sapplique pas. Par exemple, si vous aviez deviez coder la question pose uniquement aux personnes qui remplissent une dclaration de revenus : Pensez-vous que les politiques fiscales du gouvernement sont bonnes ? vous pourriez utiliser les codes suivants et distinguer les donnes manquantes par les trois possibilits : Ne sait pas, Refuse de rpondre, ou Ne sapplique pas. La possibilit Ne sapplique pas serait coche pour les personnes qui ne remplissent pas de dclaration de revenu. Ceci est illustr par la figure 7.5.

Figure 7.5 Notez quil est important d'indiquer les valeurs manquantes correctement, sans quoi SPSS les comptera dans les statistiques, ce qui pourrait fausser les rsultats. 8. La huitime colonne, Columns, vous permet de dterminer la largeur de laffichage de la colonne l'cran. Vous pouvez laisser la valeur suggre par SPSS par dfaut. 9. La neuvime colonne, Align, vous permet de dterminer lalignement (gauche, droite ou centre) du texte apparaissant l'cran dans laffichage Data View. Vous pouvez laisser la valeur suggre par SPSS par dfaut. 10. La dernire colonne, Mesure, est trs importante. Elle permet de dterminer lchelle de mesure utilise pour la variable : numrique, ordinale ou nominale (scale, ordinal, nominal). Pour la variable sexe, nous choisirons nominal. Vous avez peut-tre not que certains des fichiers dexemples de SPSS se

SOC 4206 R. Antonius Labo 7 SPSS

7.5

classent des variables qualitatives telles que sexe comme tant ordinales. Ceci est gnralement fait quand une variable qualitative a seulement deux catgories (cest--dire quand elle est dichotomique), et ceci nous permet d'excuter certaines procdures statistiques sur de telles variables. Dans ce cours, nous n'aurons pas besoin d'employer les chelles ordinales de mesure pour coder des variables qualitatives. Vrification de la matrice SPSS cre Quand vous aurez fini de dfinir toutes vos variables, vous pourriez vouloir vrifier que vous n'avez fait aucune erreur. La meilleure manire de le faire est de faire apparatre toutes les variables avec leurs caractristiques et d'examiner les rsultats. Ceci est fait en cliquant sur Utilities File Info. Le rsultat devrait ressembler ce qui suit (nous avons dfini la variable Sexe, et la variable pol_fisc concernant les politiques fiscales mentionnes plus haut.

List of variables on the working file Name SEXE Sexe du rpondant Measurement Level: Nominal Column Width: 8 Alignment: Right Print Format: F1 Write Format: F1 Value 1 2 POL_FISC Label Homme Femme 2 Position 1

Pensez-vous que les politiques fiscales du gouvernement sont Measurement Level: Nominal Column Width: 8 Alignment: Left Print Format: F1 Write Format: F1 Value 1 2 7 8 9 Label Oui Non Ne sait pas Refuse de rpondre Ne s'applique pas

Toutes les caractristiques de la variable sont indiques ici. Vous pouvez vrifier que le nom bref et le nom complet de chaque variable sont corrects. Remarquez que le libell de la question sur les politiques fiscales est incomplet car il est trop long. Cependant, il apparatra au complet dans les tableaux de frquences. Vrifiez que les codes sont bien ceux que vous vouliez saisir. Vous devez galement examiner le format, les valeurs manquantes, ainsi que les codes attribus aux valeurs manquantes. Quand vous avez dfini toutes vos variables et que vous avez vrifi que cela a fait correctement, vous pourrez commencer saisir vos donnes dans la fentre Data View. En gnral, il vaut . Aprs que vous

SOC 4206 R. Antonius Labo 7 SPSS

7.6

avez dactylographi les donnes dans une des cellules, si vous appuyez sur la toumieux le faire un cas la fois, cest--dire ligne par ligne. La touche TAB sur votre clavier vous permet de dplacer le curseur la cellule suivante sur la mme ligne, mais si vous appuyez sur la touche Enter sur votre clavier le curseur se dplacera la cellule de la ligne suivante, dans la mme colonne. Quand vous saisissez les donnes, vous devez crire les codes, et non pas les noms des catgories. Par exemple, pour la variable sexe, vous crirez : 1 et non pas Homme , ou 2 et non pas Femme . SPSS fera apparatre soit les valeurs, soit les codes, selon que Value Labels est coch ou pas dans le menu View. Pour une variable quantitative telle que l'ge du rpondant, vous crirez l'ge lui-mme. Il n'y aura aucune tiquette de valeur pour cette variable, mais vous auriez intrt inclure une valeur manquante tel que 999 pour les cas o la rponse est manquante. Cependant, si lge est cod en catgories, alors l il faut saisir la dsignation de chaque catgorie. Par exemple, lge peut tre cod ainsi : 1 Moins de 25 ans 2 De 25 39 ans 3 De 40 64 ans 4 65 ans ou plus 999 Non rponse. Mais il est prfrable de noter lge en annes ou en mois, et ensuite de regrouper en catgories si ncessaire.

Exercice pratique
Crez un fichier de donnes de SPSS pour saisir des donnes recueillies l'aide du questionnaire suivant. Un questionnaire non rempli est donn, suivi des donnes (hypothtiques) se rapportant 10 enfants. Crez dabord une matrice SPSS vierge incluant toutes les questions du questionnaire. N'oubliez pas d'inclure des valeurs manquantes chaque fois que cela est appropri. Puis imprimez l'information sur les variables (File Info) pour vrifier que les variables ont t cres correctement. Ensuite, vous pourrez saisir les donnes ci-dessous et enregistrer sur une disquette le fichier de donnes que vous aurez cr. Pour vous assurer davoir saisi les donnes correctement, produisez les tableaux de frquence pour toutes les variables et examinez-le pour voir si ils correspondent aux donnes fournies. Pour fin dvaluation : recopiez linformation sur les variables (File Info) dans un document Word bien identifi (Labo 7, date, votre nom) et remettez-le.

SOC 4206 R. Antonius Labo 7 SPSS

7.7

QUESTIONNAIRE Numro du questionnaire: _____ 1. Sexe : Garon (M) _____ Fille (F) _____ 2. ge de lenfant ? ________ (en mois) 3. Taille de lenfant en centimtres ? ________ 4. Taille du pre (en cm) ? _______ 5. Taille de la mre (en cm) ? ________ 6. Couleur naturelle des cheveux ? (cochez une seule case) Noirs Bruns Blonds Roux Chtains 7. Couleur des yeux ? Noirs Bruns Bleus Verts Autre 8. Est-ce que lenfant a dj eu des accidents ncessitant une hospitalisation ? 9. Est-ce que lenfant est gaucher, droitier, ou ambidextre?

Oui ______ Non _____

___________

10. Est-ce que lenfant frquente une garderie deux jours par semaine ou plus ? Oui ____ Non ______

Voici les rponses concernant 10 enfants : Q1 M F F F M M F M M F Q2 20 18 22 22 20 28 18 17 22 30 Q3 68 67 68 67 68 76 60 61 68 78 176 171 178 177 170 168 Q4 172 180 175 Q5 170 165 176 169 164 166 172 167 172 160 Q6 Noirs Bruns Blonds Noirs Bruns Roux Bruns Bruns Blonds Bruns Q7 Verts Bleus Noirs Bleus Bruns Bleus Bruns Bleus Bleus Bruns Non Oui Q8 Non Non Oui Oui Non NSP Oui Q9 Gauche Droite Droite Ambid. Droite Droite Droite Droite Droite Ambid. Q10 Non Oui Oui Oui Non Oui Non Non Non Oui

SOC 4206 R. Antonius Labo 8 SPSS

8.1

Labo 8

Les tableaux croiss deux entres

On obtient les tableaux croiss par la commande Analyze Descriptive Statistics Crosstabs. On place la variable indpendante dans la bote des lignes (rows) et la variable dpendante dans celle des colonnes. On peut faire le contraire aussi : les rsultats statistiques seront exactement les mmes, mais les tableaux seront moins faciles lire. Il est plus naturel de les lire quand on place les variables tel quil a t suggr ci-haut. Essayons avec les variables College Degree (qui se trouve ves la fin de la liste, dont le nom bref est degree2) comme variable dpendante, et Respondent Sex comme variable indpendante. Pour obtenir les pourcentages de chaque catgories selon les lignes, on clique le bouton Cells, et dans la bote des pourcentages, on slectionne Rows. Si on clique Paste, on obtient la syntaxe suivante :
CROSSTABS /TABLES=sex BY degree2 /FORMAT= AVALUE TABLES /CELLS= COUNT ROW .

Rappelez-vous que vous pouvez aussi dactylographier cette syntaxe directement, sans passer par les menus. Si on excute cette syntaxe, on obtient le tableau suivant.
g D e e l o C *

g e lD o C r o N 0 e d n o p s R x e S e 0 1 n w l a t o T 8 2 , n i h t 1 % 0 m e F 2 u o C % e d n o p s R u o C % o p s e R u o C % e d n o p s R 6 4 3 , 7 2 x e S % , 2 7 3 8 6 % l o C 1 e r g d g e 5 7 1 % l 2 7 1 % 7 4 3 % % % 0 5 8 % , 9 7 x e S 's t n d l a t o T 1 4 6 e l a M 's t n

, 0 1 t i 1

, 0 2

Ce tableau nous donne le nombre de cas dans chaque cellule, mais aussi le pourcentage relatif chaque ligne. Ainsi, on peut voir que chez les hommes, 72,7 % dentre eux nont pas de diplme universitaire, et que 27,3 % dentre eux en ont obtenu un. Chez les femmes, seules 20,1 % ont un diplme universitaire. Il y a donc une diffrence importante entre les hommes et les femmes de cet chantillon en ce qui concerne le taux de diplomation universitaire. Mais attention : nous navons pas dit que cette relation est causale, ni quelle est valide pour lensemble de la population. Ces affirmations pourraient bien tre vraies, mais les informations dont nous disposons ne nous permettent pas de le conclure. Pour conclure savoir si cette relation est gnralisable la population entire, ou si elle est le fruit du hasard du choix de lchantillon, il faut faire un test du Chi-carr. Les fondements de ce test seront discuts ultrieurement, mais on peut dj apprendre produire les mesures ncessaires et les interprter. Pour que SPSS calcule le chi-carr, quand on donne la commande Crosstabs, on clique sur le bouton Statistics et on coche le choix Chi-square. On obtient la syntaxe suivante.

SOC 4206 R. Antonius Labo 8 SPSS CROSSTABS /TABLES=sex BY degree2 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT ROW .

8.2

Remarquez la ligne qui se lit :


/STATISTIC=CHISQ

Cest une sous-comamde quon peut ajouter ou non, et qui demande SPSS de calculer le chi-carr. EN excutant cette syntaxe, on obtient le tableau suivant :
s e T r a u q S i h C

. p m y s A . g i S d i s 1 ( , 0 1 a e P h C o C o C l e k i L 5 , 0 1 h s i F r a e n i L 6 , 0 1 a i c o s A V f o N i l a e l b a t 2 x o d t c e . e a t d u p m o C . c b 0 e t n u o c e ) d e e
a

. g i S t c a x E 1 0 , 1 0 , 1 0 , x E 1 0 , 1 0 ,

S t c a x E i s 2 (

o i t

o s r 1 i t n 4 2 , 0 1 1 r 8 o 3 h 1
b

f d

3 1

1 0 ,

6 0 6 9 4 1

l n o d t c e p ) % 0 , ( s l p

Seule la premire ligne nous intresse. Elle indique que le chi-carr est gal 10,613, une valeur que nous ne pouvons pas interprter pour le moment. Mais elle indique aussi le niveau de signification dans la colonne Asymp. Sig. (2-sided). Ce niveau est de 0,001. Cette mesure nous intresse. Elle indique que : sil ny avait pas de diffrence entre les hommes et les femmes de la population, il y aurait moins de 1 chance sur 1000 que lon obtienne un tel chantillon. Or ceci est si rare, que lon prfre opter pour lautre solution : celle de supposer quil y a effectivement une diffrence entre les hommes et les femmes au niveau de toute la population. Les niveaux de signification peuvent tre interprts ainsi : - Un niveau de 0,05 signifie quil y a moins de 5 pour 100 de chances dobtenir un tel chantillon dune population o il ny aurait pas de diffrences entre les hommes et les femmes. - Un niveau de 0,01 signifie quil y a moins de 1 pour 100 de chances dobtenir un tel chantillon dune population o il ny aurait pas de diffrences entre les hommes et les femmes. Exercice 8.1: (retranscrire les noncs sur une document Word ou sur une feuille remettre) 1. Produire le tableau crois pour les variables Sex (indpendante) et vote92 (dpendante), en produisant les pourcentages par ligne et le chi-carr. Rpondre aux questions suivantes : a) Le pourcentage dhommes de cet chantillon ayant vot en 92 est de b) Le pourcentage dhommes de cet chantillon ayant vot en 92 est de c) Le pourcentage de personnes de cet chantillon ayant vot en 92 est de d) Les hommes de cet chantillon ont tendance voter .. (plus /moins) que les femmes. e) Le chi-carr est de .. et le niveau de signification de f) Ceci signifie que la relation entre le sex et le fait de voter ou non est . (significative/non-significative). 2. Recommencer lexercice avec les variables GUNLAW et CAPPUN.

SOC 4206 R. Antonius Labo 9 SPSS

9.1

Labo 9

Les comparaisons de moyennes

Cette procdure est utilise pour voir sil y a un lien entre une variable qualitative (ou organise en un nombre restreint de catgories), considre comme la variable indpendante, et une variable quantitative considre comme la variable dpendante. On calcule la moyenne de la variable quantitative sur chacune des catgories de la variable indpendante, pour voir sil y a des diffrences notables. Ici, nous utiliserons aussi les diagrammes en botes (box-plots) pour illustrer ces diffrences. Par exemple, on peut calculer la moyenne du revenu pour les hommes et pour les femmes sparment. Pour utiliser cette procdure, utiliser la commande Analyze Compare Means Means. Inscrivez une variable quantitative dans la case Dpendent List et une variable dont les valeurs sont des catgories discrtes dans la case Independent List. Par exemple, ces variables pourraient tre lge et le sexe, ou encore lge au premier mariage et le sexe. La syntaxe obtenue est la suivante :
MEANS TABLES=age BY marital /CELLS MEAN COUNT STDDEV .

Si on excute cette syntaxe, on obtient le tableau suivant.


p e R t r o

n e d o p s R f g A . d t S , 5 1 s S l t i r a M 1 2 v i d 3 p e s 4 d t a r m r v e n 5 a t o T n a e M 9 6 9 , 1 7 9 1 , 6 4 8 7 , 0 4 7 5 , 1 3 3 2 , 6 4 N 4 9 7 3 6 1 3 1 2 0 4 5 8 2 5 9 4 1 8 5 8 7 , 0 1 d w o d

t 4

rr 8 1 l

4 , 7 1

On voit ici que lge moyen des personnes maries est de 46 ans environ, alors que celui des personnes veuves est de prs de 72 ans. Celles qui nont jamais t maries ont en moyenne presque 32 ans. Ceci peut tre illustr par le graphique suivant : Cliquez GraphsBoxplots. Vous obtenez la bote de dialogue suivante : Cliquez sur Simple et sur Summaries of groups of cases, puis sur Define. Dans la bote de dialogue qui apparat, mettez la variable age dans la bote Variable, et la variable Marital Status dans la bote Category Axis, puis cliquez Paste. Vous devriez obtenir la syntaxe suivante.
EXAMINE VARIABLES=age BY marital /PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL /MISSING=REPORT.

En lexcutant, vous obtenez le diagramme de la page suivante qui illustre non seulement les diffrences de moyennes entre les divers groupes, mais aussi les diffrence dans la distribution des valeurs.

SOC 4206 R. Antonius Labo 9 SPSS

9.2

100

80

1089 1138

1142

60

421 5 1451 588 284 846 424 878 895 1112 1295 85 89 1082 221 150

Age of Respondent

40

1348 1419

20

0
N= 794 163 213 40 285

married widowed

divorced

never married separated

Marital Status

Exercice 9.1. crire vos rponses dans un document Word remettre au plus tard au prochain cours. 1. Examiner les diffrences dge au premier mariage entre les personnes ayant complt des niveaux dtudes diffrents. Tirez les conclusions qui se dgagent en vous souvenant que ces conclusions ne concernent que notre chantillon. Nous navons pas encore appris gnraliser ce type de relation lensemble de la population. 2. Examiner les diffrences de revenu entre hommes et femmes et ajouter vos conclusions toutes les mises en garde qui simposent, compte tenu de la faon dont la variable Revenu est code. 3. Examiner les diffrences de revenu entre en fonction des allgeances politiques (partyid). 4. Examiner les diffrences de revenu en fonction des quatre catgories dge (agecat4)

SOC 4206 R. Antonius Labo 10 SPSS

10.1

Labo 10

La corrlation et la rgression

Quand les deux variables sont quantitatives, lassociation statistique entre elles prend la forme de la corrlation. Ce terme est synonyme du terme : association statistique entre variables quantitatives. Pour cet exercice, nous utiliserons le fichier intitul Road constructions bids qui est fourni avec SPSS et auquel on accde en cliquant More Files lorsquon dmarre SPSS. Nous allons tudier les corrlations entre les cots estims et les cots rels de projets de construction de routes entrepris par une agence municipale de transport, dsigne dans le fichier par le terme DOT, soit Department of Transport. Nous allons effectuer deux oprations distinctes. Lune consiste produire les coefficients de corrlation entre des variables, et lautre dessiner le nuage de points et obtenir la ligne de rgression. SPSS peut produire les coefficients de corrlation entre plusieurs variables prises deux deux, dun seul coup. On gnral on fait cette opration dans un premier temps pour explorer la situation, afin de dceler les relations significatives, puis on analyse avec plus de dtails ces relations.

Calcul des coefficients de corrlation


Pour obtenir les coefficients de corrlation, nous allons excuter les tapes suivantes. 1. Ouvrez le fichier Road construction bids. Pour le trouver, slectionner More files quand vous ouvrez SPSS. Vous obtenez une liste de fichiers, et celui-ci est dans la liste. 2. Prenez le temps dexaminer les variables prsentes dans le fichier, et surtout leur chelle de mesure. Les variables traitent des cots de certains projets de construction, des cots estims, et du nombre de jours de travail ncessaires pour leur excution. 3. Nous allons examiner la relation entre le cot estim dun projet et son cot rel. Lestim est donn par la variable dotest, dont ltiquette est DOT Engineers Estimate of Construction Cost, et le cot rel est donn par la variable cost, dont ltiquette est Construction cost. Dans un premier temps, nous voulons savoir dans quelle mesure les estims des ingnieurs taient proches des cots rels. 4. Slectionnez : Analyze Correlate Bivariate Vous obtenez la bote de dialogue suivante :

5. Placez les variables Construction cost et DOT Engineers Estimate of Construction Cost dans lespace prvu cet effet droite. 6. Cliquez OK (vous pouvez aussi utiliser la syntaxe si vous prfrez). Vous obtenez le tableau suivant :

SOC 4206 R. Antonius Labo 10 SPSS

10.2

Correlations
Contract Cost DOT Engineer's Estimate of Construction Cost Pearson Correlation Sig. (2-tailed) N Pearson Correlation Contract Cost DOT Engineer's Estimate of Construction Cost 1,000 ,987 , ,000 235 235 ,987 1,000 ,000 235 , 235

Sig. (2-tailed) N ** Correlation is significant at the 0.01 level (2-tailed).

Le coefficient de corrlation qui nous intresse est de 0.987, ce qui est une forte corrlation. Ceci signifie quen gnral, les cots estims sont pas mal proche de la ralit : ce sont de bons estims des cots rels. Mais ils ne sont pas identiques aux cots rels pour autant. Vous aurez sans doute remarqu quen plus de donner le coefficient de correlation (appel coefficient de Pearson), le tableau vous donne aussi un niveau de signification, et le nombre de cas qui ont t inclus dans le calcul. Le niveau de signification nous dit quel risque de se tromper on prend si on prtend que la relation observe est valable pour lensemble de la population tudie en supposant videmment que les donnes que lon a constituent un chantillon reprsentatif). Le nombre de cas utilis est important car il se peut quil y ait des donnes manquantes. Dans notre cas, les 235 donnes cas du fichiers ont t inclus. Il ny a pas de donnes manquantes. Remarquez aussi quil y a une certaine redondance dans le tableau. La corrlation dune variable avec ellemme est toujours 1. De plus, la corrlation entre x et y est la mme quentre y et x. Donc, une partie du tableau aurait pu tre omise, et certaines versions de SPSS omettent effectivement certaines des cellules redondantes. Ainsi, le tableau suivant contient exactement les mmes informations que le prcdent, rien de moins, car on sait comment remplir toutes les cellules vides. Correlations
Contract Cost DOT Engineer's Estimate of Construction Cost Pearson Correlation Sig. (2-tailed) N Pearson Correlation Contract Cost DOT Engineer's Estimate of Construction Cost ,987 ,000 235

Sig. (2-tailed) N ** Correlation is significant at the 0.01 level (2-tailed).

Illustration graphique et ligne de rgression


Les tapes suivantes vont nous permettre dillustrer la situation. 7. Cliquez Graphs Interactive Scatterplot. 8. Dans la bote de dialogue qui en rsulte, faites glisser la variable dotest vers laxe horizontal du graphique, and the variable cost vers laxe vertical. La bote dialogue devrait avoir lair de celle qui est illustre la page suivante 9. Cliquez sur longlet dnomm Fit dans la partie suprieure de la bote de dialogue. Vous obtenez une nouvelle bote de dialogue : assurez-vous que loption Regression a bien t choisie, et que la petite bote correpondant au mot Means na pas t slectionne. Ceci est illustr la page suivante.

SOC 4206 R. Antonius Labo 10 SPSS

10.3

10. Longlet Options vous permet de choisir plusieurs styles de diagrammes pour le nuage de points. Nous avons choisi Classic. 11. Cliquez OK. Vous devriez obtenir le diagramme de la page suivante.

SOC 4206 R. Antonius Labo 10 SPSS

10.4

10000.00
A

A A

Linear Regression

Contract Cost = 20.91 + 0.93 * dotest R-Square = 0.97

Contract Cost

7500.00

A A A A A A A A A A AA A A A A

A A

5000.00
A A A A A A A A A A A A A A A A AA AA A AA A A AAA A AA A A AAA AA AA A AA AA AA A A A A A AA A A A AA A AA AA AA A A AA AA A A A A A A A A A A AA AA A A AA A A AA AA A A A AA A

2500.00

0.00

0.00

2500.00

5000.00

7500.00

10000.00

DOT Engineer's Estimate of Construction Cost

Le diagramme illustre la relation entre les deux variables, et il donne lquation mathmatique de la droite qui exprime la tendance gnrale. Nous pouvons tirer les conclusions suivantes du graphique : 1. Il y a une forte corrlation entre lestim que font les ingnieurs de lagence de transport, et les cots rels des projets. La corrlation est de 0.987, don dans le tableau produit plus haut. Le cot estim est donc un bon prdicteur des cots rels dun projet. 2. Cependant, les ingnieurs de lagence de transport ont tendance surestim lgrement les cots. Lquation de la rgression comporte en effet un coefficient b de 0,93 (mois que 1) et un ajustement de prs de 20 $ (le coefficient a). Cette quation apparat au haut du diagramme illustrant le nuages de points. 3. Nous constatons aussi que les estims sont plus prcis pour les petits contrats que pour les gros. 4. Pour un projet donn, nous pouvons estimer le cot rel du projet de deux faons : graphiquement dabord, en trouvant la valeur y qui correspond la valeur x propose par les ingnieurs : cest celle que la ligne nous donne. Ou encore en utilisant lquation. Ainsi, un projet estim 5000 $ par les ingnieurs cotera en ralit autour de : 20.91 + 0.93 (5000) = 20.91 + 4650 = 4671 $ (Vous aurez sans doute remarqu quil sagit de notre propre estim des cots rels, celui que lon fait partir de lestim des ingnieurs !! Le cot rel exact est donn par les donnes elles-mmes, et graphiquement, par le point qui reprsente un contrat.)

Exercise 10.1
Ouvrez le fichier World95, and examinez les corrlations entre les variables suivantes. Les variables sont dsignes par ltiquette (Value Label) anglaise quelles ont dans le fichier. Aprs avoir produit le tableau des corrlations pour toutes les variables, slectionnez deux corrlations fortes et une moyenne et faites-en lanalyse. Essayer dcrire des analyses similaires celles qui ont t faites ci-haut. Average female life expectancy (esprance de vie femmes) People who read (%) (pourcentage dalphabtisation dans la population) Female who read (%) (pourcentage dalphabtisation des femmes) Infant mortality (deaths per 1000 live births) (mortalit infantile) Daily calorie intake (calories consommes en moyenne par jour, par personne) Birth rate per 1000 people (taux de natalit)

SOC 4206 R. Antonius Labo 11 SPSS

11.1

Labo 11: Estimation et intervalles de confiance


Le but de ce labo est d'apprendre comment produire une procdure d'estimation et en interprter les rsultats. Rappelez-vous que lorsquon estime la valeur dun paramtre partir dune statistique, on nobtient jamais une valeur unique, mais un ensemble de valeurs probables un certain niveau de confiance. On peut formuler lensemble de ces valeurs probables comme un intervalle (dit intervalle de confiance), ou encore comme une valeur ponctuelle accompagne (toujours) dune marge derreur. La largeur de lintervalle ainsi que les marges derreur dpendent du risque de se tromper que lon est prt prendre, ou encore, inversement, du niveau de confiance quon souhaite incorporer dans nos rsultats.

Intervalle de confiance pour la moyenne


SPSS peut calculer les intervalles de confiance pour la moyenne d'une variable quantitative. Ceci est fait par la commande Explore, vue dans le laboratoire 3. Nous illustreront la mthode par un exemple tir du fichier Employee Data. Voici comment procder. 1. Ouvrir le fichier Employee Data. 2. Clicker sur Analyze, puis Descriptive Statistics puis Explore. 3. Dans la bote que vous obtenez, vous pouvez choisir les variables que vous voulez analyser. Choisissez une variable quantitative, disons la variable Months Since Hire, surnomme jobtime, et placez-la dans la bote des variables dpendantes. 4. Vous avez galement un bouton appel Statistics qui vous permet de dterminer ce que vous voulez voir calculer. Cliquez dessus. Vous obtenez la bote de dialogue montre dans la figure 11.1. Le mot Descriptives est slectionn, et le niveau de confiance propos est 95 %. Vous pouvez le changer en 99 % ou en 90 % si vous prfrez.
Indique le niveau de confiance souhait

Figure 11.1 5. Cliquez sur Continue, puis Paste dans la bote de dialogue Explore. Dans la fentre de la syntaxe, vous obtiendrez les commandes suivantes :
EXAMINE VARIABLES=jobtime /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

Il y a une commande principale EXAMINE, et plusieurs commandes secondaires. Les deux seules qui soient importantes ici sont la commande VARIABLES qui vous permet de spcifiez la variable

SOC 4206 R. Antonius Labo 11 SPSS

11.2

analyser, et celle qui dtermine lintervalle de confiance, soit CINTERVAL 95. De sorte que vous pouvex effacer toutes les lignes sauf les suivantes :
EXAMINE VARIABLES=jobtime /CINTERVAL 95.

(Noubliez pas de mettre un point la dernire ligne). Si vous faites rouler la commande prcdente, vous obtiendrez le mme rsultat que la commande complte obtenue lorsque vous avez cliqu Paste plutt que OK. Maintenant faite rouler cette commande. Vous obtenez le tableau 11.1. Tableau 11.1. Descriptives Statistic 81,11 80,20 82,02 81,12 81,00 101,223 10,061 63 98 35 18,00 -,053 -1,153 Std. Error ,462

Months since Hire

Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Lower Bound Upper Bound

,112 ,224

Examinez la signification des trois premires lignes de ce tableau : La moyenne pour cet chantillon est de 81,11 mois. Ceci signifie quen moyenne, les employEs ont t embauchs depuis environs 81 mois (on peut videmment convertir ce nombre en annes et en mois, ou encore en jours). L'intervalle de confiance est donn dans les deux lignes ombrages : de 80,20 82,02 mois. Ce que cela signifie, cest que si les individus dans cet chantillon taient un groupe reprsentatif d'une plus grande population demploys, vous estimeriez le temps moyen de travail depuis lembauche pour cette plus grande population quelque part entre 80,20 mois et 82,02 mois. Mais attention : ceci ne signifie pas que le temps depuis lembauche des employs se situe quelque part entre 80 et 82 mois, mais bien que la moyenne du temps depuis lembache, pour toute la population, se situe dans ces limites approximatives.

SOC 4206 R. Antonius Labo 11 SPSS

11.3

L'erreur type est l'cart type divis par la racine carre de n, et cette quantit est employe dans le calcul de la marge de l'erreur et elle est donne la droite du tableau. Vous n'avez pas besoin de l'employer, puisque l'intervalle de confiance a t calcul par le programme de SPSS. Mais faites quand mme la vrification : la formule de lintervalle de confiance est donne par [moyenne de lchantillon 1.96*lerreur type ; moyenne de lchantillon + 1.96*lerreur type Appliquez cette formule. Vous devriez obtenir [80,20 ; 82,02] Les mesures restantes ont t vues dans le chapitre sur les statistiques descriptives.

Ces notions employes ci-haut ont t expliques dans le chapitre sur lestimation et vous devriez passer en revue ce chapitre afin d'interprter correctement les rsultats donns par SPSS.

Remarque sur la taille de lchantillon


Vous avez sans doute remarqu que lintervalle de confiance est trs petit, cest--dire que la prcision de lestimation est trs grande. Dune part il faut noter que notre unit de mesure est le mois. Si le temps tait mesur en jours, lintervalle de confiance aurait lair dtre plus grand numriquement (60, plutt 2 ) mais ne lest pas en ralit puisque le premier nombre compte des jours et le deuxime des mois. Cette grande prcision est de au fait que lchantillon est assez grand. Mais si vous recommenciez lexercice en slectionnant dabord un chantillon de 60 ou de 100 personnes, vous verrez que lintervalle de confiance serait plus grand, cest--dire que le rsultat serait moins prcis. Rappelez-vous que lerreur type est donne par lcart type divis par la racine de n. Plus n est grand, plus lerreur type est petite (et par consquent lintervalle de confiance lest aussi). Mais comme il y a une racine carre au dnominateur, cette relation inverse nest pas proportionnelle : un chantillon 4 fois plus grand donne un intervalle 2 fois plus petit et non pas 4 fois plus petit.

Exercices avec SPSS


1. crivez la syntaxe simplifie vous-mme, mais changez le niveau de confiance de 95 % 99 %. Quarrive-t-il lintervalle de confiance ? Et si le niveau de confiance tait de 90 % ? 2. crivez lnonc destimation comme une phrase complte pour les situations suivantes, supposant que le fichier de donnes est un groupe reprsentatif d'une certaine population. Les noncs que vous crivez devraient avoir la mme forme que ceux des exercices sur lestimation faits prcdemment. . a) Estimez le paramtre de la variable Jobtime dans le fichier de donnes Employee Data, pour un niveau de confiance de 95 %. b) Estimez-le pour un niveau de confiance de 99 %. c) Estimez-le pour un niveau de confiance de 90 %. 3. crivez des noncs semblables pour la variable Salary dans le fichier de donnes intitul University of Florida.

SOC 4206 R. Antonius Labo 11 SPSS

11.4

Reprsentation graphique des intervalles de confiance pour la moyenne


Les intervalles de confiance peuvent tre reprsents graphiquement comme suit. 1. Sous Graphs, choisir Error Bar. 2. Dans la bote de dialogue que vous avez, choisir Simple et Summaries of Separate variables, puis cliquez sur Define. 3. Choisissez maintenant une variable quantitative, et placez-la dans lespace rserv aux varaibles. Dans la bote de dialogue, vous verrez un espace o il est indiqu Bars represent :. Assurez vous que le choix offert est bien Confidence interval for the mean. Vous verrez un espace o indiquer le niveau de confiance dsir : 95 %, ou 90 % ou 99 %. 4. Cliquez OK (ou collez la syntaxe et faites-la rouler si vous prfrez). Vous allez obtenir un graphique reprsentant lintervalle de confiance comme illustr dans la figure 11.2

95% CI Highest Year of School Completed

Point estim de la valeur moyenne, pour la population entire, de la variable Highest Year of Schooling.

13,3

13,2

13,1

13,0

Intervalle de confiance pour la moyenne de Highest Year of Schooling

12,9

12,8
N= 1496

Highest Year of Scho

FIGURE 11.2

Intervalle de confiance pour un pourcentage ou une proportion


Considrons 2 variables : cappun Favor or Oppose Capital Punishment, et attsprts Attended Sports Event in Last Year qui ont t choisies dans le fichier de donnes GSS93 subset. Ces deux variables sont des variables qualitatives, et elles sont mesures un niveau nominal. Par consquent, nous ne pouvons pas calculer la moyenne, mais nous pouvons calculer la proportion (ou le

SOC 4206 R. Antonius Labo 11 SPSS

11.5

pourcentage) des personnes dans l'chantillon qui sont favorables la peine de mort (capital punishment en anglais), ou qui ont assist l'anne dernire un vnement sportif. Supposons que l'chantillon dans ce fichier de donnes soit un chantillon alatoire, nous pouvons alors estimer les pourcentages correspondants dans la population amricaine. Mais s'il y a un pourcentage lev des donnes manquantes, la fiabilit de telles valuations est incertaine. SPSS ne vous fournira pas lintervalle de confiance du pourcentage, mais donnera le pourcentage calcul dans l'chantillon, en employant la commande Frequencies. Vous pouvez dterminer la marge d'erreur au niveau de confiance souhait en employant la formule donne dans le chapitre sur l'estimation, formule qui a t incluse dans le fichier Excel intitul Calcul des marges derreur. Le tableau suivant donne la valeur approximative des marges d'erreur pour diffrentes tailles d'chantillon et diverses valeurs du pourcentage calcul dans l'chantillon, un niveau de confiance de 95% . Comme elles sont approximatives, ces marges derreur sont un peu gonfles et elle refltent la marge derreur maximum obtenue pour chaque ventail de pourcentages et de tailles dchantillon : Taille de lchantillon Pourcentage Autour de 10 Autour de 20 Autour de 30 Autour de 40 Autour de 50 Autour de 60 Autour de 70 Autour de 80 Autour de 90 100 7 9 10 10 10 10 10 9 7 200 5 6 7 7 7 7 7 6 5 400 4 5 5 5 5 5 5 5 4 500 3 4 5 5 5 5 5 4 3 800 3 3 4 4 4 4 4 3 3 1000 3 3 3 4 4 4 3 3 3 1500 2 3 3 3 3 3 3 3 2

Marges derreur pour lestimation dun pourcentage un niveau de confiance de 95%. Exemple. Obtenez les frquences pour la variable Favor or Oppose Death Penalty for Murder. Regardez les pourcentages valides. Vous constatez que 77.4 % des rponses valides sont en faveur de la peine de mort en cas de meurtre. Supposant que cet chantillon est reprsentatif, vous voulez estimer le pourcentage de personnes, dans la population en gnral, qui sont susceptibles dtre en faveur de la peine de mort en cas de meurtre. Dans ce cas-ci le pourcentage calcul dans lchantillon est de prs de 80 %, et le nombre de rponses valides est 1388, donc trs proche de 1500. Le tableau nous donne une marge d'erreur de 3 %. Ainsi, lnonc destimation devient : Sur la base de cet chantillon, nous pouvons estimer que le pourcentage des Amricains qui sont en faveur de la peine de mort en cas de meurtre se situe quelque part entre 74.4 % et 80.4 %, pour un niveau de confiance de 95%. Ou encore Sur la base de cet chantillon, nous pouvons estimer que le pourcentage des Amricains qui sont en faveur de la peine de mort en cas de meurtre est de 74.4 %, avec une marge derreur de 3 %, au niveau de confiance de 95%..

SOC 4206 R. Antonius Labo 11 SPSS

11.6

Exercice
4. Considrons 2 variables : letdie1 scitest4 Allow Incurable Patients to Die, Humans Evolved From Animals et

qui ont t choisies dans le fichier de donnes GSS93 subset. Supposant que l'chantillon dans ce fichier de donnes a t choisi au hasard, essayez de faire une estimation du pourcentage des adultes dans la socit amricaine qui croient que leuthanasie devrait tre permise pour les patients qui souffrent d'une maladie incurable. Faites galement une estimation de ceux qui croient que la thorie de l'volution (qui affirme que les humains sont le rsultat dune volution graduelle, partir de formes de vie moins volues) est probablement ou certainement vraie (mettez les catgories ensemble en ajoutant leurs pourcentages). En tenant compte du pourcentage de donnes manquantes, crivez un commentaire sur la fiabilit de cette estimation.

SOC 4206 R. Antonius Labo 12

p.12.1

Labo 12: Les tests T de validation dune hypothse


Le but de ce laboratoire est d'apprendre comment excuter une validation dhypothse sur la valeur de la moyenne dune population lorsquon a un chantillon, et comment en interprter les rsultats. Cette procdure est appele One-Sample T Test dans le logiciel SPSS. Nous verrons aussi une procdure apparente, celle qui valide la diffrence entre les moyennes de deux populations lorsquon a deux chantillons indpendents, appele Independent-Samples T Test. Ces procdures doivent leurs noms la distribution t, une distribution qui ressemble la courbe normale, mais qui est plus approprie quand l'chantillon est petit (moins de 30 individus). Ces procdures sont largement rpandues en psychologie, o des expriences sont souvent entreprises sur de petits chantillons. Mais elles sont valides sur de grands chantillons aussi, car mesure que la taille de lchantillon crot, la distribution t se rapproche dune distribution normale.

Le test dhypothse sur la valeur de la moyenne dune population


Examen de la mthode. Dans ce test dhypothse, vous voulez valider l'hypothse que la moyenne de la population entire diffre d'une certaine valeur, qui est dtermine par une exprience prcdente ou par analogie avec une situation semblable. Par exemple, si vous savez par exprience que la note moyenne dans un cours donn est de 77 sur 100 dans un groupe d'coles, et que vous voulez examiner si une classe spcifique diffre de manire significative de cette moyenne, vous posez : H0 : = 77 H1 : 77 Si la moyenne de votre chantillon diffre lgrement de 77, vous n'avez pas une assez bonne raison de rejeter l'hypothse nulle, car une petite diffrence entre la moyenne de la population et celle dun chantillon est explicable par le hasard : un chantillon alatoire est susceptible en effet de diffrer lgrement de la population entire. Mais si la diffrence est grande, vous concluez qu'elle n'est probablement pas due au hasard : si cet chantillon est reprsentatif, il va reflter le fait que la moyenne de la population est probablement diffrente de 77. Mais comment juger de limportance de la diffrence observe? quelle distance est le point de coupure (appel valeur critique, rappelez-vous) partir duquel nous pouvons dire : la diffrence entre la moyenne observe dans lchantillon et la moyenne suppose de la population est trop grande pour tre due au hasard ? Puisque le procd entier est bas sur la vraisemblance de la conclusion, la rponse dpendra du risque que nous sommes disposs prendre en tirant nos conclusions. Disons que nous sommes disposs prendre un risque de 5% de nous tromper. SPSS calculera la probabilit de tomber sur un chantillon tel que celui que vous avez, si lhypothse nulle tait vraie. Cette probabilit est appele niveau de signification . Si le niveau de signification est plus petit que le risque de 5% que vous avez fix, vous concluez que vous pouvez prendre ce risque, et vous rejetez lhypothse nulle et acceptez lhypothse alternative. Si le niveau de signification est plus grand que 5%, vous concluez que le risque est trop grand, et vous concluez que vous navez pas dassez bonnes raisons de rejeter lhypothse nulle. Voyons comment excuter cette procdure concrtement.

Exemple 1
Supposez que vous voulez valuer l'hypothse que l'ge moyen de la population amricaine est de 45 ans, et vrifier votre hypothse en employant l'chantillon alatoire indiqu dans le fichier de donnes GSS93 subset. Vous avez plac vos hypothses comme H0 : = 45 et H1 : 45 Vous lancez la procdure en choisissant Analyze Compare Means One-Sample T Test

SOC 4206 R. Antonius Labo 12

p.12.2

Vous obtenez la bote de dialogue illustre dans la figure. 12.1. Vous pouvez voir dans la figure que nous avons dj plac la variable Age of respondent dans la bote Test Variable(s) et la valeur que nous voulons valider, appele Test Value dans SPSS, t place 45.

Figure 12.1 Si vous cliquez OK, vous obtenez un premier tableau qui vous apprend que la moyenne dge pour cet chantillon est de 46,23 ans, et un deuxime tableau que est reproduit ci-bas (tableau 12.1).

Tableau 12.1. One-Sample Test


T Age of Respondent 2,723 df 1494 Sig. (2-tailed) ,007 Test Value = 45 Mean Difference 1,23 95% Confidence Interval of the Difference Lower Upper ,34 2,11

L'information cruciale dans ce tableau est la colonne intitule le Sig (2-tailed), qui reprsente le niveau de signification. Vous l'interprtez comme suit : Si la moyenne dge de votre population est en effet de 45 ans, la probabilit de slectionner alatoirement un groupe de 1495 individus dont la moyenne dge est de 46.23 ans est de 0.007, ou 0.7% Ceci signifie que si la moyenne dge de la population gnrale tait effectivement de 45 ans, il serait trs peu probable de tomber sur un si gros chantillon dont la moyenne dge est de 46,23 ans. En dautres termes, une diffrence de 1,23 ans sur un chantillon de cette taille est trop grande pour tre de au hasard. Ceci se produirait moins de 1 % des fois. Cest tellement rare quil est plus sr pour vous de conclure plutt que votre hypothse est probablement errone. En faisant un tel raisonnement, vous courez un risque de 0.7 % davoir tort, puisque c'est la probabilit dobtenir un tel chantillon quand la moyenne de la population est de 45 ans. Vous concluez donc que l'hypothse = 45 doit tre remise en question, la lumire de la moyenne calcule sur cet chantillon. L'hypothse nulle est ainsi rejete, avec une probabilit de .007 de se tromper, ce qui constituerait une erreur de Type I. Conclusion : H0 est rejet puisque le niveau de signification est moins de 0.05. Nous concluons que l'ge moyen de l'ensemble de la population n'est probablement pas de 45 ans. Le tableau donne aussi lintervalle de confiance de la diffrence entre la moyenne calcule sur lchantillon et la moyenne suppose, au niveau de confiance de 95%. Linterprtation de cet intervalle est plus complique formuler. Il sagit dans notre exemple de lintervalle [0,34 ; 2,11], dont le centre est 1,23. Ceci signifie que 95

SOC 4206 R. Antonius Labo 12

p.12.3

fois sur cent, un tel chantillon provient dune population dont la moyenne pourrait diffrer dune distance qui varie entre 0,34 units et 2,11 units. Puisque la valeur 0 ne se trouve pas dans cette intervalle, ceci signifie que la possibilit que la moyenne de la population soit gale 45 est exclue (avec 5 % de chances de se tromper, videmment).

Utilisation de la syntaxe
Si au lieu de cliquez OK dans lexemple prcdent, vous cliquez Paste pour coller la commande dans la fentre de la syntaxe, vous obtenez ce qui suit.
T-TEST /TESTVAL=45 /MISSING=ANALYSIS /VARIABLES=age /CRITERIA=CIN (.95) .

Vous aurez sans doute remarqu que, comme toutes les commandes, celle-ci est compose dune commande principale (T-TEST), et de sous-commandes. Les sous-commandes sont spares par une barre oblique, ne se terminent pas par des points, et sont en retrait vers la droite. Le point clt lensemble de la commande et de ses sous-commandes. Les sous-commandes sont les suivantes : - TESTVAL=45 qui vous permet de dterminer la valeur tester. - VARIABLES=age qui vous permet de dterminer les variables que vous voulez analyser. Vous pouvez en mettre plusieurs, spares par des espaces. Ici, on na que la variable age. - CRITERIA=CIN (.95) qui vous permet de dterminer lintervalle de confiance souhait (CIN), qui est dans ce cas de 0,95 (remarquez que pour la syntaxe, SPSS utilise des points et non pas des virgules pour le sparateur de dcimales). (Nous ne nous occuperons pas de la commande MISSING pour le moment). En faisant rouler cette commande, nous obtenons les mmes rsultats que ceux obtenus plus haut. Lavantage de la syntaxe, est que si vous voulez excuter la procdure nouveau mais au niveau de confiance de 99 %, il suffit de changer le .95 pour un .99 dans la sous-commande CRITERIA et de la faire rouler nouveau. Lavantage se fait sentir lorsquon excute de nombreuses commandes, ou quon les applique successivement des bases de donnes diffrentes.

Validation dune hypothse portant sur la diffrence entre deux moyennes


Examen de la mthode. Le Independent-Samples T Test nous aide dterminer si deux chantillons, choisis indpendamment, sont susceptibles de provenir de la mme population. En d'autres termes, nous supposons que: Lchantillon 1 provient dune population avec une moyenne 1 , et Lchantillon 2 provient dune population avec une moyenne 2 . Nous faisons alors l'hypothse que 1 = 2, ou, d'une manire quivalente, que H0 : 1 - 2 = 0 H1 : 1 - 2 0 Lhypothse nulle signifie que les deux chantillons proviennent de populations ayant des moyennes identiques. SPSS calculera la diffrence des moyennes entre les deux chantillons, et calculera un niveau de signification. L'exemple suivant nous aidera interprter les rsultats.

SOC 4206 R. Antonius Labo 12

p.12.4

Exemple 2
Nous voulons valider l'hypothse que la diffrence entre les hommes et les femmes dans notre chantillon sur les variables : age et rincome91 sont significatifs, cest--dire quelles refltent une vraie diffrence au niveau de la population entire. 1. Choisissez Independent-Samples T Test (dans le menu Analyse, puis Compare Means). Vous obtenez la bote de dialogue montre dans la figure. 12.2. Figure 12.2

2. Placez les variables age et rincome91 dans les botes appropries comme reprsent sur la figure 12.2. Vous devriez raliser que vous excutez deux tests d'hypothse diffrents en mme temps, un pour chacune des variables. SPSS vous permet de faire cela. 3. Placez la variable sex dans lespace tiquett Grouping Variable: . Deux points dinterrogation apparaissent alors, nous permettant de dterminer les deux catgories de cette variable que nous souhaitons comparer. Pour la variable sex, il ny en a que deux. Mais si on voulait comparer les personnes divorces et les personnes veuves, par exemple, on pourrait le faire en indiquant les codes de leur catgorie, tel que montr au paragraphe suivant. 4. Cliquez sur la bote Define Groups box. Vous obtenez la bote de dialogue montre dans la Figure 12.3. Figure 12.3

Dans ces botes de dialogue, inscrivez 1 pour le premier groupe, celui des hommes, et 2 pour le groupe 2, celui des femmes. Si vous vouliez comparer les personnes veuves et les personnes divorces, on aurait inscrit marital au lieu de sex, et dans les groupes on aurait choisi les groupes 2 (veufs) et 3 (divorcs). 5. Cliquez sur Continue, puis sur OK. Vous obtenez le tableau 12.2 (certaines des colonnes du tableau dont nous navons pas besoin tout de suite ont t supprimes).

SOC 4206 R. Antonius Labo 12

p.12.5

Tableau 12.2. Independent Samples T Test


t-test for Equality of Means
t Sig. (2-tailed) ,090 ,088 ,000 ,000 Mean Difference -1,54 -1,54 2,59 2,59 95% Confidence Interval of the Difference Lower -3,33 -3,32 1,91 1,91

Age of Respondent Respondent's Income

Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed

-1,697 -1,708 7,470 7,488

Upper ,24 ,23 3,28 3,27

L'information cruciale ici est le niveau de signification calcul, dnot par Sig. (2-tailed). Les rsultats sont calculs dans deux cas : le cas o les variances des sous-populations des hommes et des femmes sont identiques, et le cas o les variances ne sont pas identiques. SPSS offre des tests pour dterminer si ces variances sont identiques ou pas, mais la discussion de ces tests ne sera pas aborde pour le moment. Comme rgle pratique, considrez que les variances sont gales : les erreurs de Type I seront alors moins probables. Concrtement, voici comment interprter les rsultats de ce tableau. La variable Age of Respondent: Dans ce cas-ci, l'hypothse nulle est qu'il n'y a aucune diffrence entre les ges des hommes et des femmes dans lensemble de la population. Nous supposons que la population des hommes et des femmes ont la mme variance pour la variable ge. Si nous affirmons que la diffrence entre les hommes et les femmes est significative, nous prenons un risque de 9% davoir tort. C'est parce que la diffrence entre leurs moyennes est trs petite : 1.54 ans. Il est trop risqu de dire qu'une si petite diffrence pour cet chantillon indique une vraie diffrence au niveau de la population entire. Nous devrions plutt expliquer la diffrence par le hasard : il est plus probable que les chantillons choisis indpendamment montrent une telle diffrence, mme si ils viennent de la mme population. Par consquent, dans ce test, H0 est accepte. Nous concluons que nous n'avons pas une raison suffisante de rejeter l'hypothse que les hommes et les femmes dans la population entire ont le mme ge moyen. La variable Respondents Income : Ceci constitue un test d'hypothse diffrent du prcdent, puisque la variable est diffrente. L'hypothse nulle est qu'il n'y a aucune diffrence entre les revenus des hommes et ceux des femmes dans lensemble de la population. Les revenus sont regroups en 22 catgories, codes 1 22. La diffrence moyenne entre les scores moyens des hommes et des femmes est 2.59 (les scores rfrent aux catgories, et non pas au montant du revenu en dollars). C'est une diffrence relativement importante : le revenu moyen des hommes se situe en moyenne deux catgories au-dessus de celui des femmes. Les rsultats de SPSS confirment cette interprtation : nous prenons un risque qui est pratiquement nul (arrondi moins de 0.000) quand nous affirmons que cette diffrence est significative. Par consquent, nous pouvons conclure qu'il y a une vraie diffrence entre les revenus des hommes et des femmes au niveau de la population entire, pas simplement pour ce groupe de 1500 personnes. Par consquent, dans ce test, H0 est rejete et H1 est accepte avec un risque de se tromper plus petit que 0.0005 (car si la quatrime dcimale tait 5 ou plus, on aurait arrondi la probabilit 0,001).

SOC 4206 R. Antonius Labo 12

p.12.6

Rgle pratique pour interpreter le niveau de signification calcul


Si le niveau de signification calcul par SPSS, Sig.(2-tailed), est infrieur au niveau de signification que nous avons fix (cest--dire le risque que nous sommes disposs prendre), nous rejetons H0 et acceptons H1 . Si Sig.(2-tailed) est plus grand que le niveau de signification que nous avons fix nous acceptons H0 et rejetons H1.

Utilisation de la syntaxe
Comme pour les autres procdures, on peut utiliser la syntaxe. Dans lexemple prcdent, nous devons utiliser la syntaxe suivante.
T-TEST GROUPS=sex(1 2) /MISSING=ANALYSIS /VARIABLES=age rincom91 /CRITERIA=CIN(.95) .

La commande est la mme que pour le test impliquant un seul chantillon, mais la premire sous-commande, GROUPS, nous indique que lon compare deux groupes, et elle dtermine ces groupes . Si on voulait comparer les veufs et les divorcs (hommes ou femmes, indistinctement), on aurait :
T-TEST GROUPS=marital(2 3) /MISSING=ANALYSIS /VARIABLES=age rincom91 /CRITERIA=CIN(.95) .

Les autres sous-commandes sont les mmes que dans lexemple prcdent. Vous avez toujours le choix de dactylographier ces commandes directement en observant les rgles de la syntaxe, plutt que de travailler avec les menus.

II. Exercices additionnels


Utilisez le fichier de donnes GSS93 subset. Pour chaque exercice, crivez vos conclusions en phrases compltes. Spcifiez H0 et H1 chaque fois que ncessaire, en mots et en quations, pour que linterprtation des conclusions soit limpide. (Note importante : La partie formulation de ces exercices pourrait vous sembler oiseuse, mais elle est trs efficace pour bien intrioriser les connaissances et les conceptualiser clairement). 1. Validez lhypothse selon laquelle les hommes et les femmes ont tendance se marier des ges diffrents. 2. Validez lhypothse selon laquelle ceux ou celles qui ont un diplme universitaire ont tendance se marier plus tard que ceux ou celles qui nen ont pas. 3. Slectionnez un chantillon alatoire de 100 personnes et refaites les mmes deux tests prcdents. Quest-ce qui arrive aux intervalles de confiance ? Aux erreurs types (standard error qui, rappelezvous, sont les carts types des distributions dchantillonnage correspondantes) ? Est-ce que les conclusions diffrent du cas o vous utilisez toutes les donnes ? (Notez que vous nobtiendrez pas tous les mmes rsultats car vous naurez sans doute pas slectionn les mmes chantillons.) 4. Si on conclut que les variables mesurant lducation universitaire (degree2)et le sexe (sex) ont toutes les deux un impact sur la variable ge au premier mariage, peut-on dire laquelle a le plus grand impact ? Pour cela, excutez la commande Compare means, en choisissant le niveau dducation comme

SOC 4206 R. Antonius Labo 12

p.12.7

premier niveau (Layer 1) et la variable sexe comme deuxime niveau (Layer 2), tel que montr en classe. Ou encore, excutez la syntaxe suivante :
MEANS TABLES=agewed BY degree2 BY sex /CELLS MEAN COUNT STDDEV .

et interprtez le tableau qui en rsulte. Concluez votre analyse avec des noncs de la forme suivante :
La variable X a pour effet de retarder lge moyen du mariage de ... annes, alors que la variable Y a pour effet de retarder lge moyen du mariage de .... annes. Leffet combin des deux variables a pour effet de retarder lge moyen du mariage de . ..annes : en effet, les .. qui ont un diplme universitaire se marient en moyenne, . annes plus tard que les qui nen ont pas .

SOC 4206 R. Antonius Labo 13

p.13.1

Labo 13 : Le test du Chi-deux


Rappel : Le test du Chi-deux est un test de validation dhypothses. Il sapplique aux tableaux croiss. On calcule une statistique qui mesure lcart entre une situation thorique o il ny aurait pas dassociation statistique, et une la situation observe. Cette statistique suit une distribution connue, qui dpend du nombre de catgories des variables tudies. On pose donc : H0 : Il ny a pas dassociation statistique entre les variables. H1 : Il y en a. Sil ny avait aucune association statistique dans la population do provient lchantillon, il y aurait quand mme des diffrences observes au niveau de lchantillon, mais seulement dans 5 % des cas ces diffrences produiraient une statistique qui dpasserait un certain seuil. Dans 1 % des cas, la statistique dpasserait un autre seuil plus lev. Sur cette base, on peut effectuer les calculs qui vont nous amener accepter lhypothse nulle ou la rejeter. SPSS va en effet nous donner la probabilit quon obtienne la valeur du Chi-deux observe sur lchantillon sil ny avait aucune association statistique au niveau de la population. On rejette lhypothse nulle si la probabilit est plus petite que le seuil quon sest fix.

Exemple
En utilisant le fichier GSS93 subset, nous allons valider lhypothse que les femmes et les hommes ont des attitudes diffrentes concernant la peine de mort. Nous supposons videmment que lchantillon est reprsentatif. La gnralisation que nous voulons faire nest valide qu cette condition. Nous posons donc : H0 : Les hommes et les femmes appuient la peine de mort dans les mmes proportions H1 : Les hommes et les femmes appuient la peine de mort dans des proportions diffrentes. Nous retiendrons un seuil de signification de 5%. Ouvrons le fichier SPSS GSS93 subset et effectuons la procdure Crosstabs apprise au Labo 8. Placez la variable Respondents Sex dans lespace rserv pour les lignes du tableau, et la variable Favor or Oppose Death Penalty for Murder (cappun) dans lespace rservs pour les colonnes. Cliquez sur le bouton Statistics et cochez la case correspondante au Chi-deux (Chi-squared). Demandez aussi les pourcentages par ligne, et vous les obtiendrez. La syntaxe obtenue est la suivante.
CROSSTABS /TABLES=sex BY cappun /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT ROW .

Vous aurez remarqu que nous avons mis la sous-commande du Chi-deux en caractres gras pour attirer votre attention sur la faon de lcrire. Quand vous excutez cette commande, vous obtenez videmment le tableau crois que vous avez vu prcdemment, mais vous obtenez aussi le tableau du Chi-deux. Nous reproduisons les deux tableaux.

SOC 4206 R. Antonius Labo 13


Respondent's Sex * Favor or Oppose Death Penalty for Murder Crosstabulation

p.13.2

Favor or Oppose Death Penalty for Murder 1 Favor 2 Oppose 502 105 82,7% 572 73,2% 1074 77,4% 17,3% 209 26,8% 314 22,6% Total 607 100,0% 781 100,0% 1388 100,0%

Respondent's Sex

1 Male

2 Female

Total

Count % within Respondent's Sex Count % within Respondent's Sex Count % within Respondent's Sex

Vous constatez que la diffrence entre les hommes et les femmes est prs de 10 points de pourcentage (9,5 % de diffrence plus exactement entre le pourcentage de femmes et dhommes qui appuient la peine capitale dans le cas dun meurtre). Cette diffrence semble grande, mais est-elle assez grande pour dire quil y a une diffrence au niveau de toute la population, pas seulement lchantillon ? Le tableau suivant nous donne la rponse.
Chi-Square Tests

Value df Pearson Chi17,470(b) 1 ,000 Square Continuity 16,934 1 ,000 Correction(a) Likelihood Ratio 17,800 1 ,000 Fisher's Exact Test ,000 ,000 Linear-by-Linear 17,458 1 ,000 Association N of Valid Cases 1388 a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 137,32.

Asymp. Sig. (2-sided)

Exact Sig. (2-sided)

Exact Sig. (1-sided)

SOC 4206 R. Antonius Labo 13

p.13.3

Lecture du tableau du Chi-deux


Le niveau de signification. Une seule cellule du tableau nous importe pour le moment, cest celle que nous avons indique par une trame de fond. Elle donne la valeur du niveau de signification relatif au Chi-deux de Pearson, qui est dans ce cas 0,000. Rappelez-vous que cela nest pas gal zro : ce nombre signifie en effet que les trois premires dcimales sont zro. Il pourrait y avoir des dcimales qui ne sont pas gales zro plus loin. Comme on arrondi vers le haut si la quatrime dcimale est 5 ou plus, on peut en conclure que le niveau de signification est plus petit que 0,0005. Ceci signifie que : Si les hommes et les femmes taient pour la peine de mort dans les mmes proportion dans la population dans son ensemble, il y aurait une probabilit plus petite que 0,0005 (i.e. moins de 5 chances sur 10 000) quon obtienne un chantillon comme celui que lon a, avec des diffrences de 9,5 % entre les deux. Conclusion : Nous acceptons H1 avec un risque derreur presque nul, et rejettons H0 comme tant trs peu probable (moins de 0,0005). La valeur du Chi-deux. Le tableau nous donne une valeur de 17,470. En soi cela ne nous dit probablement pas grandchose. Cette valeur rsulte du calcul effectu avec la formule du Chi-deux (essayez de lobtenir vousmme laide de la feuille de calcul Excel fournie durant le cours). Pour un chantillon de cette taille, une valeur gale 17,470 ou plus grande quelle ne se retrouverait que moins de 5 fois sur 10 000 si les hommes et les femmes de la population avaient les mmes attitudes par rapport la peine de mort. Le degr de libert. Il est donn dans la colonne df (pour degrees of freedom). Il est calcul par la formule : Degr de libert = (n-1)*(m-1) O n et m sont les nombres de catgories dans les deux variables tudies. Dans notre cas, n=2 et m=2, donc le degr de libert = (2-1)*(2-1) = 1*1 = 1. Le degr de libert a un sens technique : il nous dit dans laquelle des distributions il faut regarder pour dterminer la probabilit dobtenir un tel chantillon. Nous navous pas besoin dutiliser ce nombre directement puisque SPSS fait les calculs pour nous, mais il est bon de comprendre que plus il y a de degrs de liberts, plus la valeur du Chi-deux des chantillons varie de la valeur thorique. Les mises en garde. Vous remarquerez que SPSS a calcul quaucune des cellules na une frquence thorique plus petite que 5. En effet, les calculs de probabilits relatifs au Chi-deux ne sont valable que si cette condition est remplie : les frquences thoriques de chacune de cellule doit tre gale 5 ou plus. Note sur la taille de lchantillon. Il nest pas tonnant davoir une probabilit aussi petite compte tenu de la taille de lchantillon. En effet, plus un chantillon alatoire est grand, plus il donnera des pourcentages qui se rapprochent de ceux de la population. Un petit chantillon pourrait sen loigner bien plus. Pour le vrifier, slectionnez successivement un chantillon alatoire de 30 personnes, puis de 50 personnes, puis de 100 puis de 200 personnes, et faites le test du Chi-deux. Comparer les diverses valeurs du Chi-deux que vous obtenez ainsi que les divers niveaux de signification. Vous verrez comment la taille de lchantillon affecte ces diverses statistiques.

Exercice
En utilisant le mme fichier, GSS93 subset, Dterminer si la diffrence entre les pourcentages dhommes et de femmes qui se prvalent de leur droit de vote est significative. Refaire lexercice avec un chantillon alatoire de 100 personnes. Recommencer lexercice avec les niveaux dducation plutt que le sexe.

SOC 4206 R. Antonius Utiliser Excel pour des calculs simples

p.14.1

UTILISER EXCEL POUR FAIRE DES CALCULS ELEMENTAIRES


1. Les formules dans Excel Le logiciel Excel, ainsi que les autres tableurs similaires, permettent dinscrire dans les cellules des formules qui sont calcules automatiquement. Ces formules peuvent contenir des nombres, ainsi des rfrences relatives ou des rfrences absolues dautres cellules (termes expliqus plus bas). Toutes les formules doivent commencer par le signe = . Ensuite, on peut dactylographier la formule, ou cliquer sur les cellules quon veut inclure (ceci sera montr en classe). En voici quelques exemples : =(5*6) + 2 =5*(6+2) =A1*A2 =$A$1*$A$2 Multiplie 5 par six dabord, puis additionne 2. Additionne 6 +2, puis multiplie par 5. Multiplie le contenu de la cellule A1 par le contenu de la cellule A2. Multiplie le contenu de la cellule A1 par le contenu de la cellule A2.

Vous aurez remarqu que les deux dernires formules sont crites diffrement, mais que le rsultat du calcul est le mme. Quen est-il exactement ? La troisime formule comporte une rfrence relative aux cellules A1 et A2, alors que la quatrime formule comporte une rfrence absolue aux mmes cellules. La diffrence entre les deux types de rfrence parat lorsquon copie les formules, tel quexpliqu dans ce qui suit. 2. Copier des formules rfrence relative Quand on slectionne une cellule et quon tape simultanment Ctrl et C, la formule est copie dans la mmoire vive de lordinateur. Si on dplace le curseur dans une autre cellule et quon tape Ctrl V, la formule est alors recopie dans cette dernire cellule. Mais attention : si les rfrences dans la formule sont relatives, la formule est alors modifie de la faon illustre dans lexemple suivant : Exemple. Supposons quon ait les donnes du tableau ci-contre. La cellule D7 contient la formule = A1+A2, et les rfrences sont relatives. Si on recopie cette formule dans la cellule E7 qui est juste sa droite, les A deviendront des B. Si on la recopie deux cases plus loin, les A deviendront des C. Si on la recopie trois lignes plus bas, les numros de cellules qui apparaissent dans la formule seront majors de trois units. En dautres termes, les cellules utilises dans le calcul subissent le mme dplacement que la cellule o on inscrit le rsultat. Exercice 1.1 Crez le tableau illustr ci-dessus, dactylographiez la formule illustre la case D7, et presser ENTER. (Note : cest important de taper Enter, sans quoi, tout clic de la souris va modifier la formule que vous avez crite). Maintenant cliquez sur D7, copiez la cellule, et collez la successivement dans les cellules indiques et examinez le rsultat obtenu. Copiez la dans E7; rsultat : formule obtenue : ___________ nombre obtenu : _____

SOC 4206 R. Antonius Utiliser Excel pour des calculs simples

p.14.2

Copiez la dans F7; rsultat : formule obtenue : ___________ nombre obtenu : _____ Copiez la dans G7; rsultat : formule obtenue : ___________ nombre obtenu : _____ Copiez la dans E12; rsultat : formule obtenue : ___________ nombre obtenu : _____ prsent, veuiller sauvegarder votre document sous le titre : votre_nom_de_famille_ Ex1 . 3. Copier des formules rfrence absolue. Exercice 1.2 Recommencer le mme exercice en utilisant les rfrences absolues (un signe de $ avant chaque lettre et avant chaque chiffre). Comment les formules sont-elles modifies ? __________________________________________________________________________ Quel est le rsultat du calcul dans chacun des 4 cas de lexercice prcdent ? __________________________________________________________________________ 4. Les commandes Recopier droite et Recopier vers le bas Ces commandes sont utilises pour recopier une formule dans un ensemble de cellules qui se suivent verticalement ou horizontalement. Il faut dabord crire une formule dans une cellule, puis slectionner cette cellules ainsi que les cellules qui la suivent verticalement. En cliquant Recopier vers le bas dans le menu Edition, la formule est alors recopie dans toutes les cellules slectionnes. Leffet est similaire lorsquon recopie droite. Si les rfrences dans la formule sont relatives, elles seront ajustes automatiquement, alors que les rfrences absolues ne seront pas modifies. Ces commandes vont grandement faciliter le calcul des mesures descriptives, tel quillustr ci-bas. Exercice 1.3 Les donnes suivantes reprsentes les notes obtenues dans un classe. Recopiez-les dans la colonne B dune feuille Excel, en commenant par la trosime ligne. Dans la premire ligne de la colonne B, crivez simplement Note obtenue, et dans la deuxime ligne, crivez X, tel quillustr. Effectuez les calculs suivant en utilisant des formules : Dans la cellule B13, calculer la somme des notes obtenues en utilisant la formule =SOMME(B3:B12). (Remarque : plusieurs faons de produire cette formule seront illustres en classe. On peut utiliser la commande Insertion, Formule, ou encore dactylographier la formule, ou enfin cliquer sur le signe ). Dans la cellule B14, inscrivez le nombre de donnes, soit 10. Dans la cellule B15, calculer la moyenne des notes par la formule =B13/B14. Inscrivez le mot Moyenne dans la cellule A15. Inscrivez la formule =B3*B3 dans la case C3. Recopier la formule vers le bas jusqu la ligne 12. Inscrivez X au carr dans la case C2. En vous inspirant des tapes prcdentes, calculez la somme des carrs des notes par lentremise dune formule la case C13. Calculez lcart-type des notes, en tenant compte quil sagit dun chantillon. La formule est :

SOC 4206 R. Antonius Utiliser Excel pour des calculs simples

p.14.3

cart type de lchantillon : s =

"(xi ! x )
n!1

= ________________

5. Calcul dune moyenne pondre Supposez maintenant que vous avez 5 classes A, B, C, D et E , dont la taille et les moyennes des notes obtenues par les tudiants sont donnes par : Classe N Moyenne Pondration A 26 86 ______ B 20 75 ______ C 30 70 ______ D 12 95 ______ E 28 80 ______ Calculez la moyenne pondre des notes pour les cinq classes prises ensemble, en calculant dabord le poids de chaque classe, tel que cela a t illustr par le professeur. Moyenne pondre : ___________

SOC 4206 Calcul de la corrlation et la rgression avec Excel - Rachad Antonius

p. 14.4

CALCUL DE LA CORRELATION ET DE LA DROITE DE REGRESSION A LAIDE DEXCEL


Lutilisation dun tableur peut nous aider mieux comprendre la logique du calcul du coefficient de corrlation de Pearson et de la droite de rgression. Nous utiliserons Excel, mais nimporte quel tableur peut tre utilis car nous ne ferons appel qu des fonctions relativement simples. Rappelons que la droite de rgression est celle qui passe au centre du nuage de points qui reprsente les donnes relatives deux variables quantitatives, cest--dire par le point (X,Y ) , et qui pouse le mieux la tendance observe dans le nuage de points . Mais comment dterminer la droite qui reprsente le mieux le nuage de points ? Quel critre utiliser pour dire quune droite pouse mieux la tendance quune autre ? Pour dfinir cette droite, nous utiliserons la mthode dite des moindres carrs que nous allons expliquer dans ce qui suit.

La mthode des moindres carrs


Le but de notre dmarche est de trouver une ligne droite qui reprsente le mieux la tendance observe dans le nuage de points. Il faudrait donc que cette droite colle aux points du nuage le plus possible, et non seulement quelle passe par le centre de ce nuage (qui est le point dont les coordonnes sont les moyennes de X et de Y). Il y a plusieurs faons de dfinir une telle droite. Pour identifier la meilleure, il faut se rappeler que cette droite servira aussi estimer la valeur de la variable dpendante correspondant une valeur donne de la variable indpendante. En dautres termes, si on a une certaine valeur xi, cette droite devrait estimer la valeur yi correspondante, et ce de la meilleure faon possible. Donc, elle devrait minimiser les carts entre la valeur estime et les valeurs que lon retrouve dans nos donnes. Or si on travaille avec les carts eux-mmes, les carts positifs vont annuler les carts ngatifs et nous ne pourrons pas dterminer la meilleure droite. Nous allons donc recourir au mme stratagme mathmatique que nous avions utilis pour calculer lcart type : nous avions mis les carts au carr, de faon avoir faire avec des quantits qui sont toutes positives et qui ne sannulent pas mutuellement. On va sy prendre de la mme faon ici : nous allons dterminer la droite qui minimise la somme des carrs de la distance entre les valeurs observes et les valeurs estimes. Cest pour cela que cette mthode de calcul de la droite de rgression sappelle la mthode des moindres carrs. Supposons donc que nous ayons des valeurs pour la variable indpendante X : x1, x2, x3, xn, et les valeurs correspondantes pour la variable dpendante Y : y1, y2, y3, , yn. Supposons prsent que la droite recherche est donne par y = a + bx. Quelles sont les valeurs de a et de b qui vont faire que cette droite est la meilleure , cest--dire quelle reprsente la tendance du nuage de point mieux quaucune autre ? Nous avons retenu comme critre pour dterminer cette droite celui des moindres carrs. Si on utilise y pour dsigner la valeur de Y estime par la droite en question, il faudrait donc que la somme des carts ( y -y) mis au carr soit la plus petite possible. On peut dmontrer laide du calcul diffrentiel que ceci sera ralis si cette droite par le centre du nuage (X,Y ) donc si a = Y !bX et si b=

(! XY )"nXY (! X 2)"nX 2

SOC 4206 Calcul de la corrlation et la rgression avec Excel - Rachad Antonius

p. 14.5

La formulation mathmatique de b ci-haut est celle qui est donne par beaucoup de manuels. Mais si on veut tre plus prcis, il faudrait crire : b=

(la sommation tant faite sur lindice i qui prend les valeurs 1, 2, 3,, n puisque lon a n donnes). Ces deux quations pour a et b vont nous permettre de calculer nous mmes la droite de rgression. Or ce calcul peut tre effectu assez facilement par un tableur tel que Excel. Il suffira dcrire toutes les tapes successives du calcul dans des colonnes diffrentes du tableur, en utilisant la fonction Recopier vers le bas tel que montr dans un cours prcdent. Ainsi, si la premire colonne contient les valeurs xi de la variable X et la deuxime les valeurs yi de Y (commenant la deuxime ligne, pour laisser la premire pour les titres des colonnes), on peut crer les colonnes suivantes : Colonne 1 2 3 4 2 Titre X Y X XY Les donnes suivront dans les lignes suivantes. On utilisera les fonctions pour effectuer le calcul. Par exemple, le calcul de X2 se fera en inscrivant = A2*A2 dans la colonne C2, puis en recopiant vers le bas. Au bas des donnes, on additionnera les X et les Y pour obtenir ensuite leurs moyennes, ainsi que les X2 et les XY. Puis on inscrira la formule pour le b dans une nouvele cellule, et celle du a dans une autre.
Note : Les exercices suivants peuvent tre effectus chez vous, car ils ncessitent le logiciel Excel seulement. Cependant, les donnes doivent tre pralablement recopies du fichier SPSS Road Construction Bids qui se trouve sur les ordinateurs du Labo. Pour les recopier, il suffit de slectionner ces donnes puis de faire un copier/coller dans la premire cellule dune feuille de calcul Excel : le nombre de cellules requises sajustera automatiquement.

(! xi yi)"nXY (! xi2)"nX 2

Exercice 1 : 1. Faites le calcul de lquation de rgression pour les variables : Construction Cost (variable dpendante) et DOTs Engineers Estimate (variable indpendante), et vrifiez que vous obtenez les mmes rponses que lorsque SPSS effectue les calculs. 2. Calculez le coefficient de corrlation pour ces deux variables laide dExcel et de la formule suivante (rappelez vous que lestim de Y est donn par la formule a + bX) : r2 = 1

Exercice 2 : Refaites lexercice prcdent avec une autre paire de variables du mme fichier ou du fichier WORLD95. Vous navez pas besoin de saisir les formules, qui peuvent tre simplement recopies. DPOSEZ votre document Excel comportant les exercices dans le Fichier Gourou Cours SOC 4206 Dpt.

!(Y "Y) !(Y "Y )

2 2

SOC 4206 Estimation - Rachad Antonius

p. 15.1

ESTIMATION Example dun nonc:

Le sondage effectu sur 1030 individus a montr que 37 % des adultes canadiens tirent leurs informations internationales de la tlvision. Ces rsultats sont prcis 4 %, et sont fiables 19 fois sur 20. (donnes fictives)
La population

LA TAILLE DE LCHANTILLON LA VARIABLE MESURE LA STATISTIQUE MESURE LE PARAMTRE ESTIM LA MARGE DERREUR NIVEAU DE CONFIANCE PROBABILIT DERREUR

SOC 4206 Estimation - Rachad Antonius

p. 15.2

Estimation dune proportion


Si on veut un niveau de confiance de 90 % La marge derreur est de
1.64 p(1! p) n

Si on veut un niveau de confiance de 95 %

La marge derreur est de


1.96 p(1! p) n

Si on veut un niveau de confiance de 99 %

La marge derreur est de

2.58

p(1 ! p) n

Marge derreur

Estim ponctuel

Marge derreur

Estim sous forme dintervalle

SOC 4206 Estimation - Rachad Antonius

p. 15.3

Estimation dune moyenne

Le sondage effectu sur 1030 individus a montr que les adultes canadiens regardent la tlvision en moyenne 4,2 h par jour. Ces rsultats sont prcis 6 minutes prs, et sont fiables 19 fois sur 20. (donnes fictives)

Si on veut un niveau de confiance de 90 %

La marge derreur
1.64

! n

Si on veut un niveau de confiance de 95 %

La marge derreur
1.96

! n

Si on veut un niveau de confiance de 99 %

La marge derreur

2.58

! n

SOC 4206 Estimation - Rachad Antonius

p. 15.4

Effets de la taille de lchantillon


Si n = 100, la formule comporte 10 au dnominateur. Pour obtenir une marge derreur 2 fois plus petite, il faudrait diviser par 20, soit avoir un chantillon 4 fois plus grand. Donc :

Il faut multiplier la taille de lchantillon par 4 pour diminuer la marge derreur de moiti Calcul de la taille dchantillon ncessaire
Pour une proportion, si on a dtermin la marge derreur m, on peut isoler la valeur de n qui va produire cette marge derreur. Comme la marge derreur est maximale quand p = 0.5, on obtient : Taille de lchantillon n =

Similairement, pour les moyennes, on obtient : Taille de lchantillon n =

& 1.96 * 0.5 # $ ! m % " & 1.96 * ' # $ ! % m "


2

ESSAYER DE FAIRE CE CALCUL AVEC EXCEL

SOC 4206 Estimation - Rachad Antonius

p. 15.5

Exercices sur lestimation

NOM : ______________________

I. Interprtation des noncs destimation


Veuillez lire les noncs suivants et en tirer les informations demandes. Les donnes sont fictives.

1. Une tude effectue sur un chantillon alatoire de 430 femmes adultes dans la rgion mtropolitaine de Montral a montr que 73 % des femmes prfrent utiliser leur auto pour ce rendre au travail. Les rsultats sont prcis 4 %, 19 fois sur 20. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 2. Sur la base dune enqute faite lUQM, il a t tabli que les tudiantEs prennent en moyenne 43 minutes ( 11 minutes) pour se rendre lUniversit. Ces rsultats sont fiables 9 fois sur 10. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ Question : Est-ce que cet nonc signifie que les tudiants prennent quelque part entre 32 et 54 minutes pour se rendre lUQM ? ____________ (Oui/Non). Expliquez votre rponse en 2 lignes. 3. Une enqute auprs dun chantillon reprsentatif de volontaires dans les organisations de comt dun parti politique a montr que les volontaires font en moyenne 7heures et 32 minutes de bnvolat chaque semaine. Ces rsultats sont prcis 45 minutes, avec un risque derreur de 10%. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 4. Les Qubcois prfrent passer leurs vacances au Qubec. Un sondage rcent o 2045 personnes ont t interviewes par tlphone a dmontr que 69 % dentre eux prvoyaient rester au Qubec lt prochain. La marge derreur est de 2 % avec un niveau de confiance de 95 %. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________

SOC 4206 Estimation - Rachad Antonius

p. 15.6

5. Les tudiantEs dpensent en moyenne entre 4.45 $ and 5.15 $ la caftria durant lheure du dner. Cest du moins ce qui ressort dun sondage effectu auprs de 560 tudiants et tudiantes, et les rsultats sont fiables 9 fois sur 10. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 6. Considrez les deux noncs suivants, qui se refrent la question 3 ci-haut. a) Nous estimons, avec un niveau de confiance de 90 %, que chacun des volontaires du parti passe entre 6 heures et 47 minutes, et 8 heures et 17 minutes chaque semaine travailler pour le parti. b) Nous estimons, avec un niveau de confiance de 90 %, que les volontaires du parti passent en moyenne entre 6 heures et 47 minutes, et 8 heures et 17 minutes chaque semaine travailler pour le parti. Quelle est la diffrence entre ces deux noncs ? Lequel traduit correctement lnonc de la question 3 ?

Formulation dnoncs destimation


crivez une phrase complte qui formule un estim du paramtre pour les exemples suivants. Ceci ncessitera le calcul de la marge derreur laide dExcel. Compltez aussi les espaces laisss blancs. 7. Variable tudie : Le fait de fumer des cigarettes. Population tudie : Tous les employs dune grande companie. Taille de lchantillon : 238 personnes Statistique tudie : Le pourcentage des fumeurs et fumeuses Statistique mesure : 29 % Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : 95 % nonc ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________

SOC 4206 Estimation - Rachad Antonius

p. 15.7

8. Variable tudie : Le comportement des conducteurs aux arrts. Population tudie : Tous les conducteurs de voitures dans une ville. Taille de lchantillon : 1200 personnes Statistique tudie : Le pourcentage de ceux et celles qui font un arrt complet Statistique mesure : 90 % Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : 95 % nonc : _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ 9. Variable tudie : Heures de travail rmunr par semaine Population tudie : Les tudiants de 1re anne du Bac lUQM. Taille de lchantillon : 900 personnes Statistique observe : Nombre dheures travailles par semaine Statistique mesure : 15 heures cart type : 3 heures (suggestion : convertir en minutes) Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : 95 % nonc : ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________

SOC 4206 Exercices sur la distribution normale - Rachad Antonius

p. 16.1

Exercices sur la distribution normale 1. Supposons que le poids des nouveaux-ns dans une maternit soit distribu normalement avec une moyenne de 3.5 kg et un cart type de 0.5 kg. Calculer : a) le pourcentage de nouveaux-ns pesant au-dessus de 4 kg; b) Le pourcentage de nouveaux-ns pesant entre 3.5 kg et 4 kg; c) Le pourcentage de nouveaux-ns pesant plus de 5 kg; d) Le pourcentage de nouveaux-ns pesant moins de 2 kg; e) Le pourcentage de nouveaux-ns pesant moins de 2.3 kg f) Le pourcentage de nouveaux-ns pesant plus de 4.6 kg.

SOC 4206 Exercices sur la distribution normale - Rachad Antonius

p. 16.2

2. Les noncs suivants sont logiquement quivalents. Ce sont des faons diverses de dire la mme chose. Tous ces noncs renvoient la valeur z = 1 Pour z = 1
1. 2. 3. 4. 5. Laire sous la courbe normale standardise entre 0 et 1 est de 0.3413 units. Dans N(72,4), le pourcentage des donnes qui tombent entre les valeurs 72 et 76 est de 34.13 % Si une population est distribue normalement avec une moyenne de 72 et un cart type de 4 units, le pourcentage de donnes entre 72 et 76 est de 34.13 % Dans une population dont la distribution est N(72,4), le pourcentage de donnes plus grand que 76 est de (50 34,13) = 15.87 Si vous pigez au hasard un individu dans une population qui est distribue normalement N(72,4), il y a environ 16 % de chances que son score soit 76 ou plus.

Pour chacune des valeurs suivantes de z, crivez cinq noncs similaires qui soient quivalents entre eux. Valeurs de z : z = 1.6 ; z = 0.8 ; z = 1.96 ; z = -1.6. Pour z = 1.6
1. 2. 3. 4. 5.

(Donc le x correspondant dans N(72, 4) est gal 72 + (1.6 * 4) = 78,4)

Laire sous la courbe normale standardise entre 0 et 1.6 est de ___________ units. Dans N(72,4), le pourcentage des donnes qui tombent entre les valeurs 72 et 78,4 est de ______ % Si une population est distribue normalement avec une moyenne de 72 et un cart type de 4 units, le pourcentage de donnes entre 72 et 78,4 est de ______ % Dans une population dont la distribution est N(72,4), le pourcentage de donnes plus grand que 78,4 est de (50 _______ ) = _______ Si vous pigez au hasard un individu dans une population qui est distribue normalement N(72,4), il y a environ _____ % de chances que son score soit 78,4 ou plus.

Pour z = 0.8 1. 2. 3. 4. 5. Pour z = 1.96

(Donc le x correspondant dans N(72, 4) est gal 72 + (0.8 * 4) = ______)

SOC 4206 Exercices sur la distribution normale - Rachad Antonius

p. 16.3

Pour z = - 1.6

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.1

MODLE DEXAMEN FINAL


Vous avez trois heures pour complter les rponses cet examen. La partie I se fera la main, sans accs au livre ou au notes. Elle devrait prendre moins dune demi-heure. Vous commencerez la partie II quand vous aurez remis la partie I. Pour la partie II, vous avez le droit dutiliser le livre, et tout autre matriel denseignement, incluant les notes de cours et les labos qui ont t distribus. Vous devez crire les rponses dans un document Word, et dans ce cas les tableaux ou graphiques de SPSS que vous voulez utiliser doivent tre recopis dans ce document. Il serait prfrable dimprimer votre texte afin dviter les consquences des accidents informatiques ! Mais si vous les mettez dans le dossier Dpt qui lui-mme est dans le dossier du cours SOC 4206, sur le serveur Gourou, je limprimerai moi-mme sur le champs, et vous demanderai de vrifier que toutes les pages ont bien t imprimes avant que vous partiez. IMPORTANT : Recopiez le fichier de donnes SPSS qui sera dans le fichier Documents (dans SOC 4206 sur Gourou) sur le Bureau de lordinateur, et crivez les rponses lexamen dans un document que vous aurez sauvegard sur le Bureau aussi. Quand vous aurez fini, si vous navez pas imprim vos rponses, placez votre document dans le dossier Dpt. Nommez votre document ainsi : Nom_de_familleInitiale_final. Exemple : si vous vous appelez Pierre Trudeau votre document sera nomm : TrudeauP_final. Suggestions : 1. Sauvegardez votre document frquemment !!! 2. Il nest pas ncessaire de mettre tous les tableaux et graphiques : seulement ceux qui ajoutent quelque chose la comprhension du texte. Les conclusions doivent tre formules en phrases compltes qui incluent les rsultats quantitatifs. Le corrig de ce modle dexamen sera disponible la semaine prochaine et nous en discuterons en classe afin que les critres dvaluation soient clairs pour tout le monde.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.2

Partie I
I. II. III. Expliquez en quelques lignes quelles sont les limites et les avantages de la moyenne et de la mdiane pour reprsenter la tendance centrale dun ensemble de donnes quantitatives. crivez la formule de lintervalle de confiance dun estim de la moyenne, puis dune proportion, aux deux niveaux de confiance de 95% et 99%. Considrez le diagramme de dispersion suivant, qui met en relation la valeur du terrain dune maison et son prix de vente.

Prix de vente vs valeur du terrain


500000

400000

300000

200000

Prix de vente

100000

0 0 20000 40000 60000 80000 100000

Valeur du terrain

1. Tracez manuellement la ligne de rgression. 2. Estimez manuellement le prix de vente moyen dune maison dont le terrain vaut 40 000 $. 3. Choississez une maison qui sloigne un peu de la droite de rgression et indiquez sur le graphique la diffrence entre son prix de vente estim par la droite de rgression et son prix de vente rel.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.3

Partie II : Travail sur SPSS


I. II. III. IV. V. VI. Analysez les donnes se rapportant lge au premier mariage, en dcrivant leffet du sexe, du niveau dducation, de la variable intitule race, et de la religion pour cet chantillon, chacune de ces variables indpendantes tant prise individuellement. Crez une variable intitule : anne de naissance, et examinez si il y a une corrlation ou une association statistique entre lanne de naissance et lge au premier mariage. Choisissez une association statistique observe la question I, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire. Analysez les donnes se rapportant au fait de voter ou pas en 1992, en dcrivant leffet du sexe, du niveau dducation, de la variable intitule race, et de la religion pour cet chantillon, chacune de ces variables indpendantes tant prise individuellement. Choisissez une association statistique observe la question IV, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire. Choisissez un chantillon alatoire de 100 personnes, et calculez lge moyen des individus de cet chantillon ainsi que le pourcentage dentre eux qui ont vot en 1992. Sur la base de cet chantillon, crivez deux noncs pour estimer lge moyen de la population, puis le pourcentage de gens qui ont vot aux lections de 1992 au niveau de toute la population.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.4

RPONSES AU MODLE DEXAMEN FINAL


I. Question. Analysez les donnes se rapportant lge au premier mariage, en dcrivant leffet du sexe, du niveau dducation, de la variable intitule race, et de la religion pour cet chantillon, chacune de ces variables indpendantes tant prise individuellement.

Les donnes : Le fichier analys, intitul GSS93 subset, est un sous-ensemble des donnes recueillies lors de lenqute sociale gnrale en 1993 aux Etats-Unis. Lchantillon contient 1500 cas, mais il ne semble pas que ce soit un chantillon reprsentatif car la proportion de femmes et dhommes diffre grandement de celle de la population gnrale. Lge au premier mariage. Les individus de cet chantillon qui se sont maris lont fait pour la premire fois un ge moyen de 22,79 ans, ce qui correspond 22 ans et 288 jours environ, soit 22 and et 9 mois et demie environ. Lcart type est de 5 ans. La plus jeune personne se marier avait 13 ans, et un individu de lchantillon sest mari pour la premire fois 58 ans.

Leffet de la variable sexe. Les femmes de notre chantillon se marient plus tt que les hommes. En effet, on peut lire sur le tableau que les femmes se marient un ge moyen de 21,84 ans et les hommes un ge moyen de 24,16 ans, lcart tant de 2 ans et 4 mois environ.
Leffet de lobtention dun diplme universitaire. Les personnes qui ont obtenu un diplme universitaire ont eu tendance ce marier environ 3 ans plus tard, en moyenne, que les non diplms. En effet la moyenne dge au premier mariage pour les premiers est de plus de 25 ans, alors que celle des second est denviron 22 ans.

Leffet de la variable de classification raciale. Les blancs et les noirs semblent ne pas trop diffrer quant lge du premier mariage (22,71 ans vs 22,87 ans respectivement). Les personnes classes autres se marient en moyenne un peu plus tard, tel quillustr dans le tableau suivant :
Tableau 1. Age au premier mariage en fonction de la classification raciale.

Racew of Respondent 1 white 2 black 3 other Total

Mean 22,71 22,87 24,28 22,79

N 1029 119 54 1202

Std. Deviation 4,923 5,733 5,329 5,033

Leffet de la religion. La religion semble tre un facteur qui affecte lge moyen du mariage. Le tableau 2 montre une diffrence entre les catholiques (23,63 ans) et les protestants (22,25 ans), qui sont les deux groupes religieux les plus nombreux dans cet chantillon. Les autres groupes religieux semblent se marier un peu plus tard, mais leurs effectifs dans cet chantillon sont beaucoup plus rduits.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.5

Tableau 2. Lge au premier mariage en fonction de lappartenance religieuse.

Religious Preference 1 Protestant 2 Catholic 3 Jewish 4 None 5 Other Total

Mean 22,25 23,63 25,65 23,32 25,42 22,78

N 787 265 23 95 26 1196

Std. Deviation 5,014 5,004 4,141 5,015 3,657 5,032

II.

Crez une variable intitule : anne de naissance, et examinez si il y a une corrlation ou une association statistique entre lanne de naissance et lge au premier mariage.

La variable Anne de naissance a t cre en soustrayant lge du rpondant de lanne o lenqute a t mene, 1993. La corrlation entre lanne de naissance et lge au premier mariage est de 0.083, soit une corrlation ngative trs faible. Mme si elle est significative (cest--dire quelle se gnralise lensemble de la population) cette corrlation est trs faible et na donc pas de valeur exlicative : lanne de naissance nexplique que (-.083) 2 , soit moins de 1 % de la variation de lge au premier mariage. On ne peut donc pas conclure que, pour cet chantillon, lappartenance des gnrations plus vieilles explique le mariage un ge plus jeune.
l r o C i t a n i e g A a l n Ce o o d s r M r a e P d i r a t s F ) e l r tb a ( . g i S N r o C 8 0 . i b ( . g S N 8 0 . d e a M t s r i F n o e 1 . 0 2 1 n 3 o s r a P e d * 4 0 . 9 1 . ) l *e 3 4 0 . 9 1 1 . 5 9 4 1 n e h s W

i a n

e n a d

lo n i t a ) e r t a l

. *

b ( 1 . 0 u v f g s e n i t l r o c a L

III.

Choisissez une association statistique observe la question I, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire.

Examinons la relation entre lge au premier mariage et le sexe. Pour savoir si la relation observe sur lchantillon se gnralise toute la population, il faut effectuer un test t. Nous posons :

Lhypothse nulle : Il ny a aucune diffrence entre lge moyen au premier mariage des hommes et des femmes. Lhypothse alternative : Lge moyen au premier mariage des hommes et des femmes est diffrent.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.6

On obtient le tableau 3, reproduit ci-bas. Nous avons suprimer les colonnes dont nous navions pas besoin pour cette analyse. Tableau 3. Test t pour lgalit de lge au premier mariage des hommes et des femmes

t Equal variances assumed Equal variances not assumed 8,066 8,085

df 1200 1064,6

Sig. (2-tailed) ,000 ,000

Mean Difference 2,32 2,32

Que la variance de lge au mariage des femmes et des hommes soit gale ou pas, la conclusion est la mme : cest lhypothse alternative qui est accepte. Ceci signifie quon peut affirmer, avec une probabilit presque nulle de se tromper (moins de 0,0005, soit moins de 0,05 %) quil y a une diffrence entre lge au premier mariage des hommes et des femmes, en supposant que lchantillon soit reprsentatif. IV. Analysez les donnes se rapportant au fait de voter ou pas en 1992, en dcrivant leffet du sexe, du niveau dducation, de la variable intitule race, et de la religion pour cet chantillon, chacune de ces variables indpendantes tant prise individuellement.

Analyse de la participation au vote en 1992 On constate tout dabord quenviron 68,8 % des individus de lchantillon ont dclar avoir vot en 1992, 28 % ont dclar ne pas avoir vot, 2,3% ont dclar ne pas tre ligibles, et un tout petit nombre (6 personnnes) ont refus de rpondre cette question. Huit autres cas sont des donnes manquantes. Ces rsultats sont consigns dans le tableau 4. Tableau 4. Participation au vote en 1992
Valid Percent 69,2 28,2 2,3 ,4 100,0 Cumulative Percent 69,2 97,3 99,6 100,0

Frequency Valid 1 voted 2 did not vote 3 not eligible 4 refused Total Missing 8 DK 9 NA Total Total 1032 420 34 6 1492 4 4 8 1500

Percent 68,8 28,0 2,3 ,4 99,5 ,3 ,3 ,5 100,0

Pour la suite de lanalyse, nous allons recoder la variable pour mettre dans une unique catgorie toutes les donnes manquantes, sans distinction. Le tableau obtenu est le suivant (tableau 4a):

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.7

Tableau 4a. Participation au vote en 1992


Valid Percent 71,1 28,9 100,0

Frequency Valid 1 A vot 2 N'a pas vot Total Missing Total 9 Donnes manquantes 1032 420 1452 48 1500

Percent 68,8 28,0 96,8 3,2 100,0

(Notons que les donnes ne nous disent pas si les rpondants ont vot ou pas, mais plutt sils ont dclar avoir vot. Nous ferons ce rappel de temps en temps.) Effet du sexe. Le graphique 1 montre que les hommes et les femmes de cet chantillon se comportent peu prs de la mme faon. En effet, 72,1 des hommes ont dclar avoir pris part au vote, contre 70.3 % des femmes, une diffrence minime.
Graphique 1. Participation des hommes et des femmes au vote en 1992.
80

60

40

20

Percent

Respondent's Sex
Male

0 A vot N'a pas vot

Female

Participation au vote en 1992

Effet du niveau dducation. Leffet du niveau dducation sur la participation au vote est marquant. Le tableau 5 montre en effet que parmi ceux qui ne dtiennent pas de diplme universitaire, 65,5 % dclarent navoir pas particip au vote, alors que prs de 90 % de ceux et celles qui ont un diplme universitaire dclarent avoir vot.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.8

Tableau 5. Participation au vote en 1992 en fonction de la dtention ou non dun diplme universitaire

Participation au vote en 1992 1 A vot College Degree 0 No College degree 1 College degree Total Count % within College Degree Count % within College Degree Count % within College Degree 730 65,5% 301 89,9% 1031 71,1% 2 N'a pas vot 385 34,5% 34 10,1% 419 28,9% Total 1115 100,0% 335 100,0% 1450 100,0%

Effet de la religion. On constate que les divers groupes religieux ont tendance dclarer quils se sont prvalu de leur droit de vote des degrs divers, mais que les diffrences ne sont pas majeures (pas aussi grandes que leffet de lducation par exemple). Le tableau 6 donne les pourcentages pour les divers groupes, qui varient entre 64,4 % pour ceux et celles qui se dclarent sans religion, 72,4 % pour les catholiques ainsi que pour les groupes religieux autres.
Tableau 6. Religious Preference * Participation au vote en 1992 Crosstabulation

Participation au vote en 1992 1 A vot Religious Preference 1 Protestant Count % within Religious Preference 2 Catholic Count % within Religious Preference 3 Jewish Count % within Religious Preference 4 None Count % within Religious Preference 5 Other Count % within Religious Preference Total Count 668 71,5% 233 72,4% 20 69,0% 87 64,4% 21 72,4% 1029 2 N'a pas vot 266 28,5% 89 27,6% 9 31,0% 48 35,6% 8 27,6% 420

Total

934 100,0% 322 100,0% 29 100,0% 135 100,0% 29 100,0% 1449

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.9

% within Religious Preference

71,0%

29,0%

100,0%

Leffet de la classification raciale. On observe ici une diffrence majeure entre les groupes dfinis par la classification amricaine en termes raciaux. Si les blancs disent avoir vot 72 %, les noirs 64 %, et les membres des autres groupes 58 %, tel quillustr par le tableau 7.
Tableau 7. Participation au vote en 1992 en fonction de la classification raciale

Participation au vote en 1992 2 N'a pas 1 A vot vot Racew of Respondent 1 white Count % within Racew of Respondent 2 black Count % within Racew of Respondent 3 other Count % within Racew of Respondent Total Count % within Racew of Respondent 893 72,6% 101 64,3% 38 58,5% 1032 71,1% 337 27,4% 56 35,7% 27 41,5% 420 28,9%

Total

1230 100,0% 157 100,0% 65 100,0% 1452 100,0%

Ceci est illustr par le graphique 2.

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.10

80

60

40

Racew of Respondent
20

Percent

white black

0 A vot N'a pas vot

other

Participation au vote en 1992

V.

Choisissez une association statistique observe la question IV, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire.

Choisissons lassociation entre le niveau dducation et le fait de voter ou pas. Nous avons vu plus haut que 65 % de ceux qui navaient pas de diplme universitaire avaient vot, alors que 90 % des dtenteurs de diplme staient prvalus de ce droit (en supposant que les dclarations davoir vot sont conformes au comportement actuel.ce qui nest peut-tre pas le cas). Pour savoir si cette diffrence est gnralisable (elle semble bien ltre vu la taille de lcart !) il faut calculer le Chi deux. Lhypothse nulle est quil ny a pas de diffrence, et lhypothse alternative est quil y en a. Le Chi deux a une valeur de 74, qui donne un niveau de signification plus petit que 0,000. Ceci signifie quon peut accepter lhypothse alternative ( leffet quil y a une diffrence entre les deux groupes) avec une probabilit presque nulle de se tromper. Note : si vous faites le test du Chi deux pour la variable Sexe, vous obtiendrez un niveau de signification de 0,83, qui signifie que si vous retenez lhypothse alternative, vous aurez 83 % de chances de vous tromper !! Vous retenez donc lhypothse nulle (le sexe na pas deffet sur le fait de voter ou pas). Si vous aviez retenu les variable participation au vote et race, le Chi deux serait de 9,898, avec un niveau de signification de ,007 (Bond. James Bond). Vous retenez donc lhypothse alternative (il y a un lien au niveau de toute la population) puisque cette probabilit est plus petite que 5 %. VI. Choisissez un chantillon alatoire de 100 personnes, et calculez lge moyen des individus de cet chantillon ainsi que le pourcentage dentre eux qui ont vot en 1992. Sur la base de

SOC 4206 Format de lexamen final - Rachad Antonius

p. 17.11

cet chantillon, crivez deux noncs pour estimer lge moyen de la population, puis le pourcentage de gens qui ont vot aux lections de 1992 au niveau de toute la population.

Un chantillon de prs de 100 personnes a t choisi. Le nobre exact choisi sest avr tre 99. Leur ge moyen est de 48,62 ans, et 64,9 % dentre eux ont vot. Sur cette base, nous pouvons faire les noncs suivants : Estim de lge de la population. Sur la base des donnes provenant dun chantillon alatoire de 99 personnes, nous estimons, avec un niveau de confiance de 95 %, que lge moyen de la population dont provient cet chantillon se situe quelque part entre 45,13 et 52,10 ans. Ou encore En partant dun chantillon alatoire de 99 personnes, nous estimons que lge moyen de la population est de 48,62 ans, avec une marge derreur de + ou 3,48 ans. La probabilit derreur est de 5 %. Estim du pourcentage de ceux qui ont vot Sur la base dun chantillon alatoire de 99 personnes, nous estimons que les pourcentage de personnes se prvalant de leur droit de vote se situe autour de 65 %, avec une marge derreur de + ou 9 %, 19 fois sur 20. (Au lieu de 19 fois sur 20, on peut aussi dire : avec une probabilit derreur de 5 % ou avec un niveau de confiance de 95%.

SOC 4206 Questions sur le palmars scolaire - Rachad Antonius

p. 18.1

RFLEXIONS CRITIQUES SUR LUSAGE SOCIAL DES MTHODES QUANTITATIVES I. Le palmars des coles secondaires de lActualit La discussion en classe va porter sur ces questions. Veuillez lire attentivement les textes proposs (le texte de lActualit ainsi que les textes critiques suggrs) et rflchir aux questions suivantes. 1. Quel est le concept principal qui est au centre de la recherche dont fait tat lActualit ? Quels sont les autres concepts (secondaires) qui sont aussi mesurs ? 2. Quelles sont les variables qui sont donnes dans le palmars ? Sont-elles indiques dans le texte ? 3. Quels sont les indicateurs utiliss pour mesurer ces concepts ? (pour chaque concept faites une liste des indicateurs utiliss) 4. Quels sont les arguments de nature mthodologique qui remettent en question ce palmars comme outil de connaissance de la ralit scolaire au Qubec ? Rsumez les principales critiques faites au palmars. 5. Quelles rponses donneriez-vous ces critiques, aprs avoir relu le texte de lActualit ? 6. Compte tenu de ces critiques et des rponses qui leur sont apportes, quelle est, selon vous, la valeur de ce palmars comme outil de connaissance ? (En dautres termes : quelles sont les conclusions de ltude que lon peut prendre telles quelles, et quelles sont celles quil faut remettre en question ? II. Le concept de Seuil de la Pauvret Lire le texte de Ian Hacking Faonner les gens : Le seuil de pauvret tir de : Lre du Chiffre : systmes statistiques et traditions nationales, sous la direction de J-P Beaud et J-G Prvost, Sainte-Foy, Presses de lUniversit du Qubec, 2000. La discussion en classe portera aussi sur ce texte.

SOC 4206 Diagrammes explicatifs - Rachad Antonius

p. 19.1

Statistiques
Statistiques descriptives
Ensemble de mthodes et de techniques qui visent rsumer des donnes numriques en quelques nombres, tout en saisissant les caractristiques les plus importantes et les plus pertinentes. Une partie de linformation est perdue dans le processus.

Infrence statistique
Ensemble de mthodes et de techniques qui visent infrer des caracteristiques numriques dune population lorsquon nen connat quun chantillon. Linfrence implique toujours une marge derreur ainsi quune probabilit derreur. Quand elle est fonde sur un chantillon repr-sentatif, linfrence a de meilleures chances de donner des rsultats proches de la ralit.

Mesures de tendance centrale


Elles rpondent la question: Quelles sont les valeurs les plus reprsentatives de lensemble des donnes ? Moyenne, Mdiane, Mode.

Lestimation
Elle consiste proposer la valeur dun paramtre (mesure prise sur une population) quand seule la statistique (mesure prise sur un chantillon).est connue. Les sondages dopinion sont toujours fonds sur des estimations : Une enqute est mene sur un chantillon, et les rsultats gnraliss la population toute entire, avec une marge derreur et une probabilit derreur.

Mesures de dispersion
Elles rpondent la question : Quelle est la dispersion, ou lparpillement des donnes ? Sont-elles concentres autour de leur tendance centrale, ou bien disperses sur une grande tendue ? cart type, variance, tendue.

Les tests dhypothses Mesures de position


Elles rpondent la question: Comment se positionnent les donnes individuelles par rapports aux autres ? Percentiles, deciles, quartiles. Ils ont pour objectif de dterminer sil faut accepter comme vraisemblables des suppositions que lon fait sur une population, ou de les rejeter parce quelles sont invraisemblables. Le processus logique est loppos de celui de lestimation. On fait une supposition sur la valeur dun paramtre. Sur cette base, on prdit quun chantillon alatoire devrait probablement tomber dans un certain intervalle de valeurs. On mesure ensuite la statistique sur lchantillon. Si elle tombe dans lintervalle prvu, on se dit que lhypothse nest pas invraisemblable. Si elle tombe en dehors de lintervalle, on se dit que lhypothse est invraisemblable, et on adopte alors une hypothse alternative qui aura t prcise ds le dbut du processus.

Frquences et pourcentages
Mesures qui rpondent la question: Comment les donnes sont-elles distribues sur les diffrentes catgories dune variable qualitative, ou sur les valeurs dune variable discrte ?

Mesures dassociation
Elles rpondent la question : Si on connat le score dun individu sur une variable, dans quelle mesure peut-on prdire son score sur une autre variable ? Coefficient de correlation (r), Khi deux.

SOC 4206 Diagrammes explicatifs - Rachad Antonius

p. 19.2

Statistiques infrentielles
Ensemble de mthodes et de techniques statistiques visant infrer les caractristiques dune population (i.e. un paramtre) partir de la connaissance dun chantillon (i.e. une statistique)

Estimation
On part dun chantillon. Une statistique est mesure. On gnralise lensemble de la population (i.e. on estime le paramtre), en prenant en considration que : a) notre estim est approximatif (il y a donc une marge derreur) et que b) notre estim pourrait tre compltement faux, ce qui se produirait si notre chantillon tait exceptionnellement diffrent de la population (il y a donc une probabilit derreur)

Tests dhypothses
On propose une hypothse propos de la valeur dun paramtre. Sur la base de cette hypothse, on prdit que la statistique correspondante va tomber dans un intervalle entourant la valeur suppose (soit dans la zone dacceptation). Ensuite, on mesure la statistique, et on constate si elle tombe ou pas dans la zone dacceptation prdite. On tire une conclusion : Si la statistique tombe dans lintervalle prdit (i.e. la zone dacceptation), on accepte lhypothse comme tant probablement vraie. Si elle tombe en dehors de lintervalle prdit (i.e. dans la zone de rejet) on rejette lhypothse en se disant quelle est probablement fausse.

SOC 4206 Diagrammes explicatifs - Rachad Antonius

p. 19.3

Validation dhypothses
LA LOGIQUE
Une hypothse est formule au sujet de la valeur dun paramtre

ET LES TAPES CONCRTES


Cette hypothse peut tre justifie par une connaissance pralable, ou par analogie avec des situations similaires. On suppose gnralement que la situation tudie ne diffre pas notablement de celle que lon connat. Cest pour cela que lon nomme lhypothse de dpart : HYPOTHSE NULLE , H0. Et aussi une HYPOTHSE ALTERNATIVE , OU HYPOTHSE DE RECHERCHE, H1 qui sera retenue si H0 est rejete. Par exemple, si lhypothse porte sur la moyenne dune variable, nous aurons trois possibilits : H0 : = 34 H1 : 34 ou H0 : = 34 H1 : < 34 ou H0 : = 34 H1 : > 34

Sur la base de cette hypothse, on prdit la valeur de la statistique correspondante. Une zone de rejet et une valeur critique sont dtermines

Raisonnement : Si lhypothse est vraie, lchantillon alatoire choisi ne devrait pas tre trop diffrent de la population, et sa moyenne ne devrait pas trop scarter de celle de la population. Mais on tolre une certaine diffrence car lchantillon nest pas une copie conforme miniaturise de la population. Ainsi, la prdiction fonde sur la premire des hypothses nulles ci-haut est : la moyenne de lchantillon, x , devrait tomber entre 32 et 36 (i.e. on introduit une marge derreur de 2 units max par rapport la valeur suppose qui est 34). Cette marge derreur est calcule en faisant appel aux proprits de la distribution dchantillonnage (soit la distribution normale ou la distribution t de Student). Donc : Zone de rejet : Valeurs critiques : Zone dacceptation :

x < 32 ou

x > 36

32 et 36 32 < x < 36

Si la moyenne de lchantillon tombe dans la zone de rejet, on rejette H0 et on retient H1 comme tant fortement probable, connaissant la probabilit de nous tromper. Sinon, on se dit que lon a pas assez de raisons de rejeter H0.

SOC 4206 Diagrammes explicatifs - Rachad Antonius

p. 19.4

On obtient un chantillon, et on mesure la statistique.

Cet chantillon peut tre le rsultat dune enqute, ou rsulter dune exprimentation, ou encore tre tir de donnes darchives. Exemple : x = 35.7

On formule une dcision : acceptation ou rejet de lhypothse de dpart.

Si la statistique mesure tombe dans la zone dacceptation, alors on accepte lhypothse nulle si elle tombe dans la zone de rejet, on rejette H0 , et on accepte lhypothse alternative, H1 Dans les deux cas, on risque de se tromper. La probabilit de se tromper est dnote par :

pour la probabilit de rejeter H0 alors quelle est vraie et pour la probabilit daccepter H0 alors quelle est fausse.

Remarques 1. Quand on rejette H0, on connat le risque que lon prend de se tromper. En fait, cest nous qui dterminons au dpart le niveau de risque que lon est prt prendre (gnralement 1 % ou 5 %), et sur la base de ce niveau de risque on calcule les valeurs critiques. Donc, si on se trompe, on sait quel risque on prend exactement lorsquon rejette H0 , risque quon dnote par . 2. Mais lorsquon accepte H0, on ne sait pas quelle est la valeur exacte de . Tout ce que lon sait, cest que plus on diminue , plus on augmente et vice-versa. 3. Pour ces raisons, on est sur des bases plus solides quand on accepte H1 que lorsquon accepte H0. Cest pour cela que cest H1 qui est considre comme lhypothse de recherche que lon souhaite prouver.

SOC 4206 Diagrammes explicatifs - Rachad Antonius

p. 19.5

Comment mesurer lassociation statistique ?


Cel dpend de lchelle de mesure des variables
chelle de mesure Procdure pour mesurer LASSOCIATION STATISTIQUE

Tableaux croiss
NOMINALE VS NOMINALE
Sapplique aussi aux variables quantitatives regroupes en catgories

On compare les pourcentages horizontaux des diffrentes catgories de la variable indpendante. Des diffrences importantes indiquent une association statisque. On gnralise toute la population laide du Chi deux.

Labo 8 et Labo 13

Comparaison des moyennes


NOMINALE VS QUANTITATIVE Sapplique aussi quand la premire variable est quantitative regroupe en catgories On compare la moyenne de la variable dpendante pour les diverses catgories de la variable indpendante. On gnralise toute la population laide dun test t.

Labo 9 et Labo 12

Corrlation et rgression
Le coefficient de corrlation r nous renseigne sur lintensit de la relation et sur sa direction. La droite de rgression donne graphiquement et par une quation nous permet de prdire les scores des individus sur la variable dpendante partir de leur score sur la variable indpendante. Ces prdictions sont toujours accompagnes dune erreur, qui tend tre petite quand la corrlation est forte.

QUANTIT. VS QUANTIT. Peut quelquefois sappliquer aux variables ordinales comportant un grand nombre de catgories

Labo 10

S-ar putea să vă placă și