Documente Academic
Documente Profesional
Documente Cultură
Introduction SPSS
Labo 1 1.
Introduction SPSS
Introduction
SPSS, dont le sigle anglais signifie Statistical Package for the Social Sciences, est un programme informatique danalyse de donnes statistiques. Il permet de saisir des donnes, den faire des prsentations rsumes (tableaux, graphiques), de les organiser et surtout de les analyser. Il fonctionne sur les plateformes Macintosh et Windows, ainsi que sur les systme centraux tels UNIX. Nous ferons rfrence trois types de documents SPSS : des fichiers de donnes (SPSS Data Editor), des fichiers de commandes permettant dexcuter des procdures statistiques (SPSS Syntax Editor), et des fichiers de rsultats o apparaissent les tableaux et les graphiques produits par SPSS (SPSS Viewer). Dans ce qui suit nous apprendrons ce que sont ces fichiers et comment les utiliser. Le programme SPSS est constamment mis jour et amlior, mais les diffrences entre les versions rcentes ne sont pas toujours majeures. Nous utiliserons ici la version 11, mais elle ne diffre pas beaucoup des versions subsquentes en ce qui concerne les fonctions lmentaires. Il existe une version franaise de SPSS, et les versions plus rcentes permettent de choisir une interface soit anglaise ou franaise.
2.
Dmarrage de SPSS
Quand on dmarre SPSS, on obtient soit un fichier de donnes vide, ou alors la figure 1.1 que lusager a le choix de faire apparatre ou non au dmarrage de SPSS. Cette bote de dialogue vous donne plusieurs choix, dont ouvrir un nouveau fichier, ouvrir un fichier existant, etc.. Si vous choisissez loption Open an existing data source et puis More Files qui est slectionne par dfault, et que vous cliquez OK, vous obtenez une liste de fichiers SPSS. En faisant dfiler la fentre vers la droite, dautres fichiers apparaissent. En regardant attentivement, vous verrez un fichier nomm GSS93 subset. Slectionnez-le et ouvrez-le. Nous allons travailler beaucoup sur les donnes de ce fichier qui provient dune enqute sociale gnrale (General Social Survey) entreprise aux tats-Unis en 1993. Ce fichier est fourni avec les diverses versions de SPSS et il contient un assortiment de variables intressantes analyser. Il faut cependant noter que si les donnes sont bien relles, lchantillon de 1500 cas utilis pour la construction de ce fichier nest pas reprsentatif. Les conclusions quon en tirera ne refltent donc pas les caractristiques relles de la population amricaine en 1993. Fig. 1.1 En ouvrant le fichier de donnes GSS93 subset, on obtient la fentre suivante (Fig. 1.2).
Fig. 1.2. Vous remarquerez que le nom du fichier apparat au haut de cette fentre et que le terme SPSS Data Editor apparat sa suite. Ce terme dsigne les fichiers de donnes. Dans ces fichiers, on peut saisir les donnes, les organiser et les transformer, do le terme Data Editor. La fentre des fichiers de donnes comporte, au bas gauche, deux onglets, tiquetts Data View et Variable View. Chacun de ces onglets correspond lun des deux affichages possibles de la fentre de donnes : soit les donnes elles-mmes, ou alors la liste des variables ainsi que leurs caractristiques. En cliquant sur un onglet ou sur lautre, on passe dun affichage lautre, en restant toujours dans le mme document. La figure 1.2 montre ci-haut correspond laffichage Data View. Ce sont les donnes ellesmmes que lon voit. Ces donnes sont organises en lignes et en colonnes. Chaque ligne correspond un cas, et chaque colonne une variable. La premire ligne comporte toutes les informations du questionnaire numro 1, la deuxime ligne les informations du questionnaire numro 2, et ainsi de suite. Mais attention : faites dfiler cette feuille de donnes vers le bas jusqu la ligne 1500. Que voyez-vous dans la premire case ? Le numro qui apparat nest pas 1500. Vrifiez vous-mme. On y lit : 1606. Ceci signifie que plusieurs questionnaires ont d tre abandonns, sans doute parce quils comportaient trop domissions, ou quils taient mal remplis. Pour avoir 1500 cas, on a d se rendre au questionnaire 1606. Donc, 106 questionnaires ont t ignors pendant la constitution de ce fichier. Les colonnes correspondent des variables. La premire colonne identifie le cas, ou le questionnaire, qui reoit un numro. La 2me colonne correspond la variable statut demploi. Elle nous renseigne sur le statut de la personne, qui pourrait travailler temps plein, ou temps partiel, ou tre retraite, etc. La troisime colonne donne le statut matrimonial des individus de lchantillon, et ainsi de suite. Nous allons prsent exprimenter quelques manipulations de lapparence du fichier. Vous tes invits les excuter sur votre poste de travail. 1. Laffichage Data View peut faire apparatre soit les codes utiliss pour dsigner les catgories des variables, soit les catgories elles-mmes. Par exemple, on pourrait avoir dans la colonne de la variable sexe soit les codes 1 ou 2, ou les valeurs Hommes ou Femmes. Le changement dune option lautre se fait en slectionnant loption Value Labels dans le menu View ou en la dslectionnant. Faites-en lexprience et observez le rsultat. 2. On peut aussi faire apparatre le nom complet dune variable en positionnant le curseur au haut de la colonne correspondante, l o le nom bref apparat. Ainsi, le nom complet de la variable marital apparat comme tant Marital Status quand on positionne le curseur dessus. Essayez, et trouvez aussi les noms complets des 3 ou 4 variables suivantes.
3. largissez une colonne en positionnant le curseur sur la ligne qui la spare de la colonne suivante, puis en tirant vers la droite avec le bouton droit de la souris press. 4. La commande Variables. Slectionnez la commande Variables dans le menu Utilities. Vous obtiendrez la fentre de la figure 1.3. On peut y lire les caractristiques de chacune des variables en faisant dfiler la liste des variables. En positionnant le curseur sur la variable marital, par exemple, vous verrez la signification de tous les codes utiliss : 1 signifie Married 2 signifie Widowed (i.e veuf ou veuve), etc. Une explication est requise pour le mot Type. Il est suivi de codes de la forme : F4.1, ou encore F1. Cest le format dans lequel la variable est note. F4.1 signifie que quatre espaces sont requis pour noter les valeurs de cette variable, dont un point et une dcimale (le point occupe un espace). On pourra donc inscrire des valeurs telles que 28.3 qui prennent quatre espaces et qui comportent une dcimale. Le format F2 signifie que la variable est note par un nombre comportant deux chiffres, sans dcimale. On peut aussi avoir des formats tels que A8 qui signifie que la variable est note par 8 caractres qui nont pas de valeur numrique, mais le fichier GSS93 subset ne comporte pas de telles variables. 5. Vous remarquerez dans cette mme fentre que le terme Missing Values apparat avec chaque variable. Il dsigne les valeurs manquantes, qui sont spcifies. Ces valeurs sont utilises pour coder des situations telles que Le rpondant refuse de rpondre ou La question ne sapplique pas. Dans de telles situations, on ne veut pas que les valeurs correspondantes soient prises en considration dans les calculs statistiques. La mention Missing Values nous indique que ces valeurs ne seront pas prises en considration dans les calculs. Nous verrons au labo 9 comment dfinir les variables et spcifier les valeurs manquantes. Le terme Measurement Level dsigne lchelle de mesure utilise pour cette variable (nominale, ordinale ou chelle quantitative, notions vues au premier cours). 6. La commande File Info. Slectionnez la commande File Info sous le menu Utilities. Vous verrez une nouvelle fentre apparatre, qui comporte toutes les informations vues dans la fentre Variables mentionne ci-haut. Cette fentre est intitule Output1 et elle est de type SPSS Viewer, qui est le type de fichier qui comporte les tableaux et graphiques produits par SPSS. Lavantage de produire ces informations par la commande File Info, cest quon peut copier toutes ces informations dun seul coup et les coller dans un document Word (ou tout autre traitement de texte) et les faire imprimer en tout ou en partie. Essayez cette procdure : cliquez une fois sur les informations produites par File Info : une bordure apparat, indiquant que cette information est slectionne. Copiez et collez dans un document Word. Chaque fois quon donne une commande SPSS, le rsultat est affich dans une fentre de type SPSS Viewer. Les rsultats des commandes suivantes sont affichs dans le mme fichier, la suite des rsultats dj produits. On peut enregistrer ce fichier de rsultats en lui attribuant un nom de notre choix. On peut aussi slectionner nimporte quel rsultat apparaissant dans ce fichier, puis le copier et le coller dans un document Word. Vous aurez sans doute remarqu que la fentre de rsultats est divise verticalement en deux. Le ct gauche de la fentre comprend une sorte de plan, ou de table des matires des rsultats produits (le terme utilis par SPSS pour dsigner cette partie est : Document map). Quand le fichier de rsultats comprend de nombreux lments, le Document map permet de rprer rapidement un rsultat et de le visionner. Nous navons pas encore parl des fichiers de type SPSS Syntax Editor. Ceci fera lobjet du labo 2.
Exercice 1.1
Ouvrez le fichier intitul Road Construction Bids qui est fourni avec SPSS. Pour cela, cliquez sur Open Data, rprez ce fichier en faisant dfiler la fentre vers la droite, et cliquez deux fois dessus. Produisez les informations sur les variables de ce fichier (File Info), puis copiez-les dans un document Word. IMPORTANT : Incluez dans ce document un en-tte qui comprend votre nom, le numro du labo, la date, ainsi que la pagination. Cette opration a t montre en classe. Tous les documents que vous allez produire dans ce cours doivent comporter un tel en-tte. Enregistrez ce document sur votre disquette afin de le faire imprimer si ncessaire.
2.1
Labo 2
Les commandes dans SPSS peuvent tre donnes de deux faons : soit en cliquant dans le menu appropri, soit en crivant la commande dans un langage spcial qui doit obir une syntaxe trs prcise, et qui apparat dans une fentre de type SPSS Syntax Editor. Certaines commandes ne peuvent tre donnes que dans le langage de la syntaxe, mais nous naurons pas traiter de telles commandes dans ce cours. Rappelez-vous quil y a trois sortes de fentres dans SPSS : 1. Celles o les donnes apparaissent, appeles SPSS Data Editor, qui ont elles-mmes deux modes daffichage : Data View permet de voir les donnes elles-mmes, et Variable View permet de voir les proprits de chacune des variables, qui sont listes sur le mme cran, chaque variable occupant une ligne. On passe de lun de ces deux affichages lautre en cliquant sur longlet appropri au bas de lcran, gauche. On ne peut ouvrir quune seule fentre de donnes la fois. 2. Celles o les tableaux et les graphiques apparaissent, appeles SPSS Viewer. On peut avoir plusieurs fentres de type Viewer ouvertes la fois. 3. Et celles o la syntaxe apparat, appeles SPSS syntax Editor. On peut avoir plusieurs fentres de type Syntax Editor ouvertes la fois. On peut sauvegarder chacune de ses fentres et lui donner un nom. Ainsi, si vous avez produit des tableaux de frquence, vous pouvez cliquer la commande Save et sauvegarder votre document sous le titre, disons, de Labo 4_Votre_nom_de_famille. Il y a deux faons dcrire une syntaxe. Soit que vous la dactylographiez (les utilisateurs rguliers de SPSS prfrent cette mthode) ou encore que vous demandiez SPSS de lcrire pour vous. En effet, lorsque vous donnez une commande par menus, vous avez toujours loption de cliquer Paste plutt que OK, ce qui a pour effet de coller la syntaxe correspondante dans la fentre de la syntaxe. Regardez la figure ci-contre. Cest la bote de dialogue (Dialogue Box, en anglais) de la commande Frequencies. On a plac la variable Marital Status, qui provient du fichier GSS93 subset, dans lespace des variables traiter dans cette commande. Si on clique OK, on obtiendra le tableau de frquences de ltat matrimonial des rpondants. Mais si on clique Paste, une nouvelle fentre souvre, illustre ci-bas.
NOTE : Il est suggr dexcuter les commandes illustres en mme temps que vous les lisez, afin de bien les comprendre.
On voit dans cette fentre la structure de la syntaxe : la commande utilise est dabord indique (FREQUENCIES). Sur la ligne suivante, en retrait, il est indiqu la liste des variables laquelle cette commande sapplique. La troisime ligne indique lordre dans lequel les tableaux vont paratre, au cas o il y aurait plusieurs variables traiter.
2.2
Vous naurez pas crire la syntaxe des commandes vous-mmes dans ce cours, mais il faudrait apprendre la faire crire par SPSS, comme nous venons de le faire. En effet, la syntaxe a plusieurs avantages : 1. On peut la sauvegarder et refaire les analyses statistiques plus tard, ou les refaire en utilisant dautres donnes qui comportent les mmes variables, ou encore une partie des donnes. 2. Elle permet de tenir une sorte de journal de toutes les commandes qui ont t utilises dans une session de travail. 3. On peut la copier, la coller, la modifier, comme on fait pour nimporte quel texte. On peut ajouter des variables la liste des variables traites. 4. On peut crire des commentaires avant ou aprs la syntaxe, pour expliquer ce quon voulait faire, ou pourquoi on la fait, ou pour tout autre commentaire. Cependant, chaque ligne de commentaires doit tre prcde dun astrix * (quon obtient en tapant majuscule 8) qui indique SPSS que ceci est un commentaire et quil ne faut pas le traiter comme une commande. Il vaut mieux mettre un point la fin dun commentaire ou encore laisser une ligne blanche. 5. Les commandes crites en syntaxe ne sont excutes que lorsque vous demandez SPSS de le faire, soit en cliquant le menu Run All dans la fentre de la syntaxe, ou encore en slectionnant une commande puis en cliquant sur le petit triangle noir qui se trouve parmi les icnes au haut de la fentre de la syntaxe. Exemple de commentaire : Les trois premires lignes de cette fentre commencent par un astrix et sont donc considres comme des commentaires et non pas des commandes. Vous remarquerez aussi que ce document de syntaxe a t sauvegard sous le nom de Antonius Ex1 syntaxe. Il est fort utile dajouter votre nom aux documents que vous produisez quand vous devez les remettre sous forme lectronique, afin que le correcteur sache qui les a produit.
EXERCICE 2.1
Produisez la syntaxe ncessaire pour obtenir les tableaux de frquence des variables Labor Force Status (wrkstat) et Number of Children (childs). crivez un commentaire explicatif et sauvegardez le document de syntaxe que vous avez produit. Prenez lhabitude dajouter une ligne vide aprs chaque commande colle par SPSS, afin que vous puissiez diffrencier une commande de la commande suivante..
3.1
Figure 3.1 Pour chacune de ces commandes, il faut spcifier les variables analyser, ainsi que certaines options offertes par SPSS. Ce laboratoire est de nature exploratoire : il vous permettra de vous familiariser avec ces diverses procdures. Rappelez-vous cependant que lchelle de mesure utilise pour une variable dtermine les procdures que lon peut lui appliquer : il ne sert rien de calculer une moyenne quand la variable est qualitative, par exemple. Les tableaux de frquences de la procdure Frequencies sont appropris quand on a un nombre restreint de catgories, et quon veut mesurer leur importance relative ou absolue. Par contre, cette mme procdure offre de nombreuses options intressantes pour les variables quantitatives. Les procdures Descriptives et Explore ne sont applicables que pour les variables quantitatives.
3.2
Attention: SPSS est un programme danalyse statistique puissant, qui offre une grande tendue de possibilits. Nous nen utiliserons quune petite partie. Il vous faudra donc spficier uniquement les options que vous connaissez, et ne pas modifier celles que vous ne connaissez pas et qui sont offertes par dfaut par SPSS. Si vous obtenez accidentellement des tableaux que vous ne savez pas interprter, ne les utilisez pas dans les rsums danalyses que vous ferez.
La commande Frequencies
1. Slectionnez la commande Frequencies... montre ci-haut. Vous obtenez la bote de dialogue illustre la figure 3.1. Cette procdure est utile quand les variables sont qualitatives, mais elles sont aussi trs utiles quand la variable est quantitative mais quelle a t regroupe en un nombre restreint de catgories, comme par exemple pour la variable Age Categories [agecat4] qui se trouve vers la fin de la liste de variables .
Figure 3.2 Toutes les variables du fichier sont inscrites dans la partie gauche de cette bote de dialogue. Pour obtenir le tableau de frquence dune variable, il faut la slectionner, puis la placer dans lespace prvu droite en cliquant sur le bouton contenant une mini-flche. Remaquez quil y a plusieurs boutons permettant de spcifier des options. 2. Slectionnez les variables Marital Status et Age Categories (attention : pas Age of Respondent qui nest pas regroupe et qui comporte un trop grand nombre de catgories) et placez-les dans lespace prvu droite. Laissez le petit carr de loption Display frequency table slectionn. 3. Cliquez maintenant sur le bouton Statistics. Vous obtenez la bote de dialogue illustre la Figure 3.3.
3.3
Il y a quatre sections dans cette bote de dialogue, chacune permettant un type de mesure descriptives : des mesures de position telles que les quartiles ou les percentiles, des mesures de tendance centrale, des mesures de dispersion, et des mesures qui dcrivent la distribution dans son ensemble. Revoyez les dfinitions de ces termes vues au dbut du cours. Si la variable est qualitative, seul le Mode sera utile parmi ces mesures. Figure 3.3
4. Cliquez Continue, vous reviendrez la bote de dialogue prcdente. 5. Cliquez sur le bouton Charts . Vous obtenez la figure 3.4. On a le choix entre plusieurs type de graphiques. Choisissez Bar charts et cliquez Continue. 6. Dans la bote de dialogue initiale de la commande Frequencies, cliquez sur Paste. Cette opration inscrit la commande dans la fentre du Syntax Editor. Vous devriez obtenir la commande suivante : Figure 3.4
FREQUENCIES VARIABLES=marital agecat4 /STATISTICS=MODE /BARCHART FREQ /ORDER= ANALYSIS .
On voit ici les composantes de cette commande : La commande principale (FREQUENCIES) est suivies des sous-commandes qui spcificient les options possibles : la sous-commande VARIABLES (obligatoire) qui permet de spcifier les variables que lon veut dcrire, la souscommande STATISTICS qui spcifie quon souhaite que le mode soit donn, une souscommande pour les graphiques (BARCHART) et enfin une sous-commande qui spcifie lordre dans lequel les rsultats vont apparatre. videmment, on peut toujours cliquer OK plutt que Paste. Dans ce cas, la commande est excute directement, sans que la syntaxe ne soit donne.
3.4
Exercice 3.1
a) Excutez la commande donne ci-haut et crivez une phrase complte pour chacune des variables, qui dcrit sa distribution en donnant les pourcentages appropris. b) Refaites le mme exercise en slectionnant plutt Pie Charts, puis une autre fois avec Histograms. crivez quelques lignes pour dire les avantages ou inconvenients comparatifs de ces trois types de graphiques pour reprsenter des variables qualitatives.
3.5
Pour produire un diagramme en btons ventil (Clustered Bar Chart), suivre les tapes suivantes. 1. Slectionnez Bar sous le menu Graphs. 2. Dans la bote de dialogue qui en rsulte, slectionnez Clustered et Summaries for groups of cases. 3. Cliquez Define. Vous obtenez la bote de dialogue illustre la figure 3.5. 4. Placez la variable Marital status dans lespace intitul Category Axis:, et placez la variable Respondents sex dans lespace dsign par Define Clusters by: , tel quillustr dans la figure 3.5. 5. Au haut de cette bote de dialogue, assurez-vous que pour loption Bar represents, vous avez slectionn % of cases plutt que N of cases. La raison de ce choix est la suivante : comme il y a beaucoup plus de femmes que dhommes dans notre fichier de donnes, des diagrammes en btons qui reprsenteraient le nombre de cas dans chaque catgorie donneraient une fausse impression de limportance relative des catgories. Tandis que les pourcentages permettraient de comparer le pourcentage dhommes dans une catgorie avec le pourcentage de femmes dans la mme catgorie. 6. Cliquez le bouton Options et d-slectionnez le choix de faire apparatre les catgories relatives aux donnes manquantes (le libell anglais est : Display groups defined by missing values). 7. Cliquez OK pour excuter la commande directement, ou Paste pour obtenir la syntaxe correspondante. Figure 3.5
Vous obtenez un diagramme en btons o il devient vident que les hommes se retrouvent dans la catgorie maris en plus grand pourcentage que les femmes, mais que ces dernires sont relativement plus nombreuses dans la catgorie veufs/veuves . Outre que lchantillon que nous avons nest sans doute pas reprsentatif, ce phnomne est d au fait que les femmes ont tendance vivre plus longtemps que les hommes. Il y a donc plus de chances quelles se retrouvent veuves.
3.6
Exercice 3.2
Modifiez la syntaxe prcdente pour obtenir le diagramme en btons pour la variable marital, mais ventil en fonction de la possession ou nom dun diplme universitaire, et crivez quelques lignes pour interprter le diagramme obtenu. Attention : il y a plusieurs variables qui traitent du niveau dducation. Choisissez la bonne : elle na que deux catgories.
3.7
Exercice 3. 4
Excuter les commandes expliques prcdemment, et examinez le tableau qui en rsulte. Rpondez aux questions suivantes. a) Quel est le pourcentage dhommes maris ? b) Quel est le pourcentage de femmes maries ? c) Quel est le pourcentage de personnes maries ? d) Quel est le pourcentage dhommes veufs ? e) Quel est le pourcentage de femmes veuves ? f) Quel est le pourcentage de personnes veuves ?
4.1
Cette liste vous permet de dterminer lordre dapparition des variables dans les tableaux. .
4. Cliquez Continue. Vous revenez la bote de dialogue principale de la commande Descriptives. 5. Cliquez OK, ou encore Paste si vous voulez travailler avec la syntaxe. Dans ce dernier cas, la syntaxe obtenue est :
DESCRIPTIVES VARIABLES=agewed age /STATISTICS=MEAN STDDEV RANGE MIN MAX .
Le rsultat de lexcution de la commande Descriptives ... est un tableau qui comporte toutes les mesures slectionnes dans les Options. Dans lexemple prsent, vous obtenez :
4.2
Descriptive Statistics
N Age When First Married Age of Respondent Valid N (listwise) 1202 1495 1199
Range 45 71
Minimum 13 18
Maximum 58 89
Examinez la premire colonne de ce tableau. Les variables analyses sont listes, et le nombre de rponses valides pour chaque variable est donn la colonne 2. Mais la dernire ligne de la colonne 1 comporte le terme : Valid N (listewise). Le nombre 1199 donn la dernire ligne de la colonne 2 est le nombre de cas pour lesquels on a des donnes valide pour chacune des variables listes. On a donc 1199 cas pour lequels on a la fois lge du rpondant et son ge au premier mariage.
La commande Explore
La commande Explore (Analyze Descriptive Statistics Explore) sapplique elle aussi aux variables quantitatives uniquement. Elle nous permet dobtenir une varit de mesures descriptives, ainsi que quelques mesures utilises dans linfrence statistique. Comme son nom le laisse supposer, elle est trs utile dans une dmarche exploratoire visant se faire une ide gnrale de la distribution dune variable. Elle permet en outre de traiter plusieurs variables dun seul coup, et aussi de ventiler les donnes en fonction de sous-groupes dfinis par une variable qualitative (par exemple dobtenir les mesures souhaites sparment pour les hommes et les femmes). Nous allons illustrer ces usages par un exemple. 1. Cliquez sur la commande Explore (Analyze Descriptive Statistics Explore). Vous obtenez la bote de dialogue illustre la figure 4.2.
Figure 4.2 2. Slectionnez la variable Age When First Married et placez-la dans lespace dsign par le terme Dependent List, tel quillustr ci-haut. Laissez les autres espaces vides pour le moment. 3. Cliquez OK ou Paste. Nous examinerons la syntaxe un peu plus loin. Observez pour le moment les deux tableaux obtenus.
4.3
y s d e g A s % 1 . 0 8 N c
a C
s s a C N ln ag i l V M i c 8 9 2 t o T % . 9 1 N 0 5 1 t e n P e n P e e
0 2 1
d e i r a
Descriptives
Age When First Married Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 22.79 .145 22.51 23.08 22.40 22.00 25.331 5.033 13 58 45 6.00 1.658 .071 5.382 .141
4.4
Highest
Lowest
1 2 3 4 5 1 2 3 4 5
Value 58 54 50 49 47 13 14 14 14 14
On voit que le cas numro 1241 sest marie pour la premire fois 58 ans, et que cest le cas numro 1357 qui sest marie 13 ans. Ceci nous permet dexaminer les autres caractristiques de ces cas extrmes, et qui nous apprend entre autres que les deux sont des femmes, et que celle qui sest marie 13 ans avait au moment de lenqute 67 ans. Loption Percentiles produit un tableau de certains des percentiles, tel quillustr ci-bas. Les 25e, 50e, et 75e percentiles sont appels Tukeys Hinges. Ce sont ces valeurs qui sont utilises pour constituer la partie centrale du graphique des botes et moustaches , appeles aussi diagrammes en botes. (boxplots en anglais).
4.5
Percentiles
Percentiles 5 Weighted Average (Definition 1) Tukey's Hinges Age When First Married Age When First Married 17,00 10 18,00 25 19,00 50 22,00 75 25,00 90 29,00 95 32,00
19,00
22,00
25,00
4.6
IMPORTANT : Les variables places dans la bote Dependent list doivent obligatoirement tre quantitatives. Les variables places dans la bote Factor list doivent obligatoirement tre organises en un petit nombre de catgories.
Exercice 4.1
1. Faites lanalyse de lge au premier mariage en fonction de la variable degree2. crivez vos conclusions en phrases compltes. 2. Refaites-la en fonction de lappartenance religieuse.
5.1
Labo 5
Alors que les analyses statistiques proprement dites se font travers le menu Analyze, la manipulation des donnes et des variables se font travers les menus Data et Transform. Nous allons faire quelques exercices comportant ces manipulations.
Supposons quon veuille choisir les hommes de cette population. Mais nous ne souvenons plus si les hommes sont cods 1 ou 2. Alors on clique sur la fentre Variables dans le menu Utilities. Mais SPSS refuse de ragir, car la bote de dialogue de la commande Select est encore ouverte. Il faut la fermer, puis retourner la commande Variables. On fait alors dfiler les variables pour faire apparatre la variable Respondents Sex. On obtient ce qui suit. On voit que cette variable est code ainsi : Hommes, cods 1; femmes, codes 2.
5.2
On retourne la fentre Select Cases, on clique le bouton If et on inscrit ce qui suit dans lespace en haut droite de la bote de dialogue: Sex = 1 On clique Continue, puis OK (rappelez-vous quon aurait pu cliquer Paste, ce qui nous aurait permis de conserver la syntaxe de cette commande). On observe alors que dans la fentre des donnes, tous les numros des cas non retenus (ici, il sagit des femmes) sont barrs. Les analyses qui suivent vont se faire sans inclure ces cas. Si on avait choisi Delete dans la premire bote de dialogue (Select Cases) les cas non retenus auraient t effacs du fichier. Dans ce cas, sauvegarder le fichier quivaut effacer les cas non retenus pour de bon !! Si on veut vraiment travailler avec une partie des donnes seulement, il vaut mieux sauvegarder le fichier en changeant son nom. Ainsi, le fichier original sera conserv avec toutes les donnes, et le fichier de donnes modifi sera conserv sous un autre nom. Si on a choisi Delete par erreur et quon ne veut pas perdre les donnes, il faut fermer le fichier de donnes SANS LE SAUVEGARDER (donc en rpondant NO la question : Save contents of data editor to nom_du_fichier ? (On pourrait aussi sauvegarder le fichier en changeant son nom : ainsi le fichier original resterait intact. On peut toutefois sauvegarder le fichier de syntaxe et celui des tableaux et des graphiques, le Output qui est de type Viewer).
Exercice 5.1
Nous travaillons avec le fichier GSS93 subset. Slectionnez les hommes de la population, puis faites un tableau des frquences de leur statut demploi (par le biais de la syntaxe comme on la appris prcdemment). Copiez ce tableau dans un document Word et ajoutez une explication de ce que vous avez fait. Ensuite, revenez la commande Select Cases, cliquez loption All Cases puis cliquez OK. Ensuite, produisez le tableau des frquences des statuts demploi avec la mme syntaxe. Assurez-vous que ce tableau comptabilise bien TOUTES les donnes du fichier.
5.3
Produisez prsent les tableaux de frquences produits prcdemment pour cette sous-population.
6. La nouvelle variable est cre, mais il faut indiquer comment dfinir les nouveaux codes, et ensuite donner des noms aux catgories ainsi dfinies. Pour dfinir les nouveaux codes, on clique sur le bouton Old and New Values . Vous obtenez la fentre illustre au haut de la page suivante. gauche, on indique les anciennes valeurs, et on a plusieurs choix posible (une valeur en particulier, les valeurs comprises entre deux nombres, les valeurs plus grandes ou plus petites quun nombre, etc). droite, on inscrit la nouvelle valeur qui remplace les anciennes. Ainsi, si on veut remplacer tous les ages de 30 ans ou moins par le code 1, on clique : Range : Lowest through :, on inscrit 30 dans lespace appropri, on inscrit 1 dans lespace intitul Value : . La fentre de la page suivante inclut toutes ces oprations.
5.4
7. prsent il faut cliquer le bouton Add pour que ce changement soit enregistr dans la liste de calcul des nouvelles valeurs. On refait la mme chose avec les valeurs 31 40 ans et 41 et 50 ans, puis 51 ans et plus, en prenant soin de choisir le bouton appropri gauche : le bouton des valeurs entre deux nombres est diffrent de celui des valeurs plus petites quun certain nombre. Voici quoi ressemble la fentre en cours dopration.
8. Quand on a rentr les quatre nouvelles catgories, on clique Continue. On retombe sur la premire bote de dialogue de la commande Recode. Plutt que cliquer OK, cliquez Paste pour voir quoi ressemble la syntaxe de cette commande. Vous devriez obtenir la syntaxe suivante.
RECODE age (Lowest thru 30=1) (31 thru 40=2) (41 thru 50=3) (51 thru Highest=4) INTO agerec . VARIABLE LABELS agerec 'Age recod en 4 catgories'. EXECUTE .
9. Observez bien les termes entre parenthses : ils indiquent comment on regroupe les anciennes valeurs et par quoi il faut les remplacer. Cette commande donne aussi le nom de la nouvelle variable (INTO agerec) et la ligne suivante, la commande VARIABLE LABELS, donne aussi le nom complet ou tiquette de la nouvelle variable. Si vous slectionnez cette syntaxe et la faites excuter, SPSS crera une nouvelle colonne lextrmit droite du fichier de donnes qui comportera ces nouvelles valeurs : 1, 2, 3, ou 4. 10. Ces nouvelles catgories nont pas encore de noms ! Il faut en mettre. Pour cela, aller laffichage des variables, du fichier des donnes, et faites dfiler la liste des variables vers le bas. La dernire variable est celle que nous venons de crer. La fentre devrait ressembler ceci :
5.5
11. Cliquez sur la colonne Decimals dans la case correspondant agerec, et changez le 2 pour un 0 : nous navons pas besoin de dcimales pour noter ces quatre catgories. 12. Cliquez sur le ct droit de la case Values correspondant la variable agerec. En cliquant deux fois, la bote de dialogue suivante devrait apparatre :
13. Cette bote de dialogue va vous permettre dinscrire les quatre catgories cres, une une, et de leur coller une tiquette (Value Label). Ainsi vous auriez :
Value : 1 Value Label : Moins de 30 ans.
Ensuite vous cliquez Add, et vous faites de mme pour les trois autres catgories. Cliquez OK, et aller vrifier dans le fichier de donnes. Vous verrez que les catgories on prsent une tiquette, et ce sont ces tiquettes qui vont apparatre quand vous prosuisez des tableaux. 14. Produisez le tableau de frquence de la nouvelle variable pour vous assurer que les catgories ont bien t cres correctement. 15. Sauvegarder le fichier de donnes sous un nouveau nom (ex : GSS93 recod) sur une disquette ou dans votre dossier personnel si vous en avez un sur le serveur.
Exercice 5.3
Recodez la variable age au premier mariage en 5 catgories ainsi : Moins de 18 ans, de 18 25 ans, de 26 35 ans, de 36 45 ans, plus de 45 ans. Produisez le tableau de frquences de la nouvelle variable ainsi cre.
6.1
on peut inventer une variable quon appellerait solitude et quon dfinirait ainsi :
Si la personne vit seule ET quelle na pas denfant ET quelle ne travaille pas : solitude = 4 Si la personne vit seule ET quelle a des enfants ET quelle ne travaille pas : solitude = 3 Si la personne vit seule ET quelle a des enfants ET quelle travaille : solitude = 2 Si la personne ne vit pas seule : solitude = 1
Il faudrait aussi quon ait une bonne raison de dfinir la solitude ainsi et que cette dfinition ait un sens dans le cadre thorique auquel on se rfre. (Vous aurez remarqu que la dfinition donne ci-haut est incomplte, car elle nassigne pas de valeur la variable solitude dans un des cas possibles : essayez didentifier ce cas et proposez une valeur qui vous semble raisonnable). Nous allons examiner prsent comment utiliser la fonction Compute laide des menus ainsi qu laide de la syntaxe. Ouvrez le fichier GSS93. Nous souhaitons calculer une fonction appele Dure du mariage que nous voulons calculer ainsi : Dure du mariage = ge actuel ge au premier mariage. Mais il y a un problme avec cette dfinition. Quest-ce qui garantit que ce premier mariage a perdur jusquau moment de lenqute ? Nous navons pas de variable qui nous informe si cest toujours le premier mariage qui est en cours. On ne peut pas non plus utiliser la variable Statut civil (Marital Status) pour tenir compte des personnes veuves, car mme si la personne a rpondu quelle est marie, nous ne savons pas si ceci est le premier mariage. Compte tenu des informations que nous avons, tout ce quon peut calculer, cest une variable quon appellerait : temps coul depuis le premier mariage, quon obtiendrait en faisant la diffrence entre lge actuel et lge au premier mariage. Donc, on ne suppose pas que cest le premier mariage qui est en cours. Pour simplifier les choses, nous allons calculer la variable : Anne de la naissance. Comme lenqute a t effectue en 1993, il suffira de retrancher lge de la personne de 1993. La formule sera donc :
SOC 4206 R. Antonius Labo 6 SPSS Anne de la naissance = 1993 (ge actuel)
6.2
Voici comment cela est fait dans SPSS. Cliquer sur Transform Compute. Vous obtenez la fentre suivante.
Inscrire ici le nom de la nouvelle variable Inscrire ici la fonction Ceci est un clavier qui vous permet de composer la fonction vous-mme. La barre verticale | veut dire : ou Les deux ** veulent dire : Exposant Le ~ veut dire : Ngation de lnonc.
Ici se trouve une longue liste de fonctions mathmatiques et logiques prdfinies que vous pouvez utiliser.
Nous allons appeler notre nouvelle fonction : an_naiss, et son nom au complet ou tiquette (le Variable Label) sera : Anne de naissance. Inscrivez : an_naiss dans lespace appropri, puis inscrivez dans lespace intitul Numeric Expression la formule suivante :
1993 age
Vous nallez pas crire le mot age. Vous allez plutt cliquer sur la variable age dans la liste qui se trouve gauche, et puis cliquer sur le petit triangle noir qui va placer la variable age l o se trouve le curseur. Votre bote de dialogue ressemblera alors ceci : Cliquez maintenant sur le bouton Type & Label, et inscrivez le nom de la variable au complet : Anne de naissance. Assurezvous que la variable est de type numrique, puis cliquez Continue. Vous revenez la bote de dialogue intitule Compute Variable illustrs ci-haut. Si vous cliquez OK, la nouvelle variable sera cre et se retrouvera au bout de votre fichier ( droite dans laffichage des donnes, et en bas dans laffichage des variables). Mais plutt que de cliquer OK, nous allons cliquer Paste. La commande sera alors affiche ainsi dans la fentre de syntaxe :
COMPUTE an_naiss = 1993-age . VARIABLE LABELS an_naiss 'Anne de naissance ' . EXECUTE .
Regardez bien chaque ligne. La premire dfinit la nouvelle variable, et la deuxime spcifie le nom au complet (ltiquette) de cette nouvelle variable. Slectionner la syntaxe et faites-l excuter, puis courez voir dans la fentre des donnes si elle a t cre comme il faut.
6.3
Exercice 6.1
Crez la variable Anne du premier mariage et produisez un histogramme de frquences. Copiez lhistogramme dans un document Word, copiez aussi la syntaxe qui a produit cette variable, et expliquez pourquoi il y a des donnes manquantes. Conservez ce travail dans vos dossiers.
7.1
Les colonnes correspondent aux variables, et les lignes aux cas. Avant de saisir les donnes, vous devez indiquer les caractristiques de chacune des variables que vous voulez utiliser. Il est toujours prfrable de prparer une matrice de donnes vide avant de saisir les donnes, et d'imprimer linformation du fichier pour vrifier si les variables ont t dfinies correctement. Nous pouvons toujours modifier les caractristiques d'une variable par la suite, et ajouter mme de nouvelles variables, mais il est prfrable de dmarrer avec une bonne matrice vierge o toutes les variables ont t dfinies correctement. Le mot matrice est employ pour indiquer un fichier de donnes vierge o les variables ont t dfinies. Une fois que les donnes sont saisies, nous dsignerons le fichier qui en rsulte comme tant un fichier de donnes. Pour construire la matrice de SPSS, cliquez sur longlet Variable View qui apparat au bas de la fentre du Data Editor.
7.2
Le nom du fichier apparat au haut de la fentre. Dans cet exemple, le mot Untitled apparat parce que nous n'avons pas encore donn un nom au fichier de donnes. Examinez soigneusement les diverses colonnes de laffichage Variable View. Chaque ligne est une variable, et chaque colonne permet de dterminer lune des caractristiques des variables dfinir. Nous allons illustrer dans ce qui suit comment remplir ces cases, mais indiquons en attendant ce que les diverses colonnes permettent de spcifier : Name : cest le nom de la variable (8 lettres ou chiffres, sans espace) Type : cest son type (des nombres, ou une date, ou des lettres etc. ) Width : le nombre despaces rservs pour inscrire les valeurs Decimals : cest le nombre de dcimales utilises pour cette variable Label : cest le nom complet de la variable, qui apparatra dans les tableaux Values : on inscrit ici les catgories dsignes par les codes utiliss pour mesurer les valeurs Missing : on indique ici les valeurs qui doivent tre considres manquantes Columns : on indique ici la largeur des colonnes souhaite pour laffichage Data Align : permet daligner les valeurs de cette variable gauche, droite ou au centre Mesure : permet dindiquer quelle chelle de mesure est utilise (nominale, ordinale ou numrique). Nous illustrerons le procd avec la variable Sexe du rpondant. Nous utiliserons le code suivant : 1 Homme 2 Femme, et nous lui attribuons le nom sexe. 1. La premire colonne complter est le nom de la variable. Celui-ci doit tre un nom court, avec tout au plus 8 caractres et aucun espace. Dactylographiez le nom 'sexe '. 2. La deuxime colonne est le Type. Cliquez sur le ct droit de la cellule ; vous obtenez la zone de dialogue montre dans fig. 7.2. Puis, vous indiquez si les donnes sont numriques, ou un signe tel qu'un point ou une virgule, ou une devise, ou une date, ou une variable chanes de caractres.
Figure 7.2
Une variable de type Numric est employe quand vous voulez saisir vos donnes laide de codes numriques, comme la variable Sexe : les codes employs pour la saisir (1 ou 2) sont des nombres. Si ces nombres se rapportent des valeurs numriques relles vous devez indiquer le nombre despaces et de dcimales dont vous avez besoin. Par exemple, si vous voulez enregistrer la taille du rpondant mesure en centimtres, vous avez besoin de 5 chiffres avec une seule dcimale, afin de pouvoir crire des nombres comme 172.3 centimtres (le point emploie un espace). Si les nombres se rapportent des catgories (par exemple : 1 = Homme ; 2 = Femme), vous n'avez besoin que dun seul espace sans aucune dcimale. Vous aurez besoin de deux espaces si vous avez plus de dix mais moins de 100 catgories, et ainsi de suite.
7.3
Une variable de type String comporte des valeurs qui sont des suites de lettres ou de chiffres sans valeur numrique. Elle est employe quand vous voulez saisir un nom propre par exemple, tel que Pierre, ou Marie. Peu de procdures statistiques s'appliquent aux variables de type String. Elles sont utilises pour dsigner les divers cas du fichier, ou encore pour retranscrire des questions ouvertes. 3. La troisime colonne, width, permet de spcifier le nombre despaces requis est largeur. On a dj spcifi ce nombre ltape prcdente, mais il peut tre modifi directement dans cette colonne. 4. Les mmes remarques sappliquent la quatrime colonne qui permet de spcifier le nombre de dcimales. 5. La cinquime colonne, Label, est le nom dtaill de la variable, par exemple : Sexe du rpondant. C'est le nom qui apparatra dans les tableaux produits par SPSS. Il faut donc le choisir avec soin pour quil dsigne clairement la variable tout en tant concis. 6. La sixime colonne permet de spcifiez les catgories utilises pour mesurer la variable. Cliquez sur le ct droit de la cellule. La zone de dialogue montre dans la figure. 7.3 devrait apparatre.
Figure 7.3 Inscivez 1 et Homme dans la case Value, dans la case Value Label.
Cliquez sur Add, puis recommencer avec : 2 dans la case Value, et Femme dans la case Value Label. Cliquer encore sur Add, puis sur OK. 7. La septime colonne permet de spcifier les valeurs manquantes. Pour la variable Sexe, nous pourrions la laisser telle quelle puisquon s'attend ce que le sexe du rpondant soit connu. Mais nous pouvons penser aux situations o le sexe du rpondant n'est pas connu avec certitude (par exemple s'il est dtermin par la voix dans une communication tlphonique) ou si les donnes proviennent de fichiers darchives incomplets. Dans ces cas, il faut prvoir une valeur manquante. En cliquant sur le ct droit de la cellule, nous obtenons la zone de dialogue montre dans la figue 7.4.
7.4
Figure 7.4 La fentre vous donne trois choix. Ou vous n'avez aucune valeur manquante, ou vous avez jusqu' trois valeurs manquantes distinctes (cest ce que signifie le mot Discrete) ou enfin vous considrez comme manquantes toutes les valeurs qui tombent dans ltendue entre deux nombres, avec la possibilit davoir une valeur manquante distincte additionnelle. Par exemple, on peut avoir les valeurs manquantes codes par : 7, 8, et 9. Mais il faudra retourner la colonne Values et inscrire les significations des codes 7, 8 et 9. Par exemple, cela pourrait tre : 7 Ne sait pas 8 Pas de rponse, et 9 Ne sapplique pas. Par exemple, si vous aviez deviez coder la question pose uniquement aux personnes qui remplissent une dclaration de revenus : Pensez-vous que les politiques fiscales du gouvernement sont bonnes ? vous pourriez utiliser les codes suivants et distinguer les donnes manquantes par les trois possibilits : Ne sait pas, Refuse de rpondre, ou Ne sapplique pas. La possibilit Ne sapplique pas serait coche pour les personnes qui ne remplissent pas de dclaration de revenu. Ceci est illustr par la figure 7.5.
Figure 7.5 Notez quil est important d'indiquer les valeurs manquantes correctement, sans quoi SPSS les comptera dans les statistiques, ce qui pourrait fausser les rsultats. 8. La huitime colonne, Columns, vous permet de dterminer la largeur de laffichage de la colonne l'cran. Vous pouvez laisser la valeur suggre par SPSS par dfaut. 9. La neuvime colonne, Align, vous permet de dterminer lalignement (gauche, droite ou centre) du texte apparaissant l'cran dans laffichage Data View. Vous pouvez laisser la valeur suggre par SPSS par dfaut. 10. La dernire colonne, Mesure, est trs importante. Elle permet de dterminer lchelle de mesure utilise pour la variable : numrique, ordinale ou nominale (scale, ordinal, nominal). Pour la variable sexe, nous choisirons nominal. Vous avez peut-tre not que certains des fichiers dexemples de SPSS se
7.5
classent des variables qualitatives telles que sexe comme tant ordinales. Ceci est gnralement fait quand une variable qualitative a seulement deux catgories (cest--dire quand elle est dichotomique), et ceci nous permet d'excuter certaines procdures statistiques sur de telles variables. Dans ce cours, nous n'aurons pas besoin d'employer les chelles ordinales de mesure pour coder des variables qualitatives. Vrification de la matrice SPSS cre Quand vous aurez fini de dfinir toutes vos variables, vous pourriez vouloir vrifier que vous n'avez fait aucune erreur. La meilleure manire de le faire est de faire apparatre toutes les variables avec leurs caractristiques et d'examiner les rsultats. Ceci est fait en cliquant sur Utilities File Info. Le rsultat devrait ressembler ce qui suit (nous avons dfini la variable Sexe, et la variable pol_fisc concernant les politiques fiscales mentionnes plus haut.
List of variables on the working file Name SEXE Sexe du rpondant Measurement Level: Nominal Column Width: 8 Alignment: Right Print Format: F1 Write Format: F1 Value 1 2 POL_FISC Label Homme Femme 2 Position 1
Pensez-vous que les politiques fiscales du gouvernement sont Measurement Level: Nominal Column Width: 8 Alignment: Left Print Format: F1 Write Format: F1 Value 1 2 7 8 9 Label Oui Non Ne sait pas Refuse de rpondre Ne s'applique pas
Toutes les caractristiques de la variable sont indiques ici. Vous pouvez vrifier que le nom bref et le nom complet de chaque variable sont corrects. Remarquez que le libell de la question sur les politiques fiscales est incomplet car il est trop long. Cependant, il apparatra au complet dans les tableaux de frquences. Vrifiez que les codes sont bien ceux que vous vouliez saisir. Vous devez galement examiner le format, les valeurs manquantes, ainsi que les codes attribus aux valeurs manquantes. Quand vous avez dfini toutes vos variables et que vous avez vrifi que cela a fait correctement, vous pourrez commencer saisir vos donnes dans la fentre Data View. En gnral, il vaut . Aprs que vous
7.6
avez dactylographi les donnes dans une des cellules, si vous appuyez sur la toumieux le faire un cas la fois, cest--dire ligne par ligne. La touche TAB sur votre clavier vous permet de dplacer le curseur la cellule suivante sur la mme ligne, mais si vous appuyez sur la touche Enter sur votre clavier le curseur se dplacera la cellule de la ligne suivante, dans la mme colonne. Quand vous saisissez les donnes, vous devez crire les codes, et non pas les noms des catgories. Par exemple, pour la variable sexe, vous crirez : 1 et non pas Homme , ou 2 et non pas Femme . SPSS fera apparatre soit les valeurs, soit les codes, selon que Value Labels est coch ou pas dans le menu View. Pour une variable quantitative telle que l'ge du rpondant, vous crirez l'ge lui-mme. Il n'y aura aucune tiquette de valeur pour cette variable, mais vous auriez intrt inclure une valeur manquante tel que 999 pour les cas o la rponse est manquante. Cependant, si lge est cod en catgories, alors l il faut saisir la dsignation de chaque catgorie. Par exemple, lge peut tre cod ainsi : 1 Moins de 25 ans 2 De 25 39 ans 3 De 40 64 ans 4 65 ans ou plus 999 Non rponse. Mais il est prfrable de noter lge en annes ou en mois, et ensuite de regrouper en catgories si ncessaire.
Exercice pratique
Crez un fichier de donnes de SPSS pour saisir des donnes recueillies l'aide du questionnaire suivant. Un questionnaire non rempli est donn, suivi des donnes (hypothtiques) se rapportant 10 enfants. Crez dabord une matrice SPSS vierge incluant toutes les questions du questionnaire. N'oubliez pas d'inclure des valeurs manquantes chaque fois que cela est appropri. Puis imprimez l'information sur les variables (File Info) pour vrifier que les variables ont t cres correctement. Ensuite, vous pourrez saisir les donnes ci-dessous et enregistrer sur une disquette le fichier de donnes que vous aurez cr. Pour vous assurer davoir saisi les donnes correctement, produisez les tableaux de frquence pour toutes les variables et examinez-le pour voir si ils correspondent aux donnes fournies. Pour fin dvaluation : recopiez linformation sur les variables (File Info) dans un document Word bien identifi (Labo 7, date, votre nom) et remettez-le.
7.7
QUESTIONNAIRE Numro du questionnaire: _____ 1. Sexe : Garon (M) _____ Fille (F) _____ 2. ge de lenfant ? ________ (en mois) 3. Taille de lenfant en centimtres ? ________ 4. Taille du pre (en cm) ? _______ 5. Taille de la mre (en cm) ? ________ 6. Couleur naturelle des cheveux ? (cochez une seule case) Noirs Bruns Blonds Roux Chtains 7. Couleur des yeux ? Noirs Bruns Bleus Verts Autre 8. Est-ce que lenfant a dj eu des accidents ncessitant une hospitalisation ? 9. Est-ce que lenfant est gaucher, droitier, ou ambidextre?
___________
10. Est-ce que lenfant frquente une garderie deux jours par semaine ou plus ? Oui ____ Non ______
Voici les rponses concernant 10 enfants : Q1 M F F F M M F M M F Q2 20 18 22 22 20 28 18 17 22 30 Q3 68 67 68 67 68 76 60 61 68 78 176 171 178 177 170 168 Q4 172 180 175 Q5 170 165 176 169 164 166 172 167 172 160 Q6 Noirs Bruns Blonds Noirs Bruns Roux Bruns Bruns Blonds Bruns Q7 Verts Bleus Noirs Bleus Bruns Bleus Bruns Bleus Bleus Bruns Non Oui Q8 Non Non Oui Oui Non NSP Oui Q9 Gauche Droite Droite Ambid. Droite Droite Droite Droite Droite Ambid. Q10 Non Oui Oui Oui Non Oui Non Non Non Oui
8.1
Labo 8
On obtient les tableaux croiss par la commande Analyze Descriptive Statistics Crosstabs. On place la variable indpendante dans la bote des lignes (rows) et la variable dpendante dans celle des colonnes. On peut faire le contraire aussi : les rsultats statistiques seront exactement les mmes, mais les tableaux seront moins faciles lire. Il est plus naturel de les lire quand on place les variables tel quil a t suggr ci-haut. Essayons avec les variables College Degree (qui se trouve ves la fin de la liste, dont le nom bref est degree2) comme variable dpendante, et Respondent Sex comme variable indpendante. Pour obtenir les pourcentages de chaque catgories selon les lignes, on clique le bouton Cells, et dans la bote des pourcentages, on slectionne Rows. Si on clique Paste, on obtient la syntaxe suivante :
CROSSTABS /TABLES=sex BY degree2 /FORMAT= AVALUE TABLES /CELLS= COUNT ROW .
Rappelez-vous que vous pouvez aussi dactylographier cette syntaxe directement, sans passer par les menus. Si on excute cette syntaxe, on obtient le tableau suivant.
g D e e l o C *
g e lD o C r o N 0 e d n o p s R x e S e 0 1 n w l a t o T 8 2 , n i h t 1 % 0 m e F 2 u o C % e d n o p s R u o C % o p s e R u o C % e d n o p s R 6 4 3 , 7 2 x e S % , 2 7 3 8 6 % l o C 1 e r g d g e 5 7 1 % l 2 7 1 % 7 4 3 % % % 0 5 8 % , 9 7 x e S 's t n d l a t o T 1 4 6 e l a M 's t n
, 0 1 t i 1
, 0 2
Ce tableau nous donne le nombre de cas dans chaque cellule, mais aussi le pourcentage relatif chaque ligne. Ainsi, on peut voir que chez les hommes, 72,7 % dentre eux nont pas de diplme universitaire, et que 27,3 % dentre eux en ont obtenu un. Chez les femmes, seules 20,1 % ont un diplme universitaire. Il y a donc une diffrence importante entre les hommes et les femmes de cet chantillon en ce qui concerne le taux de diplomation universitaire. Mais attention : nous navons pas dit que cette relation est causale, ni quelle est valide pour lensemble de la population. Ces affirmations pourraient bien tre vraies, mais les informations dont nous disposons ne nous permettent pas de le conclure. Pour conclure savoir si cette relation est gnralisable la population entire, ou si elle est le fruit du hasard du choix de lchantillon, il faut faire un test du Chi-carr. Les fondements de ce test seront discuts ultrieurement, mais on peut dj apprendre produire les mesures ncessaires et les interprter. Pour que SPSS calcule le chi-carr, quand on donne la commande Crosstabs, on clique sur le bouton Statistics et on coche le choix Chi-square. On obtient la syntaxe suivante.
SOC 4206 R. Antonius Labo 8 SPSS CROSSTABS /TABLES=sex BY degree2 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT ROW .
8.2
Cest une sous-comamde quon peut ajouter ou non, et qui demande SPSS de calculer le chi-carr. EN excutant cette syntaxe, on obtient le tableau suivant :
s e T r a u q S i h C
. p m y s A . g i S d i s 1 ( , 0 1 a e P h C o C o C l e k i L 5 , 0 1 h s i F r a e n i L 6 , 0 1 a i c o s A V f o N i l a e l b a t 2 x o d t c e . e a t d u p m o C . c b 0 e t n u o c e ) d e e
a
. g i S t c a x E 1 0 , 1 0 , 1 0 , x E 1 0 , 1 0 ,
S t c a x E i s 2 (
o i t
o s r 1 i t n 4 2 , 0 1 1 r 8 o 3 h 1
b
f d
3 1
1 0 ,
6 0 6 9 4 1
l n o d t c e p ) % 0 , ( s l p
Seule la premire ligne nous intresse. Elle indique que le chi-carr est gal 10,613, une valeur que nous ne pouvons pas interprter pour le moment. Mais elle indique aussi le niveau de signification dans la colonne Asymp. Sig. (2-sided). Ce niveau est de 0,001. Cette mesure nous intresse. Elle indique que : sil ny avait pas de diffrence entre les hommes et les femmes de la population, il y aurait moins de 1 chance sur 1000 que lon obtienne un tel chantillon. Or ceci est si rare, que lon prfre opter pour lautre solution : celle de supposer quil y a effectivement une diffrence entre les hommes et les femmes au niveau de toute la population. Les niveaux de signification peuvent tre interprts ainsi : - Un niveau de 0,05 signifie quil y a moins de 5 pour 100 de chances dobtenir un tel chantillon dune population o il ny aurait pas de diffrences entre les hommes et les femmes. - Un niveau de 0,01 signifie quil y a moins de 1 pour 100 de chances dobtenir un tel chantillon dune population o il ny aurait pas de diffrences entre les hommes et les femmes. Exercice 8.1: (retranscrire les noncs sur une document Word ou sur une feuille remettre) 1. Produire le tableau crois pour les variables Sex (indpendante) et vote92 (dpendante), en produisant les pourcentages par ligne et le chi-carr. Rpondre aux questions suivantes : a) Le pourcentage dhommes de cet chantillon ayant vot en 92 est de b) Le pourcentage dhommes de cet chantillon ayant vot en 92 est de c) Le pourcentage de personnes de cet chantillon ayant vot en 92 est de d) Les hommes de cet chantillon ont tendance voter .. (plus /moins) que les femmes. e) Le chi-carr est de .. et le niveau de signification de f) Ceci signifie que la relation entre le sex et le fait de voter ou non est . (significative/non-significative). 2. Recommencer lexercice avec les variables GUNLAW et CAPPUN.
9.1
Labo 9
Cette procdure est utilise pour voir sil y a un lien entre une variable qualitative (ou organise en un nombre restreint de catgories), considre comme la variable indpendante, et une variable quantitative considre comme la variable dpendante. On calcule la moyenne de la variable quantitative sur chacune des catgories de la variable indpendante, pour voir sil y a des diffrences notables. Ici, nous utiliserons aussi les diagrammes en botes (box-plots) pour illustrer ces diffrences. Par exemple, on peut calculer la moyenne du revenu pour les hommes et pour les femmes sparment. Pour utiliser cette procdure, utiliser la commande Analyze Compare Means Means. Inscrivez une variable quantitative dans la case Dpendent List et une variable dont les valeurs sont des catgories discrtes dans la case Independent List. Par exemple, ces variables pourraient tre lge et le sexe, ou encore lge au premier mariage et le sexe. La syntaxe obtenue est la suivante :
MEANS TABLES=age BY marital /CELLS MEAN COUNT STDDEV .
n e d o p s R f g A . d t S , 5 1 s S l t i r a M 1 2 v i d 3 p e s 4 d t a r m r v e n 5 a t o T n a e M 9 6 9 , 1 7 9 1 , 6 4 8 7 , 0 4 7 5 , 1 3 3 2 , 6 4 N 4 9 7 3 6 1 3 1 2 0 4 5 8 2 5 9 4 1 8 5 8 7 , 0 1 d w o d
t 4
rr 8 1 l
4 , 7 1
On voit ici que lge moyen des personnes maries est de 46 ans environ, alors que celui des personnes veuves est de prs de 72 ans. Celles qui nont jamais t maries ont en moyenne presque 32 ans. Ceci peut tre illustr par le graphique suivant : Cliquez GraphsBoxplots. Vous obtenez la bote de dialogue suivante : Cliquez sur Simple et sur Summaries of groups of cases, puis sur Define. Dans la bote de dialogue qui apparat, mettez la variable age dans la bote Variable, et la variable Marital Status dans la bote Category Axis, puis cliquez Paste. Vous devriez obtenir la syntaxe suivante.
EXAMINE VARIABLES=age BY marital /PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL /MISSING=REPORT.
En lexcutant, vous obtenez le diagramme de la page suivante qui illustre non seulement les diffrences de moyennes entre les divers groupes, mais aussi les diffrence dans la distribution des valeurs.
9.2
100
80
1089 1138
1142
60
421 5 1451 588 284 846 424 878 895 1112 1295 85 89 1082 221 150
Age of Respondent
40
1348 1419
20
0
N= 794 163 213 40 285
married widowed
divorced
Marital Status
Exercice 9.1. crire vos rponses dans un document Word remettre au plus tard au prochain cours. 1. Examiner les diffrences dge au premier mariage entre les personnes ayant complt des niveaux dtudes diffrents. Tirez les conclusions qui se dgagent en vous souvenant que ces conclusions ne concernent que notre chantillon. Nous navons pas encore appris gnraliser ce type de relation lensemble de la population. 2. Examiner les diffrences de revenu entre hommes et femmes et ajouter vos conclusions toutes les mises en garde qui simposent, compte tenu de la faon dont la variable Revenu est code. 3. Examiner les diffrences de revenu entre en fonction des allgeances politiques (partyid). 4. Examiner les diffrences de revenu en fonction des quatre catgories dge (agecat4)
10.1
Labo 10
La corrlation et la rgression
Quand les deux variables sont quantitatives, lassociation statistique entre elles prend la forme de la corrlation. Ce terme est synonyme du terme : association statistique entre variables quantitatives. Pour cet exercice, nous utiliserons le fichier intitul Road constructions bids qui est fourni avec SPSS et auquel on accde en cliquant More Files lorsquon dmarre SPSS. Nous allons tudier les corrlations entre les cots estims et les cots rels de projets de construction de routes entrepris par une agence municipale de transport, dsigne dans le fichier par le terme DOT, soit Department of Transport. Nous allons effectuer deux oprations distinctes. Lune consiste produire les coefficients de corrlation entre des variables, et lautre dessiner le nuage de points et obtenir la ligne de rgression. SPSS peut produire les coefficients de corrlation entre plusieurs variables prises deux deux, dun seul coup. On gnral on fait cette opration dans un premier temps pour explorer la situation, afin de dceler les relations significatives, puis on analyse avec plus de dtails ces relations.
5. Placez les variables Construction cost et DOT Engineers Estimate of Construction Cost dans lespace prvu cet effet droite. 6. Cliquez OK (vous pouvez aussi utiliser la syntaxe si vous prfrez). Vous obtenez le tableau suivant :
10.2
Correlations
Contract Cost DOT Engineer's Estimate of Construction Cost Pearson Correlation Sig. (2-tailed) N Pearson Correlation Contract Cost DOT Engineer's Estimate of Construction Cost 1,000 ,987 , ,000 235 235 ,987 1,000 ,000 235 , 235
Le coefficient de corrlation qui nous intresse est de 0.987, ce qui est une forte corrlation. Ceci signifie quen gnral, les cots estims sont pas mal proche de la ralit : ce sont de bons estims des cots rels. Mais ils ne sont pas identiques aux cots rels pour autant. Vous aurez sans doute remarqu quen plus de donner le coefficient de correlation (appel coefficient de Pearson), le tableau vous donne aussi un niveau de signification, et le nombre de cas qui ont t inclus dans le calcul. Le niveau de signification nous dit quel risque de se tromper on prend si on prtend que la relation observe est valable pour lensemble de la population tudie en supposant videmment que les donnes que lon a constituent un chantillon reprsentatif). Le nombre de cas utilis est important car il se peut quil y ait des donnes manquantes. Dans notre cas, les 235 donnes cas du fichiers ont t inclus. Il ny a pas de donnes manquantes. Remarquez aussi quil y a une certaine redondance dans le tableau. La corrlation dune variable avec ellemme est toujours 1. De plus, la corrlation entre x et y est la mme quentre y et x. Donc, une partie du tableau aurait pu tre omise, et certaines versions de SPSS omettent effectivement certaines des cellules redondantes. Ainsi, le tableau suivant contient exactement les mmes informations que le prcdent, rien de moins, car on sait comment remplir toutes les cellules vides. Correlations
Contract Cost DOT Engineer's Estimate of Construction Cost Pearson Correlation Sig. (2-tailed) N Pearson Correlation Contract Cost DOT Engineer's Estimate of Construction Cost ,987 ,000 235
10.3
10. Longlet Options vous permet de choisir plusieurs styles de diagrammes pour le nuage de points. Nous avons choisi Classic. 11. Cliquez OK. Vous devriez obtenir le diagramme de la page suivante.
10.4
10000.00
A
A A
Linear Regression
Contract Cost
7500.00
A A A A A A A A A A AA A A A A
A A
5000.00
A A A A A A A A A A A A A A A A AA AA A AA A A AAA A AA A A AAA AA AA A AA AA AA A A A A A AA A A A AA A AA AA AA A A AA AA A A A A A A A A A A AA AA A A AA A A AA AA A A A AA A
2500.00
0.00
0.00
2500.00
5000.00
7500.00
10000.00
Le diagramme illustre la relation entre les deux variables, et il donne lquation mathmatique de la droite qui exprime la tendance gnrale. Nous pouvons tirer les conclusions suivantes du graphique : 1. Il y a une forte corrlation entre lestim que font les ingnieurs de lagence de transport, et les cots rels des projets. La corrlation est de 0.987, don dans le tableau produit plus haut. Le cot estim est donc un bon prdicteur des cots rels dun projet. 2. Cependant, les ingnieurs de lagence de transport ont tendance surestim lgrement les cots. Lquation de la rgression comporte en effet un coefficient b de 0,93 (mois que 1) et un ajustement de prs de 20 $ (le coefficient a). Cette quation apparat au haut du diagramme illustrant le nuages de points. 3. Nous constatons aussi que les estims sont plus prcis pour les petits contrats que pour les gros. 4. Pour un projet donn, nous pouvons estimer le cot rel du projet de deux faons : graphiquement dabord, en trouvant la valeur y qui correspond la valeur x propose par les ingnieurs : cest celle que la ligne nous donne. Ou encore en utilisant lquation. Ainsi, un projet estim 5000 $ par les ingnieurs cotera en ralit autour de : 20.91 + 0.93 (5000) = 20.91 + 4650 = 4671 $ (Vous aurez sans doute remarqu quil sagit de notre propre estim des cots rels, celui que lon fait partir de lestim des ingnieurs !! Le cot rel exact est donn par les donnes elles-mmes, et graphiquement, par le point qui reprsente un contrat.)
Exercise 10.1
Ouvrez le fichier World95, and examinez les corrlations entre les variables suivantes. Les variables sont dsignes par ltiquette (Value Label) anglaise quelles ont dans le fichier. Aprs avoir produit le tableau des corrlations pour toutes les variables, slectionnez deux corrlations fortes et une moyenne et faites-en lanalyse. Essayer dcrire des analyses similaires celles qui ont t faites ci-haut. Average female life expectancy (esprance de vie femmes) People who read (%) (pourcentage dalphabtisation dans la population) Female who read (%) (pourcentage dalphabtisation des femmes) Infant mortality (deaths per 1000 live births) (mortalit infantile) Daily calorie intake (calories consommes en moyenne par jour, par personne) Birth rate per 1000 people (taux de natalit)
11.1
Figure 11.1 5. Cliquez sur Continue, puis Paste dans la bote de dialogue Explore. Dans la fentre de la syntaxe, vous obtiendrez les commandes suivantes :
EXAMINE VARIABLES=jobtime /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
Il y a une commande principale EXAMINE, et plusieurs commandes secondaires. Les deux seules qui soient importantes ici sont la commande VARIABLES qui vous permet de spcifiez la variable
11.2
analyser, et celle qui dtermine lintervalle de confiance, soit CINTERVAL 95. De sorte que vous pouvex effacer toutes les lignes sauf les suivantes :
EXAMINE VARIABLES=jobtime /CINTERVAL 95.
(Noubliez pas de mettre un point la dernire ligne). Si vous faites rouler la commande prcdente, vous obtiendrez le mme rsultat que la commande complte obtenue lorsque vous avez cliqu Paste plutt que OK. Maintenant faite rouler cette commande. Vous obtenez le tableau 11.1. Tableau 11.1. Descriptives Statistic 81,11 80,20 82,02 81,12 81,00 101,223 10,061 63 98 35 18,00 -,053 -1,153 Std. Error ,462
Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
,112 ,224
Examinez la signification des trois premires lignes de ce tableau : La moyenne pour cet chantillon est de 81,11 mois. Ceci signifie quen moyenne, les employEs ont t embauchs depuis environs 81 mois (on peut videmment convertir ce nombre en annes et en mois, ou encore en jours). L'intervalle de confiance est donn dans les deux lignes ombrages : de 80,20 82,02 mois. Ce que cela signifie, cest que si les individus dans cet chantillon taient un groupe reprsentatif d'une plus grande population demploys, vous estimeriez le temps moyen de travail depuis lembauche pour cette plus grande population quelque part entre 80,20 mois et 82,02 mois. Mais attention : ceci ne signifie pas que le temps depuis lembauche des employs se situe quelque part entre 80 et 82 mois, mais bien que la moyenne du temps depuis lembache, pour toute la population, se situe dans ces limites approximatives.
11.3
L'erreur type est l'cart type divis par la racine carre de n, et cette quantit est employe dans le calcul de la marge de l'erreur et elle est donne la droite du tableau. Vous n'avez pas besoin de l'employer, puisque l'intervalle de confiance a t calcul par le programme de SPSS. Mais faites quand mme la vrification : la formule de lintervalle de confiance est donne par [moyenne de lchantillon 1.96*lerreur type ; moyenne de lchantillon + 1.96*lerreur type Appliquez cette formule. Vous devriez obtenir [80,20 ; 82,02] Les mesures restantes ont t vues dans le chapitre sur les statistiques descriptives.
Ces notions employes ci-haut ont t expliques dans le chapitre sur lestimation et vous devriez passer en revue ce chapitre afin d'interprter correctement les rsultats donns par SPSS.
11.4
Point estim de la valeur moyenne, pour la population entire, de la variable Highest Year of Schooling.
13,3
13,2
13,1
13,0
12,9
12,8
N= 1496
FIGURE 11.2
11.5
pourcentage) des personnes dans l'chantillon qui sont favorables la peine de mort (capital punishment en anglais), ou qui ont assist l'anne dernire un vnement sportif. Supposons que l'chantillon dans ce fichier de donnes soit un chantillon alatoire, nous pouvons alors estimer les pourcentages correspondants dans la population amricaine. Mais s'il y a un pourcentage lev des donnes manquantes, la fiabilit de telles valuations est incertaine. SPSS ne vous fournira pas lintervalle de confiance du pourcentage, mais donnera le pourcentage calcul dans l'chantillon, en employant la commande Frequencies. Vous pouvez dterminer la marge d'erreur au niveau de confiance souhait en employant la formule donne dans le chapitre sur l'estimation, formule qui a t incluse dans le fichier Excel intitul Calcul des marges derreur. Le tableau suivant donne la valeur approximative des marges d'erreur pour diffrentes tailles d'chantillon et diverses valeurs du pourcentage calcul dans l'chantillon, un niveau de confiance de 95% . Comme elles sont approximatives, ces marges derreur sont un peu gonfles et elle refltent la marge derreur maximum obtenue pour chaque ventail de pourcentages et de tailles dchantillon : Taille de lchantillon Pourcentage Autour de 10 Autour de 20 Autour de 30 Autour de 40 Autour de 50 Autour de 60 Autour de 70 Autour de 80 Autour de 90 100 7 9 10 10 10 10 10 9 7 200 5 6 7 7 7 7 7 6 5 400 4 5 5 5 5 5 5 5 4 500 3 4 5 5 5 5 5 4 3 800 3 3 4 4 4 4 4 3 3 1000 3 3 3 4 4 4 3 3 3 1500 2 3 3 3 3 3 3 3 2
Marges derreur pour lestimation dun pourcentage un niveau de confiance de 95%. Exemple. Obtenez les frquences pour la variable Favor or Oppose Death Penalty for Murder. Regardez les pourcentages valides. Vous constatez que 77.4 % des rponses valides sont en faveur de la peine de mort en cas de meurtre. Supposant que cet chantillon est reprsentatif, vous voulez estimer le pourcentage de personnes, dans la population en gnral, qui sont susceptibles dtre en faveur de la peine de mort en cas de meurtre. Dans ce cas-ci le pourcentage calcul dans lchantillon est de prs de 80 %, et le nombre de rponses valides est 1388, donc trs proche de 1500. Le tableau nous donne une marge d'erreur de 3 %. Ainsi, lnonc destimation devient : Sur la base de cet chantillon, nous pouvons estimer que le pourcentage des Amricains qui sont en faveur de la peine de mort en cas de meurtre se situe quelque part entre 74.4 % et 80.4 %, pour un niveau de confiance de 95%. Ou encore Sur la base de cet chantillon, nous pouvons estimer que le pourcentage des Amricains qui sont en faveur de la peine de mort en cas de meurtre est de 74.4 %, avec une marge derreur de 3 %, au niveau de confiance de 95%..
11.6
Exercice
4. Considrons 2 variables : letdie1 scitest4 Allow Incurable Patients to Die, Humans Evolved From Animals et
qui ont t choisies dans le fichier de donnes GSS93 subset. Supposant que l'chantillon dans ce fichier de donnes a t choisi au hasard, essayez de faire une estimation du pourcentage des adultes dans la socit amricaine qui croient que leuthanasie devrait tre permise pour les patients qui souffrent d'une maladie incurable. Faites galement une estimation de ceux qui croient que la thorie de l'volution (qui affirme que les humains sont le rsultat dune volution graduelle, partir de formes de vie moins volues) est probablement ou certainement vraie (mettez les catgories ensemble en ajoutant leurs pourcentages). En tenant compte du pourcentage de donnes manquantes, crivez un commentaire sur la fiabilit de cette estimation.
p.12.1
Exemple 1
Supposez que vous voulez valuer l'hypothse que l'ge moyen de la population amricaine est de 45 ans, et vrifier votre hypothse en employant l'chantillon alatoire indiqu dans le fichier de donnes GSS93 subset. Vous avez plac vos hypothses comme H0 : = 45 et H1 : 45 Vous lancez la procdure en choisissant Analyze Compare Means One-Sample T Test
p.12.2
Vous obtenez la bote de dialogue illustre dans la figure. 12.1. Vous pouvez voir dans la figure que nous avons dj plac la variable Age of respondent dans la bote Test Variable(s) et la valeur que nous voulons valider, appele Test Value dans SPSS, t place 45.
Figure 12.1 Si vous cliquez OK, vous obtenez un premier tableau qui vous apprend que la moyenne dge pour cet chantillon est de 46,23 ans, et un deuxime tableau que est reproduit ci-bas (tableau 12.1).
L'information cruciale dans ce tableau est la colonne intitule le Sig (2-tailed), qui reprsente le niveau de signification. Vous l'interprtez comme suit : Si la moyenne dge de votre population est en effet de 45 ans, la probabilit de slectionner alatoirement un groupe de 1495 individus dont la moyenne dge est de 46.23 ans est de 0.007, ou 0.7% Ceci signifie que si la moyenne dge de la population gnrale tait effectivement de 45 ans, il serait trs peu probable de tomber sur un si gros chantillon dont la moyenne dge est de 46,23 ans. En dautres termes, une diffrence de 1,23 ans sur un chantillon de cette taille est trop grande pour tre de au hasard. Ceci se produirait moins de 1 % des fois. Cest tellement rare quil est plus sr pour vous de conclure plutt que votre hypothse est probablement errone. En faisant un tel raisonnement, vous courez un risque de 0.7 % davoir tort, puisque c'est la probabilit dobtenir un tel chantillon quand la moyenne de la population est de 45 ans. Vous concluez donc que l'hypothse = 45 doit tre remise en question, la lumire de la moyenne calcule sur cet chantillon. L'hypothse nulle est ainsi rejete, avec une probabilit de .007 de se tromper, ce qui constituerait une erreur de Type I. Conclusion : H0 est rejet puisque le niveau de signification est moins de 0.05. Nous concluons que l'ge moyen de l'ensemble de la population n'est probablement pas de 45 ans. Le tableau donne aussi lintervalle de confiance de la diffrence entre la moyenne calcule sur lchantillon et la moyenne suppose, au niveau de confiance de 95%. Linterprtation de cet intervalle est plus complique formuler. Il sagit dans notre exemple de lintervalle [0,34 ; 2,11], dont le centre est 1,23. Ceci signifie que 95
p.12.3
fois sur cent, un tel chantillon provient dune population dont la moyenne pourrait diffrer dune distance qui varie entre 0,34 units et 2,11 units. Puisque la valeur 0 ne se trouve pas dans cette intervalle, ceci signifie que la possibilit que la moyenne de la population soit gale 45 est exclue (avec 5 % de chances de se tromper, videmment).
Utilisation de la syntaxe
Si au lieu de cliquez OK dans lexemple prcdent, vous cliquez Paste pour coller la commande dans la fentre de la syntaxe, vous obtenez ce qui suit.
T-TEST /TESTVAL=45 /MISSING=ANALYSIS /VARIABLES=age /CRITERIA=CIN (.95) .
Vous aurez sans doute remarqu que, comme toutes les commandes, celle-ci est compose dune commande principale (T-TEST), et de sous-commandes. Les sous-commandes sont spares par une barre oblique, ne se terminent pas par des points, et sont en retrait vers la droite. Le point clt lensemble de la commande et de ses sous-commandes. Les sous-commandes sont les suivantes : - TESTVAL=45 qui vous permet de dterminer la valeur tester. - VARIABLES=age qui vous permet de dterminer les variables que vous voulez analyser. Vous pouvez en mettre plusieurs, spares par des espaces. Ici, on na que la variable age. - CRITERIA=CIN (.95) qui vous permet de dterminer lintervalle de confiance souhait (CIN), qui est dans ce cas de 0,95 (remarquez que pour la syntaxe, SPSS utilise des points et non pas des virgules pour le sparateur de dcimales). (Nous ne nous occuperons pas de la commande MISSING pour le moment). En faisant rouler cette commande, nous obtenons les mmes rsultats que ceux obtenus plus haut. Lavantage de la syntaxe, est que si vous voulez excuter la procdure nouveau mais au niveau de confiance de 99 %, il suffit de changer le .95 pour un .99 dans la sous-commande CRITERIA et de la faire rouler nouveau. Lavantage se fait sentir lorsquon excute de nombreuses commandes, ou quon les applique successivement des bases de donnes diffrentes.
p.12.4
Exemple 2
Nous voulons valider l'hypothse que la diffrence entre les hommes et les femmes dans notre chantillon sur les variables : age et rincome91 sont significatifs, cest--dire quelles refltent une vraie diffrence au niveau de la population entire. 1. Choisissez Independent-Samples T Test (dans le menu Analyse, puis Compare Means). Vous obtenez la bote de dialogue montre dans la figure. 12.2. Figure 12.2
2. Placez les variables age et rincome91 dans les botes appropries comme reprsent sur la figure 12.2. Vous devriez raliser que vous excutez deux tests d'hypothse diffrents en mme temps, un pour chacune des variables. SPSS vous permet de faire cela. 3. Placez la variable sex dans lespace tiquett Grouping Variable: . Deux points dinterrogation apparaissent alors, nous permettant de dterminer les deux catgories de cette variable que nous souhaitons comparer. Pour la variable sex, il ny en a que deux. Mais si on voulait comparer les personnes divorces et les personnes veuves, par exemple, on pourrait le faire en indiquant les codes de leur catgorie, tel que montr au paragraphe suivant. 4. Cliquez sur la bote Define Groups box. Vous obtenez la bote de dialogue montre dans la Figure 12.3. Figure 12.3
Dans ces botes de dialogue, inscrivez 1 pour le premier groupe, celui des hommes, et 2 pour le groupe 2, celui des femmes. Si vous vouliez comparer les personnes veuves et les personnes divorces, on aurait inscrit marital au lieu de sex, et dans les groupes on aurait choisi les groupes 2 (veufs) et 3 (divorcs). 5. Cliquez sur Continue, puis sur OK. Vous obtenez le tableau 12.2 (certaines des colonnes du tableau dont nous navons pas besoin tout de suite ont t supprimes).
p.12.5
Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed
L'information cruciale ici est le niveau de signification calcul, dnot par Sig. (2-tailed). Les rsultats sont calculs dans deux cas : le cas o les variances des sous-populations des hommes et des femmes sont identiques, et le cas o les variances ne sont pas identiques. SPSS offre des tests pour dterminer si ces variances sont identiques ou pas, mais la discussion de ces tests ne sera pas aborde pour le moment. Comme rgle pratique, considrez que les variances sont gales : les erreurs de Type I seront alors moins probables. Concrtement, voici comment interprter les rsultats de ce tableau. La variable Age of Respondent: Dans ce cas-ci, l'hypothse nulle est qu'il n'y a aucune diffrence entre les ges des hommes et des femmes dans lensemble de la population. Nous supposons que la population des hommes et des femmes ont la mme variance pour la variable ge. Si nous affirmons que la diffrence entre les hommes et les femmes est significative, nous prenons un risque de 9% davoir tort. C'est parce que la diffrence entre leurs moyennes est trs petite : 1.54 ans. Il est trop risqu de dire qu'une si petite diffrence pour cet chantillon indique une vraie diffrence au niveau de la population entire. Nous devrions plutt expliquer la diffrence par le hasard : il est plus probable que les chantillons choisis indpendamment montrent une telle diffrence, mme si ils viennent de la mme population. Par consquent, dans ce test, H0 est accepte. Nous concluons que nous n'avons pas une raison suffisante de rejeter l'hypothse que les hommes et les femmes dans la population entire ont le mme ge moyen. La variable Respondents Income : Ceci constitue un test d'hypothse diffrent du prcdent, puisque la variable est diffrente. L'hypothse nulle est qu'il n'y a aucune diffrence entre les revenus des hommes et ceux des femmes dans lensemble de la population. Les revenus sont regroups en 22 catgories, codes 1 22. La diffrence moyenne entre les scores moyens des hommes et des femmes est 2.59 (les scores rfrent aux catgories, et non pas au montant du revenu en dollars). C'est une diffrence relativement importante : le revenu moyen des hommes se situe en moyenne deux catgories au-dessus de celui des femmes. Les rsultats de SPSS confirment cette interprtation : nous prenons un risque qui est pratiquement nul (arrondi moins de 0.000) quand nous affirmons que cette diffrence est significative. Par consquent, nous pouvons conclure qu'il y a une vraie diffrence entre les revenus des hommes et des femmes au niveau de la population entire, pas simplement pour ce groupe de 1500 personnes. Par consquent, dans ce test, H0 est rejete et H1 est accepte avec un risque de se tromper plus petit que 0.0005 (car si la quatrime dcimale tait 5 ou plus, on aurait arrondi la probabilit 0,001).
p.12.6
Utilisation de la syntaxe
Comme pour les autres procdures, on peut utiliser la syntaxe. Dans lexemple prcdent, nous devons utiliser la syntaxe suivante.
T-TEST GROUPS=sex(1 2) /MISSING=ANALYSIS /VARIABLES=age rincom91 /CRITERIA=CIN(.95) .
La commande est la mme que pour le test impliquant un seul chantillon, mais la premire sous-commande, GROUPS, nous indique que lon compare deux groupes, et elle dtermine ces groupes . Si on voulait comparer les veufs et les divorcs (hommes ou femmes, indistinctement), on aurait :
T-TEST GROUPS=marital(2 3) /MISSING=ANALYSIS /VARIABLES=age rincom91 /CRITERIA=CIN(.95) .
Les autres sous-commandes sont les mmes que dans lexemple prcdent. Vous avez toujours le choix de dactylographier ces commandes directement en observant les rgles de la syntaxe, plutt que de travailler avec les menus.
p.12.7
premier niveau (Layer 1) et la variable sexe comme deuxime niveau (Layer 2), tel que montr en classe. Ou encore, excutez la syntaxe suivante :
MEANS TABLES=agewed BY degree2 BY sex /CELLS MEAN COUNT STDDEV .
et interprtez le tableau qui en rsulte. Concluez votre analyse avec des noncs de la forme suivante :
La variable X a pour effet de retarder lge moyen du mariage de ... annes, alors que la variable Y a pour effet de retarder lge moyen du mariage de .... annes. Leffet combin des deux variables a pour effet de retarder lge moyen du mariage de . ..annes : en effet, les .. qui ont un diplme universitaire se marient en moyenne, . annes plus tard que les qui nen ont pas .
p.13.1
Exemple
En utilisant le fichier GSS93 subset, nous allons valider lhypothse que les femmes et les hommes ont des attitudes diffrentes concernant la peine de mort. Nous supposons videmment que lchantillon est reprsentatif. La gnralisation que nous voulons faire nest valide qu cette condition. Nous posons donc : H0 : Les hommes et les femmes appuient la peine de mort dans les mmes proportions H1 : Les hommes et les femmes appuient la peine de mort dans des proportions diffrentes. Nous retiendrons un seuil de signification de 5%. Ouvrons le fichier SPSS GSS93 subset et effectuons la procdure Crosstabs apprise au Labo 8. Placez la variable Respondents Sex dans lespace rserv pour les lignes du tableau, et la variable Favor or Oppose Death Penalty for Murder (cappun) dans lespace rservs pour les colonnes. Cliquez sur le bouton Statistics et cochez la case correspondante au Chi-deux (Chi-squared). Demandez aussi les pourcentages par ligne, et vous les obtiendrez. La syntaxe obtenue est la suivante.
CROSSTABS /TABLES=sex BY cappun /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT ROW .
Vous aurez remarqu que nous avons mis la sous-commande du Chi-deux en caractres gras pour attirer votre attention sur la faon de lcrire. Quand vous excutez cette commande, vous obtenez videmment le tableau crois que vous avez vu prcdemment, mais vous obtenez aussi le tableau du Chi-deux. Nous reproduisons les deux tableaux.
p.13.2
Favor or Oppose Death Penalty for Murder 1 Favor 2 Oppose 502 105 82,7% 572 73,2% 1074 77,4% 17,3% 209 26,8% 314 22,6% Total 607 100,0% 781 100,0% 1388 100,0%
Respondent's Sex
1 Male
2 Female
Total
Count % within Respondent's Sex Count % within Respondent's Sex Count % within Respondent's Sex
Vous constatez que la diffrence entre les hommes et les femmes est prs de 10 points de pourcentage (9,5 % de diffrence plus exactement entre le pourcentage de femmes et dhommes qui appuient la peine capitale dans le cas dun meurtre). Cette diffrence semble grande, mais est-elle assez grande pour dire quil y a une diffrence au niveau de toute la population, pas seulement lchantillon ? Le tableau suivant nous donne la rponse.
Chi-Square Tests
Value df Pearson Chi17,470(b) 1 ,000 Square Continuity 16,934 1 ,000 Correction(a) Likelihood Ratio 17,800 1 ,000 Fisher's Exact Test ,000 ,000 Linear-by-Linear 17,458 1 ,000 Association N of Valid Cases 1388 a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 137,32.
p.13.3
Exercice
En utilisant le mme fichier, GSS93 subset, Dterminer si la diffrence entre les pourcentages dhommes et de femmes qui se prvalent de leur droit de vote est significative. Refaire lexercice avec un chantillon alatoire de 100 personnes. Recommencer lexercice avec les niveaux dducation plutt que le sexe.
p.14.1
Vous aurez remarqu que les deux dernires formules sont crites diffrement, mais que le rsultat du calcul est le mme. Quen est-il exactement ? La troisime formule comporte une rfrence relative aux cellules A1 et A2, alors que la quatrime formule comporte une rfrence absolue aux mmes cellules. La diffrence entre les deux types de rfrence parat lorsquon copie les formules, tel quexpliqu dans ce qui suit. 2. Copier des formules rfrence relative Quand on slectionne une cellule et quon tape simultanment Ctrl et C, la formule est copie dans la mmoire vive de lordinateur. Si on dplace le curseur dans une autre cellule et quon tape Ctrl V, la formule est alors recopie dans cette dernire cellule. Mais attention : si les rfrences dans la formule sont relatives, la formule est alors modifie de la faon illustre dans lexemple suivant : Exemple. Supposons quon ait les donnes du tableau ci-contre. La cellule D7 contient la formule = A1+A2, et les rfrences sont relatives. Si on recopie cette formule dans la cellule E7 qui est juste sa droite, les A deviendront des B. Si on la recopie deux cases plus loin, les A deviendront des C. Si on la recopie trois lignes plus bas, les numros de cellules qui apparaissent dans la formule seront majors de trois units. En dautres termes, les cellules utilises dans le calcul subissent le mme dplacement que la cellule o on inscrit le rsultat. Exercice 1.1 Crez le tableau illustr ci-dessus, dactylographiez la formule illustre la case D7, et presser ENTER. (Note : cest important de taper Enter, sans quoi, tout clic de la souris va modifier la formule que vous avez crite). Maintenant cliquez sur D7, copiez la cellule, et collez la successivement dans les cellules indiques et examinez le rsultat obtenu. Copiez la dans E7; rsultat : formule obtenue : ___________ nombre obtenu : _____
p.14.2
Copiez la dans F7; rsultat : formule obtenue : ___________ nombre obtenu : _____ Copiez la dans G7; rsultat : formule obtenue : ___________ nombre obtenu : _____ Copiez la dans E12; rsultat : formule obtenue : ___________ nombre obtenu : _____ prsent, veuiller sauvegarder votre document sous le titre : votre_nom_de_famille_ Ex1 . 3. Copier des formules rfrence absolue. Exercice 1.2 Recommencer le mme exercice en utilisant les rfrences absolues (un signe de $ avant chaque lettre et avant chaque chiffre). Comment les formules sont-elles modifies ? __________________________________________________________________________ Quel est le rsultat du calcul dans chacun des 4 cas de lexercice prcdent ? __________________________________________________________________________ 4. Les commandes Recopier droite et Recopier vers le bas Ces commandes sont utilises pour recopier une formule dans un ensemble de cellules qui se suivent verticalement ou horizontalement. Il faut dabord crire une formule dans une cellule, puis slectionner cette cellules ainsi que les cellules qui la suivent verticalement. En cliquant Recopier vers le bas dans le menu Edition, la formule est alors recopie dans toutes les cellules slectionnes. Leffet est similaire lorsquon recopie droite. Si les rfrences dans la formule sont relatives, elles seront ajustes automatiquement, alors que les rfrences absolues ne seront pas modifies. Ces commandes vont grandement faciliter le calcul des mesures descriptives, tel quillustr ci-bas. Exercice 1.3 Les donnes suivantes reprsentes les notes obtenues dans un classe. Recopiez-les dans la colonne B dune feuille Excel, en commenant par la trosime ligne. Dans la premire ligne de la colonne B, crivez simplement Note obtenue, et dans la deuxime ligne, crivez X, tel quillustr. Effectuez les calculs suivant en utilisant des formules : Dans la cellule B13, calculer la somme des notes obtenues en utilisant la formule =SOMME(B3:B12). (Remarque : plusieurs faons de produire cette formule seront illustres en classe. On peut utiliser la commande Insertion, Formule, ou encore dactylographier la formule, ou enfin cliquer sur le signe ). Dans la cellule B14, inscrivez le nombre de donnes, soit 10. Dans la cellule B15, calculer la moyenne des notes par la formule =B13/B14. Inscrivez le mot Moyenne dans la cellule A15. Inscrivez la formule =B3*B3 dans la case C3. Recopier la formule vers le bas jusqu la ligne 12. Inscrivez X au carr dans la case C2. En vous inspirant des tapes prcdentes, calculez la somme des carrs des notes par lentremise dune formule la case C13. Calculez lcart-type des notes, en tenant compte quil sagit dun chantillon. La formule est :
p.14.3
"(xi ! x )
n!1
= ________________
5. Calcul dune moyenne pondre Supposez maintenant que vous avez 5 classes A, B, C, D et E , dont la taille et les moyennes des notes obtenues par les tudiants sont donnes par : Classe N Moyenne Pondration A 26 86 ______ B 20 75 ______ C 30 70 ______ D 12 95 ______ E 28 80 ______ Calculez la moyenne pondre des notes pour les cinq classes prises ensemble, en calculant dabord le poids de chaque classe, tel que cela a t illustr par le professeur. Moyenne pondre : ___________
p. 14.4
(! XY )"nXY (! X 2)"nX 2
p. 14.5
La formulation mathmatique de b ci-haut est celle qui est donne par beaucoup de manuels. Mais si on veut tre plus prcis, il faudrait crire : b=
(la sommation tant faite sur lindice i qui prend les valeurs 1, 2, 3,, n puisque lon a n donnes). Ces deux quations pour a et b vont nous permettre de calculer nous mmes la droite de rgression. Or ce calcul peut tre effectu assez facilement par un tableur tel que Excel. Il suffira dcrire toutes les tapes successives du calcul dans des colonnes diffrentes du tableur, en utilisant la fonction Recopier vers le bas tel que montr dans un cours prcdent. Ainsi, si la premire colonne contient les valeurs xi de la variable X et la deuxime les valeurs yi de Y (commenant la deuxime ligne, pour laisser la premire pour les titres des colonnes), on peut crer les colonnes suivantes : Colonne 1 2 3 4 2 Titre X Y X XY Les donnes suivront dans les lignes suivantes. On utilisera les fonctions pour effectuer le calcul. Par exemple, le calcul de X2 se fera en inscrivant = A2*A2 dans la colonne C2, puis en recopiant vers le bas. Au bas des donnes, on additionnera les X et les Y pour obtenir ensuite leurs moyennes, ainsi que les X2 et les XY. Puis on inscrira la formule pour le b dans une nouvele cellule, et celle du a dans une autre.
Note : Les exercices suivants peuvent tre effectus chez vous, car ils ncessitent le logiciel Excel seulement. Cependant, les donnes doivent tre pralablement recopies du fichier SPSS Road Construction Bids qui se trouve sur les ordinateurs du Labo. Pour les recopier, il suffit de slectionner ces donnes puis de faire un copier/coller dans la premire cellule dune feuille de calcul Excel : le nombre de cellules requises sajustera automatiquement.
(! xi yi)"nXY (! xi2)"nX 2
Exercice 1 : 1. Faites le calcul de lquation de rgression pour les variables : Construction Cost (variable dpendante) et DOTs Engineers Estimate (variable indpendante), et vrifiez que vous obtenez les mmes rponses que lorsque SPSS effectue les calculs. 2. Calculez le coefficient de corrlation pour ces deux variables laide dExcel et de la formule suivante (rappelez vous que lestim de Y est donn par la formule a + bX) : r2 = 1
Exercice 2 : Refaites lexercice prcdent avec une autre paire de variables du mme fichier ou du fichier WORLD95. Vous navez pas besoin de saisir les formules, qui peuvent tre simplement recopies. DPOSEZ votre document Excel comportant les exercices dans le Fichier Gourou Cours SOC 4206 Dpt.
2 2
p. 15.1
Le sondage effectu sur 1030 individus a montr que 37 % des adultes canadiens tirent leurs informations internationales de la tlvision. Ces rsultats sont prcis 4 %, et sont fiables 19 fois sur 20. (donnes fictives)
La population
LA TAILLE DE LCHANTILLON LA VARIABLE MESURE LA STATISTIQUE MESURE LE PARAMTRE ESTIM LA MARGE DERREUR NIVEAU DE CONFIANCE PROBABILIT DERREUR
p. 15.2
2.58
p(1 ! p) n
Marge derreur
Estim ponctuel
Marge derreur
p. 15.3
Le sondage effectu sur 1030 individus a montr que les adultes canadiens regardent la tlvision en moyenne 4,2 h par jour. Ces rsultats sont prcis 6 minutes prs, et sont fiables 19 fois sur 20. (donnes fictives)
La marge derreur
1.64
! n
La marge derreur
1.96
! n
La marge derreur
2.58
! n
p. 15.4
Il faut multiplier la taille de lchantillon par 4 pour diminuer la marge derreur de moiti Calcul de la taille dchantillon ncessaire
Pour une proportion, si on a dtermin la marge derreur m, on peut isoler la valeur de n qui va produire cette marge derreur. Comme la marge derreur est maximale quand p = 0.5, on obtient : Taille de lchantillon n =
p. 15.5
NOM : ______________________
1. Une tude effectue sur un chantillon alatoire de 430 femmes adultes dans la rgion mtropolitaine de Montral a montr que 73 % des femmes prfrent utiliser leur auto pour ce rendre au travail. Les rsultats sont prcis 4 %, 19 fois sur 20. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 2. Sur la base dune enqute faite lUQM, il a t tabli que les tudiantEs prennent en moyenne 43 minutes ( 11 minutes) pour se rendre lUniversit. Ces rsultats sont fiables 9 fois sur 10. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ Question : Est-ce que cet nonc signifie que les tudiants prennent quelque part entre 32 et 54 minutes pour se rendre lUQM ? ____________ (Oui/Non). Expliquez votre rponse en 2 lignes. 3. Une enqute auprs dun chantillon reprsentatif de volontaires dans les organisations de comt dun parti politique a montr que les volontaires font en moyenne 7heures et 32 minutes de bnvolat chaque semaine. Ces rsultats sont prcis 45 minutes, avec un risque derreur de 10%. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 4. Les Qubcois prfrent passer leurs vacances au Qubec. Un sondage rcent o 2045 personnes ont t interviewes par tlphone a dmontr que 69 % dentre eux prvoyaient rester au Qubec lt prochain. La marge derreur est de 2 % avec un niveau de confiance de 95 %. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________
p. 15.6
5. Les tudiantEs dpensent en moyenne entre 4.45 $ and 5.15 $ la caftria durant lheure du dner. Cest du moins ce qui ressort dun sondage effectu auprs de 560 tudiants et tudiantes, et les rsultats sont fiables 9 fois sur 10. Variable tudie : ______________________________________________ Population tudie : ______________________________________________ Taille de lchantillon : _________ Statistique mesure : _________ Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : _________ 6. Considrez les deux noncs suivants, qui se refrent la question 3 ci-haut. a) Nous estimons, avec un niveau de confiance de 90 %, que chacun des volontaires du parti passe entre 6 heures et 47 minutes, et 8 heures et 17 minutes chaque semaine travailler pour le parti. b) Nous estimons, avec un niveau de confiance de 90 %, que les volontaires du parti passent en moyenne entre 6 heures et 47 minutes, et 8 heures et 17 minutes chaque semaine travailler pour le parti. Quelle est la diffrence entre ces deux noncs ? Lequel traduit correctement lnonc de la question 3 ?
p. 15.7
8. Variable tudie : Le comportement des conducteurs aux arrts. Population tudie : Tous les conducteurs de voitures dans une ville. Taille de lchantillon : 1200 personnes Statistique tudie : Le pourcentage de ceux et celles qui font un arrt complet Statistique mesure : 90 % Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : 95 % nonc : _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ 9. Variable tudie : Heures de travail rmunr par semaine Population tudie : Les tudiants de 1re anne du Bac lUQM. Taille de lchantillon : 900 personnes Statistique observe : Nombre dheures travailles par semaine Statistique mesure : 15 heures cart type : 3 heures (suggestion : convertir en minutes) Valeur ponctuelle estime du paramtre : ______ Intervalle: _______________ Marge derreur : _________ Probabilit derreur : _________ Niveau de confiance : 95 % nonc : ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________ ______________________________________________________________________
p. 16.1
Exercices sur la distribution normale 1. Supposons que le poids des nouveaux-ns dans une maternit soit distribu normalement avec une moyenne de 3.5 kg et un cart type de 0.5 kg. Calculer : a) le pourcentage de nouveaux-ns pesant au-dessus de 4 kg; b) Le pourcentage de nouveaux-ns pesant entre 3.5 kg et 4 kg; c) Le pourcentage de nouveaux-ns pesant plus de 5 kg; d) Le pourcentage de nouveaux-ns pesant moins de 2 kg; e) Le pourcentage de nouveaux-ns pesant moins de 2.3 kg f) Le pourcentage de nouveaux-ns pesant plus de 4.6 kg.
p. 16.2
2. Les noncs suivants sont logiquement quivalents. Ce sont des faons diverses de dire la mme chose. Tous ces noncs renvoient la valeur z = 1 Pour z = 1
1. 2. 3. 4. 5. Laire sous la courbe normale standardise entre 0 et 1 est de 0.3413 units. Dans N(72,4), le pourcentage des donnes qui tombent entre les valeurs 72 et 76 est de 34.13 % Si une population est distribue normalement avec une moyenne de 72 et un cart type de 4 units, le pourcentage de donnes entre 72 et 76 est de 34.13 % Dans une population dont la distribution est N(72,4), le pourcentage de donnes plus grand que 76 est de (50 34,13) = 15.87 Si vous pigez au hasard un individu dans une population qui est distribue normalement N(72,4), il y a environ 16 % de chances que son score soit 76 ou plus.
Pour chacune des valeurs suivantes de z, crivez cinq noncs similaires qui soient quivalents entre eux. Valeurs de z : z = 1.6 ; z = 0.8 ; z = 1.96 ; z = -1.6. Pour z = 1.6
1. 2. 3. 4. 5.
Laire sous la courbe normale standardise entre 0 et 1.6 est de ___________ units. Dans N(72,4), le pourcentage des donnes qui tombent entre les valeurs 72 et 78,4 est de ______ % Si une population est distribue normalement avec une moyenne de 72 et un cart type de 4 units, le pourcentage de donnes entre 72 et 78,4 est de ______ % Dans une population dont la distribution est N(72,4), le pourcentage de donnes plus grand que 78,4 est de (50 _______ ) = _______ Si vous pigez au hasard un individu dans une population qui est distribue normalement N(72,4), il y a environ _____ % de chances que son score soit 78,4 ou plus.
p. 16.3
Pour z = - 1.6
p. 17.1
p. 17.2
Partie I
I. II. III. Expliquez en quelques lignes quelles sont les limites et les avantages de la moyenne et de la mdiane pour reprsenter la tendance centrale dun ensemble de donnes quantitatives. crivez la formule de lintervalle de confiance dun estim de la moyenne, puis dune proportion, aux deux niveaux de confiance de 95% et 99%. Considrez le diagramme de dispersion suivant, qui met en relation la valeur du terrain dune maison et son prix de vente.
400000
300000
200000
Prix de vente
100000
Valeur du terrain
1. Tracez manuellement la ligne de rgression. 2. Estimez manuellement le prix de vente moyen dune maison dont le terrain vaut 40 000 $. 3. Choississez une maison qui sloigne un peu de la droite de rgression et indiquez sur le graphique la diffrence entre son prix de vente estim par la droite de rgression et son prix de vente rel.
p. 17.3
p. 17.4
Les donnes : Le fichier analys, intitul GSS93 subset, est un sous-ensemble des donnes recueillies lors de lenqute sociale gnrale en 1993 aux Etats-Unis. Lchantillon contient 1500 cas, mais il ne semble pas que ce soit un chantillon reprsentatif car la proportion de femmes et dhommes diffre grandement de celle de la population gnrale. Lge au premier mariage. Les individus de cet chantillon qui se sont maris lont fait pour la premire fois un ge moyen de 22,79 ans, ce qui correspond 22 ans et 288 jours environ, soit 22 and et 9 mois et demie environ. Lcart type est de 5 ans. La plus jeune personne se marier avait 13 ans, et un individu de lchantillon sest mari pour la premire fois 58 ans.
Leffet de la variable sexe. Les femmes de notre chantillon se marient plus tt que les hommes. En effet, on peut lire sur le tableau que les femmes se marient un ge moyen de 21,84 ans et les hommes un ge moyen de 24,16 ans, lcart tant de 2 ans et 4 mois environ.
Leffet de lobtention dun diplme universitaire. Les personnes qui ont obtenu un diplme universitaire ont eu tendance ce marier environ 3 ans plus tard, en moyenne, que les non diplms. En effet la moyenne dge au premier mariage pour les premiers est de plus de 25 ans, alors que celle des second est denviron 22 ans.
Leffet de la variable de classification raciale. Les blancs et les noirs semblent ne pas trop diffrer quant lge du premier mariage (22,71 ans vs 22,87 ans respectivement). Les personnes classes autres se marient en moyenne un peu plus tard, tel quillustr dans le tableau suivant :
Tableau 1. Age au premier mariage en fonction de la classification raciale.
Leffet de la religion. La religion semble tre un facteur qui affecte lge moyen du mariage. Le tableau 2 montre une diffrence entre les catholiques (23,63 ans) et les protestants (22,25 ans), qui sont les deux groupes religieux les plus nombreux dans cet chantillon. Les autres groupes religieux semblent se marier un peu plus tard, mais leurs effectifs dans cet chantillon sont beaucoup plus rduits.
p. 17.5
II.
Crez une variable intitule : anne de naissance, et examinez si il y a une corrlation ou une association statistique entre lanne de naissance et lge au premier mariage.
La variable Anne de naissance a t cre en soustrayant lge du rpondant de lanne o lenqute a t mene, 1993. La corrlation entre lanne de naissance et lge au premier mariage est de 0.083, soit une corrlation ngative trs faible. Mme si elle est significative (cest--dire quelle se gnralise lensemble de la population) cette corrlation est trs faible et na donc pas de valeur exlicative : lanne de naissance nexplique que (-.083) 2 , soit moins de 1 % de la variation de lge au premier mariage. On ne peut donc pas conclure que, pour cet chantillon, lappartenance des gnrations plus vieilles explique le mariage un ge plus jeune.
l r o C i t a n i e g A a l n Ce o o d s r M r a e P d i r a t s F ) e l r tb a ( . g i S N r o C 8 0 . i b ( . g S N 8 0 . d e a M t s r i F n o e 1 . 0 2 1 n 3 o s r a P e d * 4 0 . 9 1 . ) l *e 3 4 0 . 9 1 1 . 5 9 4 1 n e h s W
i a n
e n a d
lo n i t a ) e r t a l
. *
b ( 1 . 0 u v f g s e n i t l r o c a L
III.
Choisissez une association statistique observe la question I, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire.
Examinons la relation entre lge au premier mariage et le sexe. Pour savoir si la relation observe sur lchantillon se gnralise toute la population, il faut effectuer un test t. Nous posons :
Lhypothse nulle : Il ny a aucune diffrence entre lge moyen au premier mariage des hommes et des femmes. Lhypothse alternative : Lge moyen au premier mariage des hommes et des femmes est diffrent.
p. 17.6
On obtient le tableau 3, reproduit ci-bas. Nous avons suprimer les colonnes dont nous navions pas besoin pour cette analyse. Tableau 3. Test t pour lgalit de lge au premier mariage des hommes et des femmes
df 1200 1064,6
Que la variance de lge au mariage des femmes et des hommes soit gale ou pas, la conclusion est la mme : cest lhypothse alternative qui est accepte. Ceci signifie quon peut affirmer, avec une probabilit presque nulle de se tromper (moins de 0,0005, soit moins de 0,05 %) quil y a une diffrence entre lge au premier mariage des hommes et des femmes, en supposant que lchantillon soit reprsentatif. IV. Analysez les donnes se rapportant au fait de voter ou pas en 1992, en dcrivant leffet du sexe, du niveau dducation, de la variable intitule race, et de la religion pour cet chantillon, chacune de ces variables indpendantes tant prise individuellement.
Analyse de la participation au vote en 1992 On constate tout dabord quenviron 68,8 % des individus de lchantillon ont dclar avoir vot en 1992, 28 % ont dclar ne pas avoir vot, 2,3% ont dclar ne pas tre ligibles, et un tout petit nombre (6 personnnes) ont refus de rpondre cette question. Huit autres cas sont des donnes manquantes. Ces rsultats sont consigns dans le tableau 4. Tableau 4. Participation au vote en 1992
Valid Percent 69,2 28,2 2,3 ,4 100,0 Cumulative Percent 69,2 97,3 99,6 100,0
Frequency Valid 1 voted 2 did not vote 3 not eligible 4 refused Total Missing 8 DK 9 NA Total Total 1032 420 34 6 1492 4 4 8 1500
Pour la suite de lanalyse, nous allons recoder la variable pour mettre dans une unique catgorie toutes les donnes manquantes, sans distinction. Le tableau obtenu est le suivant (tableau 4a):
p. 17.7
Frequency Valid 1 A vot 2 N'a pas vot Total Missing Total 9 Donnes manquantes 1032 420 1452 48 1500
(Notons que les donnes ne nous disent pas si les rpondants ont vot ou pas, mais plutt sils ont dclar avoir vot. Nous ferons ce rappel de temps en temps.) Effet du sexe. Le graphique 1 montre que les hommes et les femmes de cet chantillon se comportent peu prs de la mme faon. En effet, 72,1 des hommes ont dclar avoir pris part au vote, contre 70.3 % des femmes, une diffrence minime.
Graphique 1. Participation des hommes et des femmes au vote en 1992.
80
60
40
20
Percent
Respondent's Sex
Male
Female
Effet du niveau dducation. Leffet du niveau dducation sur la participation au vote est marquant. Le tableau 5 montre en effet que parmi ceux qui ne dtiennent pas de diplme universitaire, 65,5 % dclarent navoir pas particip au vote, alors que prs de 90 % de ceux et celles qui ont un diplme universitaire dclarent avoir vot.
p. 17.8
Tableau 5. Participation au vote en 1992 en fonction de la dtention ou non dun diplme universitaire
Participation au vote en 1992 1 A vot College Degree 0 No College degree 1 College degree Total Count % within College Degree Count % within College Degree Count % within College Degree 730 65,5% 301 89,9% 1031 71,1% 2 N'a pas vot 385 34,5% 34 10,1% 419 28,9% Total 1115 100,0% 335 100,0% 1450 100,0%
Effet de la religion. On constate que les divers groupes religieux ont tendance dclarer quils se sont prvalu de leur droit de vote des degrs divers, mais que les diffrences ne sont pas majeures (pas aussi grandes que leffet de lducation par exemple). Le tableau 6 donne les pourcentages pour les divers groupes, qui varient entre 64,4 % pour ceux et celles qui se dclarent sans religion, 72,4 % pour les catholiques ainsi que pour les groupes religieux autres.
Tableau 6. Religious Preference * Participation au vote en 1992 Crosstabulation
Participation au vote en 1992 1 A vot Religious Preference 1 Protestant Count % within Religious Preference 2 Catholic Count % within Religious Preference 3 Jewish Count % within Religious Preference 4 None Count % within Religious Preference 5 Other Count % within Religious Preference Total Count 668 71,5% 233 72,4% 20 69,0% 87 64,4% 21 72,4% 1029 2 N'a pas vot 266 28,5% 89 27,6% 9 31,0% 48 35,6% 8 27,6% 420
Total
p. 17.9
71,0%
29,0%
100,0%
Leffet de la classification raciale. On observe ici une diffrence majeure entre les groupes dfinis par la classification amricaine en termes raciaux. Si les blancs disent avoir vot 72 %, les noirs 64 %, et les membres des autres groupes 58 %, tel quillustr par le tableau 7.
Tableau 7. Participation au vote en 1992 en fonction de la classification raciale
Participation au vote en 1992 2 N'a pas 1 A vot vot Racew of Respondent 1 white Count % within Racew of Respondent 2 black Count % within Racew of Respondent 3 other Count % within Racew of Respondent Total Count % within Racew of Respondent 893 72,6% 101 64,3% 38 58,5% 1032 71,1% 337 27,4% 56 35,7% 27 41,5% 420 28,9%
Total
p. 17.10
80
60
40
Racew of Respondent
20
Percent
white black
other
V.
Choisissez une association statistique observe la question IV, et discutez en dtail dans quelle mesure elle est vraie pour lensemble de la population dont provient cet chantillon, supposer que ce soit un chantillon alatoire.
Choisissons lassociation entre le niveau dducation et le fait de voter ou pas. Nous avons vu plus haut que 65 % de ceux qui navaient pas de diplme universitaire avaient vot, alors que 90 % des dtenteurs de diplme staient prvalus de ce droit (en supposant que les dclarations davoir vot sont conformes au comportement actuel.ce qui nest peut-tre pas le cas). Pour savoir si cette diffrence est gnralisable (elle semble bien ltre vu la taille de lcart !) il faut calculer le Chi deux. Lhypothse nulle est quil ny a pas de diffrence, et lhypothse alternative est quil y en a. Le Chi deux a une valeur de 74, qui donne un niveau de signification plus petit que 0,000. Ceci signifie quon peut accepter lhypothse alternative ( leffet quil y a une diffrence entre les deux groupes) avec une probabilit presque nulle de se tromper. Note : si vous faites le test du Chi deux pour la variable Sexe, vous obtiendrez un niveau de signification de 0,83, qui signifie que si vous retenez lhypothse alternative, vous aurez 83 % de chances de vous tromper !! Vous retenez donc lhypothse nulle (le sexe na pas deffet sur le fait de voter ou pas). Si vous aviez retenu les variable participation au vote et race, le Chi deux serait de 9,898, avec un niveau de signification de ,007 (Bond. James Bond). Vous retenez donc lhypothse alternative (il y a un lien au niveau de toute la population) puisque cette probabilit est plus petite que 5 %. VI. Choisissez un chantillon alatoire de 100 personnes, et calculez lge moyen des individus de cet chantillon ainsi que le pourcentage dentre eux qui ont vot en 1992. Sur la base de
p. 17.11
cet chantillon, crivez deux noncs pour estimer lge moyen de la population, puis le pourcentage de gens qui ont vot aux lections de 1992 au niveau de toute la population.
Un chantillon de prs de 100 personnes a t choisi. Le nobre exact choisi sest avr tre 99. Leur ge moyen est de 48,62 ans, et 64,9 % dentre eux ont vot. Sur cette base, nous pouvons faire les noncs suivants : Estim de lge de la population. Sur la base des donnes provenant dun chantillon alatoire de 99 personnes, nous estimons, avec un niveau de confiance de 95 %, que lge moyen de la population dont provient cet chantillon se situe quelque part entre 45,13 et 52,10 ans. Ou encore En partant dun chantillon alatoire de 99 personnes, nous estimons que lge moyen de la population est de 48,62 ans, avec une marge derreur de + ou 3,48 ans. La probabilit derreur est de 5 %. Estim du pourcentage de ceux qui ont vot Sur la base dun chantillon alatoire de 99 personnes, nous estimons que les pourcentage de personnes se prvalant de leur droit de vote se situe autour de 65 %, avec une marge derreur de + ou 9 %, 19 fois sur 20. (Au lieu de 19 fois sur 20, on peut aussi dire : avec une probabilit derreur de 5 % ou avec un niveau de confiance de 95%.
p. 18.1
RFLEXIONS CRITIQUES SUR LUSAGE SOCIAL DES MTHODES QUANTITATIVES I. Le palmars des coles secondaires de lActualit La discussion en classe va porter sur ces questions. Veuillez lire attentivement les textes proposs (le texte de lActualit ainsi que les textes critiques suggrs) et rflchir aux questions suivantes. 1. Quel est le concept principal qui est au centre de la recherche dont fait tat lActualit ? Quels sont les autres concepts (secondaires) qui sont aussi mesurs ? 2. Quelles sont les variables qui sont donnes dans le palmars ? Sont-elles indiques dans le texte ? 3. Quels sont les indicateurs utiliss pour mesurer ces concepts ? (pour chaque concept faites une liste des indicateurs utiliss) 4. Quels sont les arguments de nature mthodologique qui remettent en question ce palmars comme outil de connaissance de la ralit scolaire au Qubec ? Rsumez les principales critiques faites au palmars. 5. Quelles rponses donneriez-vous ces critiques, aprs avoir relu le texte de lActualit ? 6. Compte tenu de ces critiques et des rponses qui leur sont apportes, quelle est, selon vous, la valeur de ce palmars comme outil de connaissance ? (En dautres termes : quelles sont les conclusions de ltude que lon peut prendre telles quelles, et quelles sont celles quil faut remettre en question ? II. Le concept de Seuil de la Pauvret Lire le texte de Ian Hacking Faonner les gens : Le seuil de pauvret tir de : Lre du Chiffre : systmes statistiques et traditions nationales, sous la direction de J-P Beaud et J-G Prvost, Sainte-Foy, Presses de lUniversit du Qubec, 2000. La discussion en classe portera aussi sur ce texte.
p. 19.1
Statistiques
Statistiques descriptives
Ensemble de mthodes et de techniques qui visent rsumer des donnes numriques en quelques nombres, tout en saisissant les caractristiques les plus importantes et les plus pertinentes. Une partie de linformation est perdue dans le processus.
Infrence statistique
Ensemble de mthodes et de techniques qui visent infrer des caracteristiques numriques dune population lorsquon nen connat quun chantillon. Linfrence implique toujours une marge derreur ainsi quune probabilit derreur. Quand elle est fonde sur un chantillon repr-sentatif, linfrence a de meilleures chances de donner des rsultats proches de la ralit.
Lestimation
Elle consiste proposer la valeur dun paramtre (mesure prise sur une population) quand seule la statistique (mesure prise sur un chantillon).est connue. Les sondages dopinion sont toujours fonds sur des estimations : Une enqute est mene sur un chantillon, et les rsultats gnraliss la population toute entire, avec une marge derreur et une probabilit derreur.
Mesures de dispersion
Elles rpondent la question : Quelle est la dispersion, ou lparpillement des donnes ? Sont-elles concentres autour de leur tendance centrale, ou bien disperses sur une grande tendue ? cart type, variance, tendue.
Frquences et pourcentages
Mesures qui rpondent la question: Comment les donnes sont-elles distribues sur les diffrentes catgories dune variable qualitative, ou sur les valeurs dune variable discrte ?
Mesures dassociation
Elles rpondent la question : Si on connat le score dun individu sur une variable, dans quelle mesure peut-on prdire son score sur une autre variable ? Coefficient de correlation (r), Khi deux.
p. 19.2
Statistiques infrentielles
Ensemble de mthodes et de techniques statistiques visant infrer les caractristiques dune population (i.e. un paramtre) partir de la connaissance dun chantillon (i.e. une statistique)
Estimation
On part dun chantillon. Une statistique est mesure. On gnralise lensemble de la population (i.e. on estime le paramtre), en prenant en considration que : a) notre estim est approximatif (il y a donc une marge derreur) et que b) notre estim pourrait tre compltement faux, ce qui se produirait si notre chantillon tait exceptionnellement diffrent de la population (il y a donc une probabilit derreur)
Tests dhypothses
On propose une hypothse propos de la valeur dun paramtre. Sur la base de cette hypothse, on prdit que la statistique correspondante va tomber dans un intervalle entourant la valeur suppose (soit dans la zone dacceptation). Ensuite, on mesure la statistique, et on constate si elle tombe ou pas dans la zone dacceptation prdite. On tire une conclusion : Si la statistique tombe dans lintervalle prdit (i.e. la zone dacceptation), on accepte lhypothse comme tant probablement vraie. Si elle tombe en dehors de lintervalle prdit (i.e. dans la zone de rejet) on rejette lhypothse en se disant quelle est probablement fausse.
p. 19.3
Validation dhypothses
LA LOGIQUE
Une hypothse est formule au sujet de la valeur dun paramtre
Sur la base de cette hypothse, on prdit la valeur de la statistique correspondante. Une zone de rejet et une valeur critique sont dtermines
Raisonnement : Si lhypothse est vraie, lchantillon alatoire choisi ne devrait pas tre trop diffrent de la population, et sa moyenne ne devrait pas trop scarter de celle de la population. Mais on tolre une certaine diffrence car lchantillon nest pas une copie conforme miniaturise de la population. Ainsi, la prdiction fonde sur la premire des hypothses nulles ci-haut est : la moyenne de lchantillon, x , devrait tomber entre 32 et 36 (i.e. on introduit une marge derreur de 2 units max par rapport la valeur suppose qui est 34). Cette marge derreur est calcule en faisant appel aux proprits de la distribution dchantillonnage (soit la distribution normale ou la distribution t de Student). Donc : Zone de rejet : Valeurs critiques : Zone dacceptation :
x < 32 ou
x > 36
32 et 36 32 < x < 36
Si la moyenne de lchantillon tombe dans la zone de rejet, on rejette H0 et on retient H1 comme tant fortement probable, connaissant la probabilit de nous tromper. Sinon, on se dit que lon a pas assez de raisons de rejeter H0.
p. 19.4
Cet chantillon peut tre le rsultat dune enqute, ou rsulter dune exprimentation, ou encore tre tir de donnes darchives. Exemple : x = 35.7
Si la statistique mesure tombe dans la zone dacceptation, alors on accepte lhypothse nulle si elle tombe dans la zone de rejet, on rejette H0 , et on accepte lhypothse alternative, H1 Dans les deux cas, on risque de se tromper. La probabilit de se tromper est dnote par :
pour la probabilit de rejeter H0 alors quelle est vraie et pour la probabilit daccepter H0 alors quelle est fausse.
Remarques 1. Quand on rejette H0, on connat le risque que lon prend de se tromper. En fait, cest nous qui dterminons au dpart le niveau de risque que lon est prt prendre (gnralement 1 % ou 5 %), et sur la base de ce niveau de risque on calcule les valeurs critiques. Donc, si on se trompe, on sait quel risque on prend exactement lorsquon rejette H0 , risque quon dnote par . 2. Mais lorsquon accepte H0, on ne sait pas quelle est la valeur exacte de . Tout ce que lon sait, cest que plus on diminue , plus on augmente et vice-versa. 3. Pour ces raisons, on est sur des bases plus solides quand on accepte H1 que lorsquon accepte H0. Cest pour cela que cest H1 qui est considre comme lhypothse de recherche que lon souhaite prouver.
p. 19.5
Tableaux croiss
NOMINALE VS NOMINALE
Sapplique aussi aux variables quantitatives regroupes en catgories
On compare les pourcentages horizontaux des diffrentes catgories de la variable indpendante. Des diffrences importantes indiquent une association statisque. On gnralise toute la population laide du Chi deux.
Labo 8 et Labo 13
Labo 9 et Labo 12
Corrlation et rgression
Le coefficient de corrlation r nous renseigne sur lintensit de la relation et sur sa direction. La droite de rgression donne graphiquement et par une quation nous permet de prdire les scores des individus sur la variable dpendante partir de leur score sur la variable indpendante. Ces prdictions sont toujours accompagnes dune erreur, qui tend tre petite quand la corrlation est forte.
QUANTIT. VS QUANTIT. Peut quelquefois sappliquer aux variables ordinales comportant un grand nombre de catgories
Labo 10