Documente Academic
Documente Profesional
Documente Cultură
Gilbert Ritschard
Departement deconometrie, Universite de Geneve
gilbert.ritschard@themes.unige.ch
Plan
1 Objectifs
2 Introduction a SPSS
3 Gestion des donnees avec SPSS
4 Analyse statistique descriptive
5 Elements de statistique inferentielle
http://mephisto.unige.ch
RECODE ec_txt
(celibataire=1)
(marie=2)
(divorce=3)
(veuf=4)
INTO ec_rec .
EXECUTE .
FREQUENCIES
VARIABLES=catage
/BARCHART FREQ
/ORDER= ANALYSIS .
classe d'age
40
30
20
10
Frequency
0
1 2 3
classe d'age
Classes d'ge
35.5
35.0
34.5
34.0
33.5
33.0
32.5
Count
32.0
31.5
1 2 3
classe d'age
!! Observer l'chelle !!
Classes d'ge
AGE3
AGE1
AGE2
AUTORECODE
VARIABLES=ec_txt /INTO ec_reco
/PRINT.
RECODE
ec_txt
(celibataire=1) (marie=2) (divorce=3) (veuf=4) INTO ec_rec .
VALUE LABEL ec_rec 1 celibataire 2 marie 3 divorce 4 veuf .
VARIABLE LABEL ec_rec etat-civil (ec_rec).
FREQUENCIES
VARIABLES= anaiss ec_txt ec_reco ec_rec
/ORDER= ANALYSIS.
Exemples :
if (agefin < agedeb) erreur = 1 .
if missing(annais) age = year - annais.
AND ou & (cond1 & cond2) true si cond1 et cond2 sont vrais
OR ou | (cond1 | cond2) true si cond1 ou cond2 est vrai
Il sagit de reperer
Les valeurs interdites de variables
variable discrete : si valeur
/ liste des valeurs autorisees
exemple : sexe (1=homme,2=femme) reperer valeurs de sexe autre
que 1 ou 2.
variable continue : si valeur < minimum ou > maximum
exemple : age ([15; 30]) reperer cas avec age<15 ou age>30.
Les valeurs dune variable incompatibles avec valeur prise par une autre
exemple : etat matrimonial = celibataire et age du mari = 25.
filter off.
FILTER BY var rend inactifs les cas non selectionnes (pur lesquels var=0)
sans les supprimer de la base de donnees courante.
Exemple : Distribution des femmes selon etat matrimonial
compute filtre = 0.
if sexe=2 filtre=1.
filter by filtre.
frequencies variable=etatmat.
filter off.
SELECT IF cond supprime de la base courante les cas ne verifiant pas la
condition.
Exemple : definir un fichier avec les femmes seulement
select if sexe=2.
save outfile=fichier_femmes.sav.
Sauvegarde
Menu : File/Save As...
SAVE OUTFILE=demo.sav
/DROP ec_rec.
Exportation
SAVE TRANSLATE
OUTFILE=demo.dat
/TYPE=TAB
/MAP
/REPLACE
/FIELDNAMES.
GET FILE=demo.sav.
Importation
GET DATA
Syntaxe lourde.
Utiliser de preference le
dialogue
File/Open/Data...
AGGREGATE
/OUTFILE=aggr.sav
/BREAK=sexe age
/hcou_moy = MEAN(hcoucher)
/N_BREAK=N.
get file=aggr.sav.
list all.
Add cases
ADD FILES /FILE=*
/FILE=exemple2.sav
/IN=file2.
VARIABLE LABELS file2
Case de exemple2.sav.
EXECUTE.
UPDATE FILE=exemple.sav
/IN= updated
/FILE= exemple2.sav
/BY id .
EXECUTE.
list all.
produit :
Donnees univariees
1. Tableau de distribution
2. Presentations graphiques
3. Indicateurs statistiques
positionnement
dispersion, asymetrie et aplatissement
Donnees bivariees
1. Tableau croise et presentation graphique de donnees bivariees
2. Association, Independance
3. Correlation et autres mesures dassociation
heure pt djeuner
Cumulative
Frequency Percent Valid Percent Percent
Valid 5 1 2.4 4.3 4.3
6 1 2.4 4.3 8.7
7 5 12.2 21.7 30.4
8 10 24.4 43.5 73.9
9 2 4.9 8.7 82.6
10 3 7.3 13.0 95.7
11 1 2.4 4.3 100.0
Total 23 56.1 100.0
Missing non concern 18 43.9
Total 41 100.0
HCOU_CLS
Cumulative
Frequency Percent Valid Percent Percent
Valid 0-4 9 22.0 22.0 22.0
5-8 1 2.4 2.4 24.4
17-20 1 2.4 2.4 26.8
21-24 30 73.2 73.2 100.0
Total 41 100.0 100.0
** calcul de la classe.
compute delta_h = (hcou_max - hcou_min)/6. /* longueur du pas */
compute hcou_cls=1. /* initialisation */
loop #i = 1 to 5.
+ if (hcoucher > hcou_min + #i*delta_h) hcou_cls = (#i+1).
end loop.
value labels hcou_cls
1 0-4 2 5-8 3 9-12 4 13-16 5 17-20 6 21-24.
frequencies hcou_cls.
Statistics Statistics
heure coucher heure coucher
N Valid 41 N Valid 41
Missing 0 Missing 0
Percentiles 20 2.40 Percentiles 16.66666667 2.00
40 21.00 33.33333333 21.00
50 22.00 50 22.00
60 22.20 66.66666667 23.00
80 23.60 83.33333333 24.00
ntiles
FREQUENCIES
VARIABLES=hcoucher
/FORMAT=notable
/NTILES= 6.
n donnees : x1 , x2 , . . . , xn ,
exemple : 20, 25, 25, 30, 50
Tendance centrale :
mode, mediane, moyenne
Mode : valeur la plus frequente
Exemple : mode = 25
Mediane :
Exemple : med = 25
Exemple : x = 150/5 = 30
Moyenne ponderee :
n
X X
x = wi xi avec wi = 1
i=1 i
1 2
Exemple : w1 = w5 = 8 et w2 = w3 = w4 = 8
x = 230/8 = 28, 75
Ecart type :
p
ecart type(x) = sx = var(x)
Ecart interquartile : q3 q1
q1 : 1er quartile
25% des xi q1 et 75% des xi q1
q3 : 3eme quartile
75% des xi q3 et 25% des xi q3
i le
l e t
i
rt ne u ar
a
u ia q
q e
er ed m
1 m 3e
29 33 35 41 51
20 0 20 20 0 20 20 0 20
asymetrie positive symetrie asymetrie negative
20 0 20 20 0 20
forme en pic forme aplatie
menu : Analysis/Descriptives/Crosstabs...
INSTRUCT * profession du pre Crosstabulation
profession du pre
PPERE1 PPERE2 PPERE3 PPERE4 Total
INSTRUCT EDU1 Count 3 19 20 20 62
Expected Count 2.5 14.9 23.6 21.1 62.0
% within INSTRUCT 4.8% 30.6% 32.3% 32.3% 100.0%
% within profession
du pre 75.0% 79.2% 52.6% 58.8% 62.0%
EDU2 Count 1 5 18 14 38
Expected Count 1.5 9.1 14.4 12.9 38.0
% within INSTRUCT 2.6% 13.2% 47.4% 36.8% 100.0%
% within profession
du pre 25.0% 20.8% 47.4% 41.2% 38.0%
Total Count 4 24 38 34 100
Expected Count 4.0 24.0 38.0 34.0 100.0
% within INSTRUCT 4.0% 24.0% 38.0% 34.0% 100.0%
% within profession
du pre 100.0% 100.0% 100.0% 100.0% 100.0%
80
200
60
40 profession du pre
100 PPERE4
INSTRUCT
20 PPERE3
Percent
EDU2
Percent
PPERE2
0 EDU1
0 PPERE1
PPERE1 PPERE2 PPERE3 PPERE4
EDU1 EDU2
profession du pre
INSTRUCT
10
5
heure rveil
3
0 10 20 30
heure coucher
Independance
Si distributions lignes semblables Si distributions colonnes semblables
B1 B2 total
A1 10 30 40
A2 20 60 80
total 30 90 120
Association parfaite
Si un seul element non nul par colonne (ou ligne)
B1 B2 total
A1 40 0 40
A2 0 80 80
total 40 80 120
association
forte faible forte
rxy
-1 0 1
negative positive
10
y
10
5 5
0 0
-5 -5
-10 -10
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
r = -1
r = 0.39
30
30
25
25
20 20
15 15
y
10
y
10
5 5
0 0
-5 -5
-10 -10
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
association
faible forte
v
0 1
revenu
taille [20,30[ [30,50[ [50,60] total
1 ou 2 0 50 0 50
3 ou 4 25 0 25 50
total 25 50 50 100
correlation = 0, v -Cramer = 1.
Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 4.850a 3 .183
Likelihood Ratio 5.107 3 .164
Linear-by-Linear
Association 2.212 1 .137
N of Valid Cases 100
a. 2 cells (25.0%) have expected count less than 5. The
minimum expected count is 1.52.
Symmetric Measures
p = ?
c h a n t i l l o n 2
c h a n t i l l o n 1
f 1
f 2
= f 1
Absence de biais :
esperance de lestimateur (estimation moyenne)
= vraie valeur du parametre.
Efficacite :
faible dispersion des valeurs dun echantillon a lautre
Erreur quadratique moyenne : EQM = var +biais2 petit
Exemple : X estimateur de
Si tirage au hasard (meme prob pour chacun) et independants
2
E(X) = et var(X) =
n
Dautant plus efficace que n est grand.
. .. . . . . . . . .. . . . . . .
. . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . .
. .. . . . . . . . . . .. . . . . . . . .
. . .. . . . .. .
. . . . . . . .
Estimation non biaisee Estimation biaisee
.. .. . . . . . . . . . .
. . . . . .. . . . . . . . . . . .
.. . . . . . . .. . .
- le degre de confiance
- la dispersion de lestimateur (erreur standard X )
Exemple : intervalle pour la moyenne
= x z1/2 X
f()
10 intervalles ( 10 echantillons )
8 intervalles recouvrent lestime
Par exemple, si lon estime quune proportion est de 30% avec un echantillon
de n = 100 personnes,
r
0, 3 0, 7
marge derreur ' 2
100
p
= 2 0, 0021 = 2 0, 046
= 0, 092
proportion = 30% 9, 2%
Decision
Etat de la nature H0 H1
H0
H1
SPSS Inc. (1992). SPSS Base System Reference Guide, Release 5.0. Chicago, IL: SPSS Inc.