Documente Academic
Documente Profesional
Documente Cultură
22.01.2016
Prof. univ. dr. Liliana Duguleană
ldugul@unitbv.ro
ldugul@gmail.com
Topici ale cursului
Statistică în cercetare
Curs 1 din 4.12.2015 – STATISTICĂ DESCRIPTIVĂ ȘI INFERENȚIALĂ
⁻ Cercetarea statistică
⁻ Concepte bază, gruparea datelor, serii statistice, tabele, grafice
⁻ Rezumatul statistic
⁻ Sondajul statistic
⁻ Teste statistice
d (i, i )
2
1
j 1 sj 2
• Corelaţiile dintre variabile, exprimate în …
matricea simetrică R, a coeficienţilor de i xij
corelaţie, vor determina proiecţiile pe axele …
factoriale. n
• Variabilele sunt vectori de câte n valori şi se
pot considera ca vectori ai unui spaţiu n 1 r12 ... r1 p
dimensional, notat F. Lungimea unui vector r 1 ... r2 p
în acest spaţiu se defineşte prin: R 21
n
... ... ... ...
x 2
rn1 rn 2 ... 1
i
X i 1
n
Identificarea componentelor
• Variabilele sunt centrate şi reduse, lungimile lor sunt egale cu 1; extremităţile
lor sunt situate pe o sferă de rază 1 a spaţiului F. Cosinusul unghiului format de
două variabile, în acest spaţiu, este egal cu r.
• Observaţiile se prezintă sub forma a doi nori de puncte:
– norul celor "n" indivizi în spaţiul E
– norul celor "p" variabile în spaţiul F.
• Studiul formei norului de indivizi permite diferenţierea acestora în grupe de
indivizi, după răspunsurile lor la ansamblul de variabile active.
• Forma norului de variabile descrie ansamblul corelaţiilor dintre ele. Utilizarea a
mai mult de trei dimensiuni îngreunează înţelegerea spaţiilor.
• Reprezentarea variabilelor este mai bogată în informaţie şi mai complexă.
– Pentru un individ se asociază un singur obiect matematic, un punct din E.
– O variabilă este mai întâi o listă de n valori - un vector din F, dar este de asemenea o
axă (direcţie) a spaţiului indivizilor, pe care aceştia se proiectează.
– Coordonatele indivizilor pe această axă sunt valorile variabilei.
• Proiecţiile celor n indivizi ei, pe o axă oarecare a spaţiului E, constituie o nouă
variabilă, care este o combinaţie liniară a celor p variabile iniţiale. Ansamblul
celor p coeficienţi care descriu noua variabilă, se numeşte factorul asociat
variabilei.
Analiza componentelor principale (ACP)
Trei moduri de prezentare, în funcţie de contribuţiile în timp la dezvoltarea ei:
• K. Pearson (1901) a considerat inerţia ca fiind criteriul de identificare a
componentelor principale.
Inerţia totală este suma varianţelor celor p variabile. În cazul datelor centrate şi
reduse, inerţia totală este egală cu p. Se proiectează norul de puncte al indivizilor
pe un subspaţiu de dimensiune fixă, trecând prin origine (punctul mediu, centrul
de greutate, ale cărui coordonate sunt mediile fiecărei variabile). Subspaţiile
optimale verifică proprietatea imbricării: subspaţiul optimal de dimensiune k
conţine subspaţiul optimal de dimensiune k-1 etc., ceea ce permite căutarea unei
suite de axe ortogonale numite axe principale ale norului de puncte.
• Căutarea variabilor care maximizează criteriile de dipersie sau de corelaţie.
Harold Hoteling - căutarea combinaţiilor liniare de varianţă maximă a celor p
variabile iniţiale. Suma pătratelor coeficienţilor acestor combinaţii liniare este 1.
Vectorii care cuprind cei p coeficienţi ai combinaţiilor liniare, sunt factorii
principali, sunt vectorii proprii ai matricei de corelaţie R, (descrescător după
valorile lor proprii). Aceste combinaţii se numesc componente principale. Suma
primelor k valori proprii este egală cu inerţia norului proiectat pe subspaţiul de
dimensiune k.
• De la p variabile cantitative, se caută noi variabile notate ck , necorelate între ele,
cât mai corelate cu cele p variabile iniţiale în sensul că:
max j
rc2k ,x j .
ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) - etape
Indiferent de prezentarea utilizată, ACP este o metodă factorială prin care se
construiesc noi variabile, ca fiind combinaţii liniare ale celor p variabile
iniţiale, necorelate între ele şi de varianţă maximă.
Etapele analizei sunt:
1. identificarea observaţiilor "aberante" (indivizi cu valori extreme, care
afectează valoarea medie; nonrăspunsurile);
2. centrarea şi reducerea observaţiilor iniţiale - necesară datorită eterogenităţii
unităţilor de măsură;
3. calculul unei matrici de corelaţii între variabilele iniţiale;
4. calculul combinaţiilor liniare - rezultatul este un tabel cu varianţele fiecărei
componente principale şi gradul de determinaţie al fiecăreia;
5. alegerea componentelor principale - două criterii, curent utilizate:
• se reţin acele componente care au valoarea proprie > 1, (criteriul lui
Kaiser), pentru că aduc mai multe informaţii decât variabilele iniţiale
(centrate şi reduse);
• graficul-test, care reprezintă varianţele componentelor principale; se
aleg acele componente ale căror puncte corespunzătoare nu se
situează pe o dreaptă cu care se pot uni celelalte. Numărul
componentelor de reţinut poate fi diferit faţă de cel ales prin criteriul
anterior, dar acest ultim criteriu se consideră mai eficient.
ACP - structurarea şi interpretarea
6. interpretarea componentelor principale - este facilitată de graficul cercul
corelaţiilor (care este proiecţia sferei unitate F, pe un plan delimitat de c1 şi c2 -
două componente principale în spaţiul F), ale căror coordonate reprezintă
coeficienţii de corelaţie ai variabilelor iniţiale cu componentele considerate două
câte două, rck ,x j .
7. vizualizarea indivizilor pe componentele principale, graficul indivizilor; se
reprezintă coordonatele indivizilor; se vizualizează astfel poziţia fiecăruia faţă de
componentele alese.
componenta 2
puternic
slab puternic
componenta 1
slab
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
inalt_in
0,0 rezervor
viteza
euro
Component 2
-,5
-1,0
-1,0 -,5 0,0 ,5 1,0
Component 1
Graficul indivizilor faţă de componentele principale - analiza 1
3 26265
2
REGR factor score 2 for analysis 1
13133
16230 33320
1
19256_S 26360
26265_S
15215 16250 26300
26425_S
12133
0 12133_A13215 21320
8140 15230
19300_S 21410
-1
7120
7110
7115
-2
-2 -1 0 1 2
lung
volum
amp
viteza
0,0
supraf
Component 2
-,5
-1,0
-1,0 -,5 0,0 ,5 1,0
Component 1
Graficul indivizilor - analiza a 2-a
2 21410 26425_S
26360
REGR factor score 2 for analysis 2
21320
19300_S 26300
1
33320
15230 16256
26265_S
15215
0 19256_S
13215
12133_A
7115 16230 26265
12133
8140
-1 7120
7110
13133
-2
-2 -1 0 1 2 3
– Protecția socială și
Fairly satisfied 3,33 Rather good 3,33
incluziunea.
Not very
SCI – pentru fiecare țară, satisfied -3,33 Rather bad -3,33
pentru EU27 până în 2012, Not at all
pentru EU28 în 2013. satisfied -10 Very bad -10
Not Not
Don't know scored Don't know scored
2,2
2
1,8
1,6
1,4
1,2
1
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
12
11
(% of GDP)
10
6
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Buss inv pess.B.inv opt.B.inv Years
Scenariul pesimist și optimist al previziunilor ratei
șomajului în EU, R2 =94.6%
14
12
10
(%)
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
unempl_rate pess.unemp opt.unemp Years
Cele două scenarii ale OSCI pe termen scurt și mediu
-1 -0,7 -0,7 -0,6 -0,8 -0,9 -0,8 -0,8 -0,8 -0,8 -0,8
-2 -1,4
-1,8
-3 -2,4
-3,1
-4
-3,9
-5
opt. SCI pess. SCI
Concluzii (1)
• Comportamentul uman se schimbă încet - SCI în țările
UE, în perioada 2009-2013. Valorile extreme ale SCI au
fost între -0.6 în 2011 și -0.9 în 2013, arătând mai
degrabă o percepție negativă (“rather bad”) a situației
curente în țările lor și nu foarte satisfăcuți (rather ”not
very satisfied”) cu situația personală.
• Situația națională este în general mai slab evaluată,
decât situația personală.
• Analiza poziției țărilor în funcție de unii indicatori ce
caracterizează SCI, determină 2 componente principale:
– Dezvoltarea socio-economică și
– Piața forțeide muncă.
Concluzii (2)
• Modelele econometrice ale SCI în 2012 și 2013 în funcție de rata
șomajului și CPI, principali factori de influență ai percepțiilor
populației Europene cu privire la climatul social. Valorile
teoretice obținute au fost egale cu cele din Eurobarometru.
• Componenta ocupare/șomaj este cea care diferențiază
dezvoltare socio-economică între țările UE. Această idee a fost
cu succes demonstrată de rezultatele modelării econometrice
ale SCI. Pentru previziunea SCI, este suficient să se previzioneze
rata șomajului, pentru că CPI rămâne constant, în situația cea
mai nefavorabilă.
Concluzii (3)
• Factorii de influență ai ratei șomajului în fiecare țară UE sunt:
investițiile făcute de guvern și cele în mediul de afaceri.
Folosind metodele econometrice au fost obținute valorile
viitoare ale investițiilor viitoare ale guvernului și ale mediului
de afaceri, ca ponderi în PIB, oferind două scenarii: unul
pesimist și altul optimist.
• Previziunea SCI folosește valorile viitoare ale ratei șomajului
și ale CPI existent în 2013, pentru a oferi cele două scenarii.
• Concluzia acetei lucrări:
Climatul social în țările UE depinde de politicile naționale ale
pieței muncii și de politicile investiționale atât la nivel național
cât și la nivelul UE.
Analiza tipologică – Analiza cluster
(clasificarea)
Scopul utilizării metodei
• Analiza cluster este o metodă modernă de analiză a
datelor, utilizată în cazul unui eşantion complex, când
nu se poate determina un comportament caracteristic,
global, pe baza datelor sale.
• Se recurge la metode de reducere a numărului de
variabile şi regrupare prin asocierea cât mai naturală a
unităţilor statistice într-un număr cât mai mic posibil
de elemente ale eşantionului. Această grupare conduce
la obţinerea unor clase de elemente numite „clustere”.
Metodele analizei cluster
Diferă între ele, în funcţie de:
f ik ni . p
P=(pik), unde pik
n
, unde n
. f ik
i 1 k 1
j
( x
j 1
x ) ij i i
2
( x x ) (
i 1 j 1
x x ) 22
ni
i 1
x – este media generală,
x i – este media grupului i,
xij - este valoarea x observată pentru al j-a individ, situat în grupul i,
i = 1, r , unde r este numărul de grupe, iar
ni - este volumul fiecărei grupe i.
Metoda lui Ward (2)
În cazul mai multor variabile, se înlocuiesc mediile cu centrele de greutate: zi pentru
grupe şi z, centrul de greutate general şi sumele pătratelor abaterilor cu sumele
pătratelor distanţelor între observări şi centrele de greutate, ecuaţia analizei varianţei
p r p r
devenind:
d
j 1
2
( x j , z ) d ( x ij , zi ) ni d ( zi , z )
2
i 1 j 1 i 1
2
i p p i p i p p p
d 2
(
ip p
x , z ) d 2
( x ,
ip
z ) d 2
( x , z )
ip
n d 2
( z , z ) n p d 2
( z p , z )
La dreapta semnului egal, primii doi termeni reprezintă inerţia intra-grupe pentru cele
două grupe p şi p, iar ultimii doi termeni reprezintă inerţia inter-grupe.
Dacă cele două grupe se unesc formând o singură grupă, această expresie a
varianţei devine parte integrantă a inerţiei intra-grupe, în locul primilor doi termeni
care contribuie la inerţia intra-grupe înainte de fuzionare.
Astfel noua inerţie intra-grupe este mai mare decât suma inerţiilor intra-grupe înainte
de agregare, cu cantitatea: D 2 ( p, p) n d 2 (z , z ) n d 2 (z , z)
p p p p
Metoda lui Ward (3)
• Principiul metodei momentului de ordinul doi este de a alege ca
pereche de grupe de agregat, aceea care minimizează inerţia
intra-grupe (arată omogenitatea).
• Inconvenientele acestei metode sunt:
– nivelul nodurilor ierarhiei obţinute reprezintă o creştere a
inerţiei proporţională cu pătratul distanţelor, producând o
alungire excesivă a arborelui în sus, şi o tasare a nivelelor spre
baza acestuia considerându-le ca fiind mai omogene decât sunt
în realitate;
– slaba capacitate de a detecta indivizii izolaţi, sau grupurile mai
retrase.
Metode neierarhice (1)
• Se aleg a priori indivizii care servesc ca modele pentru regruparea altor indivizi.
• Se fixează a priori un număr de grupe, reprezentate fiecare printr-un individ-tip.
• Ansamblul celorlalţi indivizi este afectat acestor grupe, după variabile şi criterii,
care toate vizează minimizarea inerţiei intra-clase (în interiorul grupelor) şi
maximizarea inerţiei inter-clase (între grupuri).
i1 i2 i3 i4 i5 i6
Indivizii: i1, i2, i3, i4, i5 şi i6 sunt plasaţi la extremitatea inferioară a ramurilor arborelui, iar
nodurile sunt numerotate în continuare: N7, N8, N9, N10 şi N11. Trunchierea arborelui la
nivelul aproximativ 45, a determinat apariţia a trei clase: i1, i2, i3, i4, i5, i6.
Rezumat: Analiza cluster – metodă de clasificare
( xik x k )
N N
xik ik
( x x ) 2
yik
xk k
i 2 i 1
k
N N
ik
m
d ik ik kj
( y y ) 2 d ik 0 ik
j 1
• Matricea distanţelor
0
d 0
21
D d 31 . 0 . .
. . . . .
d N 1 dN2 . d NN 1 0
• se alege valoarea minimă între doi indivizi, care vor forma prima
clasă
• se calculează valorea medie a variabilelor pentru elementele
grupului
• se construieşte o nouă matrice a distanţelor
• se reia procedura, prin căutarea distanţei minime din noua
matrice a distanţelor ş.a.m.d.
3. Studiu de caz pentru regiunile din România
regiuni VARIABILELE
1 2 3 4 5 6 7
NE 3.11 2.42 2.19 1.65 3.85 1.47 4.07
SE 3.02 2.49 2.14 2.53 3.04 2.48 2.56
S 2.90 3.22 2.18 1.53 2.59 1.42 3.52
SV 2.45 2.42 2.14 1.77 3.13 3.03 1.90
V 2.69 2.78 2.10 2.88 2.59 2.34 1.27
NV 2.88 2.64 2.14 2.25 1.74 2.13 2.93
C 2.87 3.73 2.13 2.76 2.54 2.55 2.43
BUC. 0.08 0.30 4.97 4.63 0.52 4.58 1.30
Matricea distanţelor euclidiene (1)
MATRICEA DISTANTELOR
NE SE S SV V NV C BUC
.
NE 0.00 2.18 1.61 2.84 3.46 2.58 2.93 7.66
SE 2.18 0.00 1.95 1.28 1.48 1.44 1.37 6.18
S 1.61 1.95 0.00 2.54 2.83 1.57 2.07 7.29
SV 2.84 1.28 2.54 0.00 1.61 2.06 1.93 5.99
V 3.46 1.48 2.83 1.61 0.00 1.99 1.53 5.80
NV 2.58 1.44 1.57 2.06 1.99 0.00 1.59 6.09
C 2.93 1.37 2.07 1.93 1.53 1.59 0.00 6.38
BUC. 7.66 6.18 7.29 5.99 5.80 6.09 6.38 0.00
Noua matrice a valorilor standardizate
Regiuni VARIABILELE
1 2 3 4 5 6 7
• A1={SV, SE}
• A2={SV, SE, V}
• A3={SV, SE, V, C}
• A4={SV, SE, V, C, NV}
• B1={S, NE}
• A5={SV, SE, V, C, NV, B1}=
={SV, SE, V, C, NV, S, NE}
• A6={SV, SE, V, C, NV, S, NE, BUC}.
Concluzii
CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
SE 2 -+-+
SV 4 -+ +---+
V 5 ---+ +-----+
C 7 ---+ I I
S 3 ---+---+ +-----------------------------------+
NV 6 ---+ I I
NE 1 -------------+ I
BUC. 8 -------------------------------------------------+
*******************HIERARCHICAL CLUSTER ANALYSIS***********
********
CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
SE 2 ─┐
SV 4 ─┤
V 5 ─┤
C 7 ─┼─┐
NV 6 ─┘ ├───┐
S 3 ───┘ ├───────────────────┐
NE 1 ───────┘ │
BUC 8 ───────────────────────────┘
Metoda segmentării
Metoda segmentării
• presupune, în principal identificarea utilizatorilor
unui produs plecând de la o serie de caracteristici
calitative: sex, vârstă, categorie socio-profesională,
venit mediu etc.;
• separarea lor în segmente, cât mai diferite între ele.
• Variabila explicată (dependentă) poate fi cantitativă
sau calitativă, iar variabilele explicative sunt
întotdeauna calitative şi se mai numesc variabile de
segmentare sau predictori.
Arborele de segmentare
• Rezultatul acestei tehnici speciale de tip explicativ, îl
constituie arborele de segmentare, care prezintă
grafic, partiţionarea progresivă a populaţiei iniţiale
eterogene, în clase omogene, subpopulaţii,
segmente, cât mai diferite între ele.
D
m n
n
ij n
* 2
ij
, unde i = 1, 2, ... , m
i 1 j 1 nij*
individ atipic
R2=54.03%, P=90%
R2=60.4%, P=95%